概要
この資料に Tetration Analytics クラスタの健全性を確認する方法を記述されています。
前提条件
要件
次の項目に関する知識が推奨されます。
- クラスタにログイン すること
- 基本的なユーザインターフェイス(UI)エクスペリエンス
使用するコンポーネント
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づくものです。
- バージョン 2.2.1.x
- 39RU Tetration Analytics クラスタ
本書の情報は、特定のラボ環境にあるデバイスに基づいて作成されたものです。 このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。 稼働中のネットワークで作業を行う場合、コマンドの影響について十分に理解したうえで作業してください。
背景説明
Tetration クラスタは複数の UCS C220-M4 サーバの複数の VM [Vitual マシン]を渡って動作する何百ものプロセス(プログラム)で構成されています。 クラスタがフル機能装備ではないかもしれないとき複数のサービスおよび機能はクラスタのオペレーションを監視し、管理者の警告を助けるようにきちんと整っています。
この資料はクラスタの健全性を確認するときチェックすればいいのか何をのビューを提供したものです。 ようであるものが適切に機能しない何かですためにスナップショットを集めるために、Cisco Tetration ソリューションサポート TACチームが付いているケースをオープンするこの資料のスコープが健全性を確認することが含まれている間、操作が当たり助けるように必要となる場合。
クラスタの健全性をクラスタ ステータス確認し、他の幾つかのシステム ツールと共にこの資料でカバーされる状態ページを保守するのに使用される 2 つの普通 工具がです。 Bosun 重要な eメール通知が頻繁に何かがクラスタに発生するかもしれない管理者へ最初の示す値の 1 つであるけれどもクラスタの健全性を確認することは一般的に クラスタ ステータスおよびサービス状態ページを通してされる推奨です。
ボゾン アラートが機能のような Syslog を提供する間、Tetration で、いくつかの重要な Bosun アラート引き起こされました普通機能クラスタでリリースします。 メトリックキーワードの Tetration 製品のための cisco.com 不具合 検索ツールを通した検索は特定のメトリックのための潜在的な問題の識別を助けます。
いつクラスタの健全性をチェックするか:
通常、クラスタの管理者はクラスタの機能性をチェックする必要がありません。 しかし必要であるかもしれないある特定の時があっても。 少数の例はここにリストされています:
- ユーザがユーザインターフェイス(UI)の予期せぬ動作を見る時。 一部にはこれはユーザのナレッジおよびエクスペリエンスにクラスタがどのようにの機能する必要があるが、いくつかの例がこのセクション操作上ディスプレイ パラメータで示されているか基づいています。
- データが見られると UI で表示する期待されるそれ時。 たとえば、ソフトウェアまたはハードウェア エージェント(センサー)からのフロー データ データが表示する期待される適切なスコープをおよび表示した場合時間 範囲を。
- クラスタの定期航空便、アップグレード、または主要な操作の前後。 それは TAC ケースがオープンされればスナップショット前におよび別のスナップショットを集める最良の方法後あらゆるメンテナンスでした、この利用可能があります。 これはメンテナンスの間に行う変更を探すことによって問題を特定するために TAC を助けます。
注: いくつかのサービス中断はクラスタのシステム 保全に続いてしばらく正常です。 ある一定の時間は datanode VM がそのサーバで動作するサーバ 置換の例の 24 時間までであるかもしれないです。 クラスタの正常なシステム 冗長性は一般的に 単一サーバ 置換の悪影響を軽減します。
Tetration クラスタのオペレーショナル ステートを確認するさまざまな方法
操作上ディスプレイ パラメータ
クラスタのオペレーションのナレッジおよびエクスペリエンスがある管理者はクラスタの正常な動作が環境をのように見えるもの認識できます。 これらはクラスタは普通オペレーティングであるかどうか確かめなさい時探すべきことの少数の例です。
例 1: 最新のフロー 空き時間は現在の時刻の 10 分以内にあります
例 2: 最新のアプリケーション作業空き時間は現在の時刻の 10 時間以内にあります:
例 3: ダッシュボード コンテンツは読み込まれます。
クラスタ ステータス
Tetration Analytics クラスタは 6 (8RU で)構成されていますまたはクラスタによる 36 の(39RU)サーバは入力します。 Status ページ クラスタはサーバ、また他のベアメタル サーバ 情報の状態を提供します。
Status ページ クラスタはドロップダウン設定から利用可能 な Maintenance メニューにあります(設定 > Maintenace; 左カラムのクラスタ ステータス。)
注: 左手カラムをクリックするまでアイコンだけ目に見えます。
クラスタで Status ページ クラスタはクラスタのすべてのサーバのリストを表示する。 機能サーバはここに示されているように
依託しましたアクティブの
ステータス状態をの表示する。
注: イメージは 36 のサーバ(39RU クラスタ)の最初の 6 に切捨てられます。
ステータスが非アクティブを示す場合、これはサーバを一般的に動力を与えられないし、可能性としてはケーブルか接続上の問題がないかどれが指します。
下記のものを含めてリストのサーバをクリックするので、その特定のサーバについての additonal 情報は表示する、:
- ベアメタル サーバで動作する例(仮想マシン)。
- クラスタ内のプライベート IP アドレス。
- CIMC クラスタ内の IP アドレス。
- サーバで動作するファームウェアのバージョン(BIOS、CIMC、RAID コントローラ)。
ステータスを保守して下さい
ServiceStatus ページ表示依存関係およびヘルス ステータスと Cisco Tetration Analytics クラスタで使用するすべてのサービス。
Status ページ サービスはドロップダウン設定から利用可能 な Maintenance メニューにあります。 (設定 > Maintenace; 左カラムのステータスを保守して下さい。)
注: 左手カラムをクリックするまでアイコンだけ目に見えます。
デフォルトで Status ページ サービスはグラフィカル ビューでクラスタ 機能および依存関係を示します。 アイコンがすべてグリーンである場合、No エラーは検出する。
レッドかオレンジで表示するサービスがあれば、ツリー表示はサービスのリストおよびサービスの依存関係の、またサービス ステータス機能が検出する他の詳細ことをのドリルダウンに許可するため示します。 この依存関係 エラー情報は TAC のケースをオープンするとき注意し、キャプチャ してが特に重要です。
たとえばクラスタの HDFS DataNode 仮想マシンの 1 つがダウンしているとき、ここにリスト ディスプレイが見えるものにです
注: Tetration クラスタに組み込まれている冗長性によるクラスタへ顕著な影響がないかもしれません。
注: メンテナンスが実行された後機能状態に戻っているある特定のサービスに遅延があるかもしれません。 たとえば、サーバは検出する問題の前に 24 時間程それで動作する DataNode 仮想マシン例がある RMA メンテナンスのために解放 され、再任命されるクリアしますかかるかもしれません。
起こるかもしれないものが検出する問題の場合に詳細 稼働中ステータスが示すけれども推奨事項は remediate にそれらを奪取 する意味や可能性操作についての質問がある場合 TAC ケースをオープンすることです。
Bosun アラート
Bosun は使用されているかブートで開始するクラスタで動作しているサービス(プログラム)のさまざまなメトリックを監察するのにどれが Tetration Analytics クラスタでオープン ソース モニタリング 警告 システムであり。 サービスは普通実行されている場合、openTSDB のメトリックを読み込みます。 openTSDB のサービスのメトリックの Bosun プログラム外観は判別する bosun ルールをかどうか現在のメトリックの警告 するために適用し。 Bosun アラートはモニタリング > センチネル[アラート]の下のクラスタ UI でローカルで見られるかもしれません。
潜在的なクリティカル条件のクラスター アドミニストレータに警告する Bosun 使用メール(クラスタ サイト設定 site_bosun_email に送信 される)そのメトリックのためのしきい値が超える場合の。 Bosun はメールの 3 つの型を生成します:
Crtiical: Bosun アラート ルールのためのメトリックが設定された閾値を超過する時
標準: メトリックがしきい値の下で下れば「重要な」メールに続きます
要約: 通常 6 時間毎に送信 し、6 時間ウィンドウの間にアラートの要約を表示します
eメール通知の例:
重要(intentservice.checkMissingIntentService メトリックのために):
標準:
要約:
重要なアラートは問題のメトリック、時、しきい値、測定されたデータ点および説明 情報が含まれています。 たとえば、アラートはサービスが openTSDB に故障していなくて、もはやメトリックを供給しているとき生成されるかもしれません。 Bosun 重要なアラートの意味および潜在的影響は開きますよりよくコンテキストを理解し、アラートの意味を説明するために TAC ケースを必要とするかもしれません。
スナップショットを集め、TAC ケースをオープンして下さい
Cisco Tetration ソリューション チームは Tetration Analytics 顧客を専門にし、サポートします。 トラブルシューティング プロセスと TAC エンジニアを最も助ける共通 品目の 1 つはクラスタからのログのスナップショット 収集です。 スナップショット ログファイルに含まれている情報だけ時々問題を理解する十分です。 そうでなかったら、スナップショットはトラブルシューティング プロセスの開始点を多くの場合提供します。
Tetration クラスタのスナップショットはその他のCisco製品の techsupport に類似したです。 それはすべてのサーバおよび仮想マシンからの圧縮された tarball ファイルまたはログファイルで、下記のものを含んでいます:
- ログ
- Hadoop/YARN アプリケーションおよびログの状態
- アラート履歴
- 多数の TSDB 統計情報
スナップショット ページは設定プルダウンから利用可能 な Maintence メニューで取付けられます。 (設定 > Maintenace; 左カラムのスナップショット。)
注: 左手カラムをクリックするまでアイコンだけ目に見えます。
スナップショット ページは TAC エンジニアによって指示されて、デフォルト値選択するさまざまなオプションをスナップショットを集めるのに使用することができます提供しません。
修正するべき 1 つの重要な分野はコメントです。 コメントはクラスタから集められる複数のスナップショットがあり、追加されるコメントが Cisco TAC によって分析の間にスナップショットの中でまた利用できるときスナップショットがなぜ集められたか示すために情報を提供する必要があります。
Create ボタンがクリックされるとき、スナップショット プロセスは開始されます。 1 つのスナップショットだけ一度に作成することができ、完了するためにプロセスのための数分かかります。 スナップショット 収集のための経過表示バーはスナップショット ページの上で見られます。
スナップショットはユーザのローカルシステムにイメージに示すようにスナップショット ページの適切なダウンロード リンクをクリックしたと同時にそれから、ダウンロードすることができます:
注: スナップショット ファイルは数百メガバイト大きいかもしれません。 このファイルは開いた TAC ケースにそれからアップロードすることができます。
関連情報