Cluster Server 7.3.1 管理者ガイド - Linux
- 第 I 部 クラスタ化の概念と用語
- Cluster Server の概要
- Cluster Server について
- クラスタ制御のガイドラインについて
- VCS の物理コンポーネントについて
- VCS の論理コンポーネント
- クラスタトポロジーについて
- VCS 設定の概念
- Cluster Server の概要
- 第 II 部 管理 - VCS の利用方法
- VCS ユーザー権限モデルについて
- コマンドラインによるクラスタの管理
- コマンドラインでの VCS の管理について
- VCS ライセンスのインストールについて
- LLT の管理
- VCS の起動
- VCS エンジンと関連プロセスの停止
- VCS へのログイン
- VCS 設定ファイルの管理について
- コマンドラインによる VCS ユーザーの管理について
- VCS のクエリーについて
- サービスグループの管理について
- リソースの管理について
- リソースタイプの管理について
- クラスタの管理について
- VCS でのアプリケーションとリソースの設定
- UNIX の VCS 付属エージェント
- NFS サービスグループの設定
- RemoteGroup エージェントの設定について
- Samba サービスグループの設定について
- HA ファイアドリルを使ったリソースフェールオーバーのテストについて
- InfoScale Enterprise を AWS で使用した HA および DR の設定
- Azure 環境での HA および DR の設定
- VCS Simulator を使った VCS の動作の予測
- 第 III 部 VCS 通信と操作
- クラスタの通信、メンバーシップ、データ保護について
- クラスタ通信について
- クラスタメンバーシップについて
- メンバーシップアービトレーションについて
- データ保護について
- I/O フェンシングを使う VCS 操作の例
- I/O フェンシングを使わない、クラスタメンバーシップとデータ保護について
- I/O フェンシングを使わない VCS 動作の例
- I/O フェンシングの管理
- vxfentsthdw ユーティリティについて
- vxfentsthdw の -c オプションを使ったコーディネータディスクグループのテスト
- vxfenadm ユーティリティについて
- vxfenclearpre ユーティリティについて
- vxfenswap ユーティリティについて
- コーディネーションポイントサーバーの管理について
- ディスクベースとサーバーベースのフェンシング設定間の移行について
- VCS の動作の制御
- リソース障害時の VCS の動作
- サービスグループレベルでの VCS 動作の制御について
- リソースレベルでの VCS 動作の制御について
- ストレージ接続消失時の VCS 動作
- サービスグループワークロード管理
- ワークロード管理を示した設定例
- サービスグループの依存関係のロール
- クラスタの通信、メンバーシップ、データ保護について
- 第 IV 部 管理 - 高度な操作
- VCS イベント通知
- VCS イベントトリガ
- イベントトリガの使用
- イベントトリガの一覧
- Virtual Business Services
- 第 V 部 Veritas High Availability 設定ウィザード
- 第 VI 部 ディザスタリカバリ用のクラスタ設定
- クラスタの相互接続 - グローバルクラスタの作成
- コマンドラインによるグローバルクラスタの管理
- RDC(Replicated Data Cluster)の設定
- キャンパスクラスタの設定
- 第 VII 部 トラブルシューティングおよび処理速度
- 処理速度に関する注意事項
- クラスタコンポーネントの処理速度に対する影響
- クラスタ操作の処理速度に対する影響
- システムパニックのときの VCS の処理速度に関する注意事項
- スケジュールクラスと優先度の設定について
- VCS エージェントの統計機能
- VCS のチューニングパラメータについて
- VCS のトラブルシューティングおよびリカバリ
- VCS メッセージログ
- VCS エンジンのトラブルシューティング
- LLT(Low Latency Transport)のトラブルシューティング
- GAB(Group Membership Services/Atomic Broadcast)のトラブルシューティング
- VCS の起動に関するトラブルシューティング
- systemd ユニットサービスファイルの問題のトラブルシューティング
- サービスグループに関するトラブルシューティング
- リソースに関するトラブルシューティング
- トラブルシューティングのサイト
- I/O フェンシングのトラブルシューティング
- フェンシングの起動時にすでに発生しているスプリットブレイン状態が報告される
- CP サーバーのトラブルシューティング
- VCS クラスタノードでのサーバーベースのフェンシングのトラブルシューティング
- コーディネーションポイントのオンライン移行中の問題
- 通知に関するトラブルシューティング
- グローバルクラスタのトラブルシューティングとリカバリ
- ライセンスに関するトラブルシューティング
- ライセンスのエラーメッセージ
- セキュア設定のトラブルシューティング
- ウィザードベースの設定に関する問題のトラブルシューティング
- [Veritas High Availability]ビューの問題のトラブルシューティング
- 処理速度に関する注意事項
- 第 VIII 部 付録
GAB クライアントプロセス障害について
GAB へのハートビート送信を行う HAD などの GAB クライアントプロセスが失敗した場合、このプロセスは強制終了します。 カーネルでプロセスがハングアップするか、または強制終了できない場合、GAB はシステムを停止させます。 gabconfig コマンドで -k オプションを使うと、GAB は、成功するまでクライアントプロセスの強制終了を試みます。この操作は、クラスタ全体に影響を及ぼす可能性があります。gabconfig コマンドで -b オプションを使うと、GAB は、クライアントプロセスの強制終了を行いません。代わりに、プロセスがハートビートの送信に失敗すると、システムにパニックを引き起こします。このオプションは、一度設定するとオフにはできません。
HAD は、定期的に GAB とのハートビートを行います。30 秒(デフォルト値)のハートビートタイムアウトの間 GAB に登録します。(CPU 負荷ごとの)ノードの負荷平均を決定するのに GAB が動的な動作を示すようにするため、VCS の環境変数 VCS_GAB_TIMEOUT_SECS と VCS_GAB_PEAKLOAD_TIMEOUT_SECS を設定できます。変数の値と平均システム負荷を使って、GAB は HAD を強制終了した後の猶予期間を決定します。
ノードの平均負荷が最小で HAD がカーネルでハングアップして VCS_GAB_TIMEOUT_SECS タイムアウト内に GAB とハートビートできないような場合、GAB は SIGABRT 信号を送信して HAD を強制終了しようとします。試行が失敗すると、GAB は再試行の数が gab_kill_ntries-1 の値に達するまで再試行します。GAB が SIGABRT 信号で HAD を強制終了できない場合、GAB は SIGKILL を送信してポートを閉じます。平均負荷が最小のとき、GAB は負荷に動的に適応しないため、HAD の存続を維持する猶予期間を決定する VCS_GAB_PEAKLOAD_TIMEOUT_SECS タイムアウト値を考慮しません。
ノードの平均負荷が高い場合、HAD は CPU 負荷またはファイルシステムとの I/O パスの遅延のために GAB と通信できません。オペレーティングシステムは平均負荷に応じて GAB に負荷の平均数を送信します。負荷の平均数は 5(最小負荷)から 10(最大負荷)の範囲です。GAB は負荷の平均数を使い、VCS_GAB_TIMEOUT_SECS 変数と VCS_GAB_PEAKLOAD_TIMEOUT_SECS 変数でユーザーが指定した範囲内の負荷に基づいて指数関数的に変化する猶予期間を計算します。GAB は SIGABRT 信号を送信することによって HAD を強制終了した後の猶予期間の間 HAD がハートビートを送信するのを待機します。SIGABRT 信号の後でも GAB が強制終了できない場合は、SIGKILL を送信し、ポートを閉じます。
HAD のタイムアウト期間の計算で GAB によって考慮されるチューニングパラメータ:
GAB は VCS_GAB_TIMEOUT_SECS と VCS_GAB_TIMEOUT の両方のタイムアウトが設定されている場合、VCS_GAB_TIMEOUT_SECS タイムアウトを考慮して HAD のタイムアウト期間を計算します。
GAB は VCS_GAB_TIMEOUT_SECS タイムアウトが設定されていない場合、VCS_GAB_TIMEOUT タイムアウトを考慮します。
VCS_GAB_PEAKLOAD_TIMEOUT_SECS タイムアウトが設定されていない場合、またはその値が VCS_GAB_TIMEOUT_SECS タイムアウトと同じ場合、GAB は HAD の猶予期間の決定に指数関数的に適応できません。
デフォルトでは、ポートを閉じる前に GAB は HAD の強制終了を 5 回試行します。GAB が HAD の強制終了を試行する回数は、カーネルチューニングパラメータの gab_kill_ntries で設定できます。このチューニングパラメータの最小値は 3、最大値は 10 です。
ポートを閉じることにより、このノードの HAD が強制終了したことを他のノードに示します。停滞状態から復旧すると、HAD はまず、保留中の信号を処理します。このとき、HAD は最初に SIGKILL を受信するため、強制終了されます。
GAB は SIGKILL 信号の送信後、HAD が強制終了するまでの所定時間待機します。この時間を経過しても HAD が動作している場合、GAB はシステムにパニックを引き起こします。 この制限時間は、カーネルチューニングパラメータの gab_isolate_time で設定できます。タイマーの最小値は 16 秒、最大値は 4 分です。