Cluster Server 7.3.1 管理者ガイド - Linux
- 第 I 部 クラスタ化の概念と用語
- Cluster Server の概要
- Cluster Server について
- クラスタ制御のガイドラインについて
- VCS の物理コンポーネントについて
- VCS の論理コンポーネント
- クラスタトポロジーについて
- VCS 設定の概念
- Cluster Server の概要
- 第 II 部 管理 - VCS の利用方法
- VCS ユーザー権限モデルについて
- コマンドラインによるクラスタの管理
- コマンドラインでの VCS の管理について
- VCS ライセンスのインストールについて
- LLT の管理
- VCS の起動
- VCS エンジンと関連プロセスの停止
- VCS へのログイン
- VCS 設定ファイルの管理について
- コマンドラインによる VCS ユーザーの管理について
- VCS のクエリーについて
- サービスグループの管理について
- リソースの管理について
- リソースタイプの管理について
- クラスタの管理について
- VCS でのアプリケーションとリソースの設定
- UNIX の VCS 付属エージェント
- NFS サービスグループの設定
- RemoteGroup エージェントの設定について
- Samba サービスグループの設定について
- HA ファイアドリルを使ったリソースフェールオーバーのテストについて
- InfoScale Enterprise を AWS で使用した HA および DR の設定
- Azure 環境での HA および DR の設定
- VCS Simulator を使った VCS の動作の予測
- 第 III 部 VCS 通信と操作
- クラスタの通信、メンバーシップ、データ保護について
- クラスタ通信について
- クラスタメンバーシップについて
- メンバーシップアービトレーションについて
- データ保護について
- I/O フェンシングを使う VCS 操作の例
- I/O フェンシングを使わない、クラスタメンバーシップとデータ保護について
- I/O フェンシングを使わない VCS 動作の例
- I/O フェンシングの管理
- vxfentsthdw ユーティリティについて
- vxfentsthdw の -c オプションを使ったコーディネータディスクグループのテスト
- vxfenadm ユーティリティについて
- vxfenclearpre ユーティリティについて
- vxfenswap ユーティリティについて
- コーディネーションポイントサーバーの管理について
- ディスクベースとサーバーベースのフェンシング設定間の移行について
- VCS の動作の制御
- リソース障害時の VCS の動作
- サービスグループレベルでの VCS 動作の制御について
- リソースレベルでの VCS 動作の制御について
- ストレージ接続消失時の VCS 動作
- サービスグループワークロード管理
- ワークロード管理を示した設定例
- サービスグループの依存関係のロール
- クラスタの通信、メンバーシップ、データ保護について
- 第 IV 部 管理 - 高度な操作
- VCS イベント通知
- VCS イベントトリガ
- イベントトリガの使用
- イベントトリガの一覧
- Virtual Business Services
- 第 V 部 Veritas High Availability 設定ウィザード
- 第 VI 部 ディザスタリカバリ用のクラスタ設定
- クラスタの相互接続 - グローバルクラスタの作成
- コマンドラインによるグローバルクラスタの管理
- RDC(Replicated Data Cluster)の設定
- キャンパスクラスタの設定
- 第 VII 部 トラブルシューティングおよび処理速度
- 処理速度に関する注意事項
- クラスタコンポーネントの処理速度に対する影響
- クラスタ操作の処理速度に対する影響
- システムパニックのときの VCS の処理速度に関する注意事項
- スケジュールクラスと優先度の設定について
- VCS エージェントの統計機能
- VCS のチューニングパラメータについて
- VCS のトラブルシューティングおよびリカバリ
- VCS メッセージログ
- VCS エンジンのトラブルシューティング
- LLT(Low Latency Transport)のトラブルシューティング
- GAB(Group Membership Services/Atomic Broadcast)のトラブルシューティング
- VCS の起動に関するトラブルシューティング
- systemd ユニットサービスファイルの問題のトラブルシューティング
- サービスグループに関するトラブルシューティング
- リソースに関するトラブルシューティング
- トラブルシューティングのサイト
- I/O フェンシングのトラブルシューティング
- フェンシングの起動時にすでに発生しているスプリットブレイン状態が報告される
- CP サーバーのトラブルシューティング
- VCS クラスタノードでのサーバーベースのフェンシングのトラブルシューティング
- コーディネーションポイントのオンライン移行中の問題
- 通知に関するトラブルシューティング
- グローバルクラスタのトラブルシューティングとリカバリ
- ライセンスに関するトラブルシューティング
- ライセンスのエラーメッセージ
- セキュア設定のトラブルシューティング
- ウィザードベースの設定に関する問題のトラブルシューティング
- [Veritas High Availability]ビューの問題のトラブルシューティング
- 処理速度に関する注意事項
- 第 VIII 部 付録
オンラインのリソースに障害が発生した場合の VCS 動作
次の場合、オンライン状態のリソースは、エージェントからオフライン化のコマンドが発行されなくても、オフラインとして報告されます。
オンラインリソース障害のとき、VCS では次の手順が実行されます。
まず、VCS は所定の時間内に monitor ルーチンが正常に完了するかどうかを確認します。正常に完了する場合、VCS は monitor ルーチンから返された終了コードを調べます。monitor ルーチンが所定の時間内に正常に完了しない場合、VCS は FaultOnMonitorTimeouts(FOMT)属性を調べます。
FOMT=0 の場合、monitor ルーチンがタイムアウトしてもリソースの障害にはなりません。VCS は、このリソースをオンラインであると見なし、ポーリング間隔に従って定期的に監視します。
FOMT が 1 以上の場合、VCS は CurrentMonitorTimeoutCount(CMTC)と FOMT の値を比較します。監視タイムアウトカウントがタイムアップしていない場合、VCS は CMTC を 1 つずつ増やし、リソースを次のサイクルで監視します。
FOMT=CMTC の場合、使用可能な監視タイムアウトカウントが終了したことになり、VCS は修正アクションを実行することになります。 VCS はサービスグループの Frozen 属性をチェックします。サービスグループがフリーズされている場合、VCS はリソース障害の発生を宣言し、resfault トリガを呼び出します。以降、アクションは実行されません。
サービスグループをフリーズしていない場合、VCS はリソースレベルで ManageFaults 属性を調べます。VCS は、属性のグループレベルの値が NONE の場合やリソースレベルの値が IGNORE の場合はリソースを ONLINE|ADMIN_WAIT としてマーク付けします。ManageFaults 属性をリソースレベルで ACT に設定した場合やグループレベルで ALL に設定した場合は、モニターがハングした (Monitor Hung) という理由で Clean 機能を呼び出します。
メモ:
リソースレベルの ManageFaults の値は対応するサービスグループレベルの値に優先します。サービスグループレベルの ManageFaults の値は、対応するリソースレベルの値が空白 ("") の場合にのみ優先されます。
Clean 機能が正常に終了する(Clean の終了コード = 0)場合、VCS は RestartLimit 属性値を調べます。 Clean が失敗(終了コード = 1)の場合、リソースは UNABLE TO OFFLINE の状態でオンラインを継続します。VCS は resnotoff トリガを起動し、このリソースを再度監視します。
Monitor ルーチンがタイムアウトしない場合、このルーチンは、リソースの状態としてオンラインまたはオフラインを返します。
ToleranceLimit(TL)属性の設定が 0 以外の場合、監視周期中に、TL で指定されている回数の OFFLINE(終了コード= 100)を返すまで、ToleranceCount(TC)を 1 ずつ増やします。ToleranceCount が ToleranceLimit と等しくなると(TC = TL)、エージェントはリソースに障害が発生したと宣言します。
監視周期中に Monitor ルーチンが ONLINE(終了コード= 110)を返すと、エージェントは以降のアクションを実行しません。ConfInterval で指定されている時間、リソースのオンラインが継続すると、ToleranceCount 属性は 0 にリセットされます。
ToleranceCount がリセットされるまで(TC = TL になるまで)に、ToleranceLimit で指定されている回数だけリソースがオンラインとして検出されると、そのリソースは障害が発生したと見なされます。
リソースがオンラインではないことをエージェントが確認した後、VCS はサービスグループの Frozen 属性をチェックします。サービスグループがフリーズされている場合、VCS はリソース障害の発生を宣言し、resfault トリガを呼び出します。以降、アクションは実行されません。
サービスグループがフリーズされていない場合、VCS は ManageFaults 属性をチェックします。 ManageFaults 属性が NONE に設定されている場合、VCS は、このリソース状態を ONLINE|ADMIN_WAIT としてマークし、resadminwait トリガを呼び出します。ManageFaults が ALL の場合、VCS は、CleanReason を Unexpected Offline に設定した状態で Clean 機能を呼び出します。
Clean 機能が失敗(終了コード = 1)の場合、リソースは UNABLE TO OFFLINE の状態でオンラインを継続します。VCS は resnotoff トリガを起動し、このリソースを再度監視します。リソースは、Clean 機能が正常に終了するかユーザーが介入するまで、Monitor 機能の周期と Clean 機能の周期が交互に繰り返されます。
Clean 機能が正常に終了すると、VCS は RestartLimit(RL)属性値を調べます。RL 属性の設定が 0 以外の場合、VCS は RestartCount(RC)属性を 1 ずつ増やし、Online 機能を呼び出します。この手順は、RestartLimit の値が RestartCount の値と等しくなるまで繰り返されます。このとき、VCS はリソースの監視を試みます。
monitor ルーチンがオンライン状態を返す場合、VCS は、リソースがオンラインであると判断し、定期的な監視を再開します。monitor ルーチンがオフライン状態を返す場合、リソースに障害が発生しているため、VCS はサービスグループの設定に基づいてアクションを実行します。