<book_title> を検索 ...

Cluster Server 7.3.1 管理者ガイド - Linux

Last Published: 2018-06-04

Product(s): InfoScale & Storage Foundation (7.3.1)

Platform: Linux

オンラインのリソースに障害が発生した場合の VCS 動作

次の場合、オンライン状態のリソースは、エージェントからオフライン化のコマンドが発行されなくても、オフラインとして報告されます。

オンラインリソース障害のとき、VCS では次の手順が実行されます。

まず、VCS は所定の時間内に monitor ルーチンが正常に完了するかどうかを確認します。正常に完了する場合、VCS は monitor ルーチンから返された終了コードを調べます。monitor ルーチンが所定の時間内に正常に完了しない場合、VCS は FaultOnMonitorTimeouts（FOMT）属性を調べます。
FOMT=0 の場合、monitor ルーチンがタイムアウトしてもリソースの障害にはなりません。VCS は、このリソースをオンラインであると見なし、ポーリング間隔に従って定期的に監視します。
FOMT が 1 以上の場合、VCS は CurrentMonitorTimeoutCount（CMTC）と FOMT の値を比較します。監視タイムアウトカウントがタイムアップしていない場合、VCS は CMTC を 1 つずつ増やし、リソースを次のサイクルで監視します。
FOMT=CMTC の場合、使用可能な監視タイムアウトカウントが終了したことになり、VCS は修正アクションを実行することになります。 VCS はサービスグループの Frozen 属性をチェックします。サービスグループがフリーズされている場合、VCS はリソース障害の発生を宣言し、resfault トリガを呼び出します。以降、アクションは実行されません。
サービスグループをフリーズしていない場合、VCS はリソースレベルで ManageFaults 属性を調べます。VCS は、属性のグループレベルの値が NONE の場合やリソースレベルの値が IGNORE の場合はリソースを ONLINE|ADMIN_WAIT としてマーク付けします。ManageFaults 属性をリソースレベルで ACT に設定した場合やグループレベルで ALL に設定した場合は、モニターがハングした (Monitor Hung) という理由で Clean 機能を呼び出します。
メモ:
リソースレベルの ManageFaults の値は対応するサービスグループレベルの値に優先します。サービスグループレベルの ManageFaults の値は、対応するリソースレベルの値が空白 ("") の場合にのみ優先されます。
Clean 機能が正常に終了する（Clean の終了コード＝ 0）場合、VCS は RestartLimit 属性値を調べます。 Clean が失敗（終了コード = 1）の場合、リソースは UNABLE TO OFFLINE の状態でオンラインを継続します。VCS は resnotoff トリガを起動し、このリソースを再度監視します。
Monitor ルーチンがタイムアウトしない場合、このルーチンは、リソースの状態としてオンラインまたはオフラインを返します。
ToleranceLimit（TL）属性の設定が 0 以外の場合、監視周期中に、TL で指定されている回数の OFFLINE（終了コード＝ 100）を返すまで、ToleranceCount（TC）を 1 ずつ増やします。ToleranceCount が ToleranceLimit と等しくなると（TC = TL）、エージェントはリソースに障害が発生したと宣言します。
監視周期中に Monitor ルーチンが ONLINE（終了コード＝ 110）を返すと、エージェントは以降のアクションを実行しません。ConfInterval で指定されている時間、リソースのオンラインが継続すると、ToleranceCount 属性は 0 にリセットされます。
ToleranceCount がリセットされるまで（TC = TL になるまで）に、ToleranceLimit で指定されている回数だけリソースがオンラインとして検出されると、そのリソースは障害が発生したと見なされます。
リソースがオンラインではないことをエージェントが確認した後、VCS はサービスグループの Frozen 属性をチェックします。サービスグループがフリーズされている場合、VCS はリソース障害の発生を宣言し、resfault トリガを呼び出します。以降、アクションは実行されません。
サービスグループがフリーズされていない場合、VCS は ManageFaults 属性をチェックします。 ManageFaults 属性が NONE に設定されている場合、VCS は、このリソース状態を ONLINE|ADMIN_WAIT としてマークし、resadminwait トリガを呼び出します。ManageFaults が ALL の場合、VCS は、CleanReason を Unexpected Offline に設定した状態で Clean 機能を呼び出します。
Clean 機能が失敗（終了コード = 1）の場合、リソースは UNABLE TO OFFLINE の状態でオンラインを継続します。VCS は resnotoff トリガを起動し、このリソースを再度監視します。リソースは、Clean 機能が正常に終了するかユーザーが介入するまで、Monitor 機能の周期と Clean 機能の周期が交互に繰り返されます。
Clean 機能が正常に終了すると、VCS は RestartLimit（RL）属性値を調べます。RL 属性の設定が 0 以外の場合、VCS は RestartCount（RC）属性を 1 ずつ増やし、Online 機能を呼び出します。この手順は、RestartLimit の値が RestartCount の値と等しくなるまで繰り返されます。このとき、VCS はリソースの監視を試みます。
monitor ルーチンがオンライン状態を返す場合、VCS は、リソースがオンラインであると判断し、定期的な監視を再開します。monitor ルーチンがオフライン状態を返す場合、リソースに障害が発生しているため、VCS はサービスグループの設定に基づいてアクションを実行します。