<book_title> を検索 ...

Cluster Server 7.4.3 管理者ガイド - Linux

Last Published: 2020-12-25

Product(s): InfoScale & Storage Foundation (7.4.3)

Platform: Linux

リソースで障害が発生したときの VCS の処理速度に関する注意事項

リソースの障害または失敗の検出にかかる時間は、リソースタイプの MonitorInterval 属性によって異なります。リソースに障害が発生すると、次の monitor がこれを検出します。 ToleranceLimit 属性が 0 以外に設定されていると、monitor が一度だけ障害を検出しても、エージェントはこのリソースを faulted として宣言できません。 monitor 機能が、ToleranceLimit で設定された回数よりも多く offline を返した場合に初めて、エージェントがリソースを faulted と宣言します。ただし、リソースが ConfInterval 属性で指定された時間オンラインを続けた場合、それより前に返された offline の回数は ToleranceLimit にカウントされません。

エージェントは、リソースに障害が発生したことを確認すると、clean 機能（実装されている場合）を呼び出し、リソースが完全にオフラインであることを確認します。clean の次に実行される monitor によって、オフラインが確認されます。エージェントは、RestartLimit 属性に定義された数値に従ってリソースの再起動を試みます（この属性値がゼロでない場合）。それでもリソースの起動に失敗した場合は、リソースに障害があることを HAD に通知します。ただし、リソースが ConfInterval で指定された時間オンラインを続けた場合、それより前に行われた再起動の試行回数は RestartLimit にカウントされません。

ほとんどの場合、ToleranceLimit は 0 に設定されています。リソース障害の検出にかかる時間は、エージェントの monitor が障害を検出するまでにかかる時間と、clean 機能が実装されている場合はリソースがクリーンアップされるまでの時間を足したものになります。したがって、障害の検出にかかる時間は、MonitorInterval、monitor 機能と（実装されている場合）clean 機能の効率および（設定されている場合）ToleranceLimit によって異なります。

リソースがハングして障害となった場合、monitor もハングする場合があります。たとえば、データベースサーバーがハングしたときに、monitor がクエリーを実行しようとすると、monitor もハングします。 monitor 機能がハングすると、エージェントは最終的に、機能を実行しているスレッドを強制終了します。デフォルトでは、エージェントは、60 秒後に monitor 機能をタイムアウトにします。この設定は、MonitorTimeout 属性を変更して調整することができます。エージェントは、MonitorInterval に指定された時間が経過すると、monitor を再試行します。 monitor 機能が、FaultOnMonitorTimeouts 属性に指定された回数だけ連続してタイムアウトになると、エージェントはそのリソースを faulted として処理します。エージェントは、clean エントリポイントが実装されている場合にこれを呼び出します。FaultOnMonitorTimeouts のデフォルト値は 4 ですが、リソースタイプの属性値を変更することで調整することができます。このパラメータに大きい値を指定すると、リソースがハングした場合に障害の検出が遅れます。リソースのハングに伴って monitor 機能がハングした場合、この障害を検出するまでの時間は、MonitorTimeout、FaultOnMonitorTimeouts および monitor と clean（実装されている場合）の効率によって異なります。