サーバーの障害対応の流れ。日頃の準備や対応を分かりやすく解説。

ITシステムを利用していると、さまざまなトラブルに遭うことがあります。

パソコンが起動しない、ネットワークに接続できないといったものもその一つです。その中の一つのサーバー障害があります。

ネットワークを介してWebやメール、データベースなど、さまざまなサービスを提供しているサーバーは、ひとたび障害が起こってしまうと非常に広範囲に影響を及ぼしてしまうことがあります。

今回は、サーバー障害に対する日頃からの備えと、実際に障害が発生した時の対応について分かりやすく解説していきます。

サーバー障害

サーバーの障害対応とは

Webやメール、データベースやファイルストレージなど、さまざまなサービスを提供しているサーバー。

アクセスの集中による過負荷や、機器の老朽化などによる故障などによって、サーバーの障害が発生することがあります。

サーバーの障害には、以下のようなものがあります。

ハードウェア障害

      • 機器(CPUやメモリ、ディスクなど)の障害

システム障害

      • ソフトウェアプロセスの停止
      • データの整合性の消失
        など

サーバーの障害対応とは、こうしたサーバーの故障などにより障害が発生した際に、問題を迅速に解決し、サービスの復旧を行うことです。

利用者に多くのサービスを提供するサーバーは、常に迅速な回復が求められます。

日頃からの備えが大切

サーバーの障害発生時には、迅速に復旧を行い、サービス提供を回復させる必要があるとお伝えしました。

そのために重要なことは、平時からの準備です。

それには、以下のようなことが挙げられます。

体制の確立

      • 障害発生時の体制の決定
      • 障害発生時の対応フローの決定(報告ルートも含む)
        ※障害レベル別に必要

対応フロー

技術面

      • システム構成図、ネットワーク構成図などの整備
      • 障害対応マニュアル等の整備

運用面

      • 機器の障害監視の仕組みを実装
        →障害発生を迅速に検知し、迅速な対応を行うために必要となります。

障害はいつどんな形で発生するか分かりませんので、平時からこうした準備をしておくことで、迅速かつ適切な対応を行い、システムをより早く復旧させることが可能となります。

障害発生時の対応の流れ

実際にサーバー障害が発生した場合は、どのように対応することが望ましいのでしょうか。

実際に障害発生の際の流れを追いかけてみましょう。

  1. 障害発生と検知
    何らかのサーバー障害が発生した際には、監視システムからの通知、利用者からの連絡などで把握することになります。
  2. 影響範囲の確認と連絡
    障害を認識すると、まず行うべきことは、どこまでの影響が出ているのか「影響範囲」を把握することです。
    そして、併せて平時に準備しておいた対応フローに基づいて連絡を行います。
  3. 原因の切り分け
    実際に障害対応を行うために、システムログ、アプリケーションログ等を参照して原因の切り分けを行います。
  4. 対応
    原因を特定したら、対応マニュアルに基づいて復旧作業を行います。
    なお、障害復旧までの時間が長期にわたる場合は、随時状況の連絡を行うことが必要です。
    また、必要に応じて待機系システムなどの代替サービス手段がある場合は、そちらに切り替えて暫定復旧しておくことが重要です。
  5. 確認と報告
    障害の復旧後は、改めて報告を行い、確認をしてもらいます。
    問題がなければ対応完了とします。
  6. 再発防止策の検討と実施
    障害の内容によっては再発防止策を実施することで、再発を防ぐことが可能な場合があります。それらの検討と実装を行います。

サーバーで障害が発生した場合の対応は、おおまかにはこのような流れとなります。

障害自体の低減「予防保守」について

サービスレベルの向上や利用者の満足度のアップなどを考えると、サーバーの障害発生時の迅速かつ適切な対応は、非常に大切なことです。

しかし、障害は突然発生します。

そのために最近では、予防保守と呼ばれる考え方が取り入れられています。

最後にこの予防保守について解説します。

通常、ハードディスクなどの機器は壊れないと故障ということには気づきません。

予防保守とは、これを以下のような考えで壊れる前に交換することをいいます。

予防保守を行うことで、トラブルや不具合が発生する前に、機器の交換等を行うため、実際に機器が壊れて障害になることを防ぐことができます。

      • 保守計画を立て、計画に沿って定期点検を実施する
      • 一定期間の経過で機器を交換する
      • 障害ではないレベルの異常を検知して交換しておく

また、IBMなど大手ベンダーでは、これまでの障害の蓄積されたデータから、システムの挙動によって障害に繋がりそうかどうかをAIが自動で検知するサービスも提供しているので、必要に応じて利用するのも良いでしょう。

復旧作業

まとめ

Webやメール、データベースなどさまざまなサービスを提供しているサーバーは、ITシステムの根幹をなしている重要なものであり、ひとたび障害が発生してしまうと色々な場所で影響が出てしまいます。

しかし、サーバーも物理的な機械であるため、障害は避けることは非常に難しいです。

今回解説したように、サーバーの障害対応については、平時からの体制づくりや障害対応フローの整備など準備を万全にしておくことで、実際に障害が発生した場合も迅速な検知や復旧が可能となります。

また、機器などが実際に故障する前に交換してしまう予防保守の考え方も重要です。

こういった考え方で、障害自体を減らしていくことも併せて必要なことだと言えます。

サーバー障害は、ひとたび起こってしまうとビジネスや利用者への影響を避けられません。

平時からの準備だけでなく、障害自体を減らすということについてもしっかりと取り組んでいきましょう。

「仮想デスクトップ」
Windows環境をすぐに使える
テレワークを始めるためのマストツール

詳細はこちら

関連記事

テレワークにおすすめ!

当社人気No.1サービス!

Winserver TOPページへ

お問い合わせフォーム

TOP