サーバーの障害対応の流れ。日頃の準備や対応を分かりやすく解説。

ICT機器には故障やトラブルがつきものですが、システムの根幹をなしサービスを供給する側であるサーバーに障害が発生してしまうと、影響が大きいものになります。

障害の程度によっては、業務やサービスの機能不全はもちろん、経済的・社会的損失を負うことも考えられるでしょう。

本記事では、サーバー障害の主な原因と、障害対応の基本プロセス、障害を未然に防ぐ対策、さらに迅速な復旧のために最も重要となる切り分けの考え方についても紹介します。

\ 運用お任せのフルマネージドサービスも!/お客様にあわせたご要望に対応いたします!
・お客様だけの専用回線の利用
・初期のサーバー構築の依頼
・サーバーの監視
・ファイアウォール等のネットワーク機器の設置

専用サーバーのプランをみる 

サーバー障害の主要な原因

サーバー障害とは、何らかのトラブルが発生し、正常に機能しなくなることを指します。

その主な原因については、まず大きく分けると、ハードウェアに異常が発生するケースと、ソフトウェアに異常が発生するケースに二分され、そのなかで外部起因と内部起因に分かれます。

4タイプ、それぞれの原因について紹介していきましょう。

ハード障害

【内部起因】
故障
部品の摩耗や劣化などによるものです。
サーバーは24時間365日連続稼働しているので、部品も熱を持ちやすくなっています。
オペレーションミス
通常のメンテナンスのコマンドを実行したはずが思い通りに行かないなど、人的・技術的要因で発生する障害です。

【外部起因】
災害、火事
サーバーが設置された場所が、地震、洪水などの自然災害や火事に見舞われサーバーが損傷するケースです。
停電
サーバーを構成するパーツは電圧の急激な変化に弱く、停電時、また復電時に過剰な電流が流れ込むと故障することがあります。

ソフト障害

【内部起因】
OS/ソフト不具合
OSといわれる基本ソフトウェア(WindowsやLinuxなど)やその上にインストールされているアプリが不具合を起こす障害です。

【外部起因】
サイバー攻撃
DDoS攻撃、不正侵入、ウイルス感染などに代表される、サーバーを機能不全に陥れたり情報を盗み出そうとしたりする攻撃で、現在は多発しています。
高負荷(アクセス過多)
外部からアクセスが集中してしまい、処理できなくなって機能停止してしまう障害です。
大容量のデータ送受信による負荷でダウンしてしまうこともあります。

障害発生時の対応の流れ

障害が発生する原因は様々ですが、発生したらどのように対応し復旧していくのが一般的なのでしょうか。

標準的な対応フローについて解説します。

検知

サーバー監視ツールからのアラート、ユーザーからの連絡、担当者が異変に気付く、などがトリガーとなって、障害が検知されます。

影響範囲の確認と連絡

障害の検知後、まず影響範囲を確認するため第1弾の切り分けを行います。

障害が発生しているサービス、システムの特定
影響範囲の特定(人数、業務影響)→障害レベルの判定

この時点で、クライアント側(特定の端末やネットワークのみ)の問題だと判明した場合はサーバー障害ではありません。

続いて、障害が発生している旨の通知を発信します。

障害を回避するためのワークアラウンド(回避策)の有無とその方法も簡単にまとめ、顧客、利用者へのアナウンスを行います。

なお、ウイルス感染や情報漏洩が疑われる場合は、ただちにネットワークを遮断しサーバーの電源を落とすことが大切です。

原因調査(切り分け)

続いて、原因を特定するため第2弾の切り分けを行います。

(2-2で既に原因が特定されている場合もあります)

プロセスに沿って作業項目を点検しつつ調査を実施しましょう。

原因が特定されたら、暫定対応策を検討します。(例:バックアップサーバーに切り替える)

\ 相見積もり歓迎! /
専用サーバーのプランを見る

暫定対応

暫定対応を実施し、ビジネス、ユーザー影響が解消されたことを確認します。

顧客、利用者へ、暫定復旧した旨アナウンスを行います。

ビジネスインパクトを抑えるために、障害を検知してから暫定対応までは、なるべく迅速に行う必要があります。

本対応

障害の原因を取り除く本対応の実行計画をたてます。

システムの停止を伴うか確認し、本対応実施時にユーザー影響があるようであれば、調整して再度アナウンスを行います。

万一対応に失敗した場合の切り戻し手順も忘れずに盛り込みましょう。

計画が定まったら、それに基づいて本対応を実施します。

なお、暫定対応=本対応の場合は不要です。

よくあるケースはサーバーの再起動で復旧するパターンです。

復旧確認と連絡

本対応後、システム、サービスが障害以前の状況まで戻ったことを確認します。

顧客、利用者への復旧アナウンスを行います。

再発防止策の検討と反省

今回の障害が与えたインパクト、損失についてまとめる
再発防止策を検討し、報告
障害対応の振り返りを実施し、反省点と課題を洗い出す

なお、短期間に同一の障害が繰り返された場合は、さらに根本原因を考えて対策をたてる必要があるでしょう。

\ 相見積もり歓迎! /
専用サーバーのプランを見る

切り分けについて

サーバーの障害対応において重要なのは「切り分け」です。

サーバーのどこに不具合が起きているのかという切り分けはもちろん、そもそも本当にサーバーの問題なのか、という点も大事です。

特に、サーバーと思いきやネットワークの問題であるパターンはよく見られます。

監視アラートメールでは「CPU使用率が99%を超えた」「〇〇のサービスがダウンした」などの情報が分かりますが「なぜ?」ということまでは教えてくれません。

そもそもアラートが来ないのにシステムにアクセスできないといったケースもあります。

そのため、サーバーの運用管理者は自分の手で障害の原因を切り分けるスキルが必要になるといえます。

切り分けの基本的な考え方

サーバーとエンドポイントの端末はTCP/IP通信のネットワークで接続されています。

まずはネットワークのレイヤー構造(OSI参照モデルといいます)を意識して切り分けを行うのが鉄則といえるでしょう。

※OSI参照モデル、TCP/IP通信については以下の記事に詳しく解説しています。

ネットワークの構造を理解しレイヤーで切り分けを行うことで、ネットワークの問題なのかサーバーのアプリケーションの問題なのかを調べていくことがコツです。

具体的な方法

あくまでも簡単な例になりますが、切り分けの手段を以下に記載しておきます。

アクセス元の問題ではないか確認する
サーバーの利用者が全体的に利用不能なのかを確認するのが第一です。
特定の端末や特定の部屋、エリアからのみアクセスできない障害であれば、サーバー以外の要因の可能性が高いです。

Pingを飛ばしてみる
PingはOSIモデルの「ネットワーク層」が正常かどうか確かめる、最も一般的なコマンドです。
Pingの応答がある場合、ネットワーク層以下のハードウェアは稼働しているといえるでしょう。
Pingが通らなければ、更に目的のサーバーまでのルート上のどこで遮断されるか切り分けを進めます。

他のサーバーの状態を確認する
同じ場所にサーバーが複数台ある場合は、他のサーバーの状態も確認することで、ネットワーク障害かどうかの手掛かりになるでしょう。

リモートデスクトップで接続してみる
Pingが通る場合は、リモートデスクトップで対象のサーバーに接続し、サーバーのリソースおよびアプリケーションの状態を確認して切り分けを進めていきます。

\ 相見積もり歓迎! /
専用サーバーのプランを見る

障害対策とリスク管理

冗長化、バックアップ

RAID
サーバーのデータやシステムファイルが含まれているハードディスク(HDD)を複数台構成にすることで、障害の耐性を確保する仕組みです。
構成の仕方は幾つかありますが、RAID1やRAID5といったモードにすると、1台のHDDに障害が発生してもデータは保持されシステムが停止しません。

フェールオーバー
(コールドスタンバイ、ホットスタンバイ)
同じサーバーを物理的にもう1台用意しておき、故障したときに予備に切り替える仕組みのことです。
予備機の電源を常時入れておきタイムラグなく切り替えるのをホットスタンバイ、故障発生後に電源を入れる方式をコールドスタンバイといいます。

セキュリティ対策

サーバーへのアクセスを制限
アクセス権、特にサーバーを制御できる管理者権限を厳格に制御することで、不正アクセスやオペレーションミスに対処します。
決められたコンピューターやIPアドレスからしかアクセスできないようにすることも有効です。

ポート遮断
不正な通信、ネットワークからの攻撃をブロックするために、ファイアウォールを利用して、不必要なポートを遮断することはサーバー設定の基本といえます。

オペレーションミス対策

ダブルチェック
本番環境のサーバーに関わる作業は必ず2人以上で実施し、ダブルチェックすることでオペレーションミスを抑止します。

マニュアル整備
サーバーのメンテナンスや設定変更は必ず事前に手順書を作成してから実行することが大事です。
アドリブで作業することは障害発生を引き起こす大きな原因です。

負荷分散

ロードバランシング
サーバーが複数台ある場合、負荷が均等になるように、ユーザーのトラフィックや処理を分散させる仕組みです。
アクセス集中などによるダウンを防ぐほか、不具合が起こった機器を回避させることも可能です。

まとめ

本記事では、サーバー障害についての基本を解説しました。

サーバーを運用している以上、障害とは無縁でいられません。

障害が起こってからの迅速な処置はもちろん、普段からの対策がとても重要となります。

各サーバーごとに障害対応の手順をまとめ、文書として関係者内で共有しておく必要があるでしょう。

また、障害の発生時をシミュレーションした対応訓練を実施することもおススメします。

備えあれば憂いなしなので、日ごろからしっかりと障害を意識して運用していくことが大切です。

セキュリティサポートもWinserverにお任せ

サーバー運用のご担当者様の中には、このようなお悩みをお持ちの方もいるのではないでしょうか。

    • 社内にサーバー専門のエンジニアがいない…
    • セキュリティ対策に不安がある…

Winserverフルマネージドサービスは、このようなサーバー運用のお悩みを解決します。

サーバーの初期構築・運用・監視など、お客様のお悩みに合わせてWinserverの専門スタッフが代行します。

▼フルマネージドサービスについてはこちら

「何を依頼できるのか詳しく聞きたいという方は、無料オンライン相談会をご活用ください。

Windows専門のホスティングサービスを20年以上提供してきた実績をもとに、お客様のお悩みをお伺いし、丁寧にサポートさせていただきます。

▼無料オンライン相談会についてはこちらWinserverオンライン相談会実施中

サーバー安心パック紹介資料

サーバー安心パック紹介資料

「サーバー安心パック」は、Winserverが提供するマネージドサービスです。
サーバーについての技術や知識に不安がある方もご安心ください。
Winserverの専門スタッフが、初期構築や運用業務などを代行いたします。
本資料では、サービス内容、特徴、料金プランをご紹介しています。

サーバー安心パック紹介資料

サーバー安心パック紹介資料

「サーバー安心パック」は、Winserverが提供するマネージドサービスです。
サーバーについての技術や知識に不安がある方もご安心ください。
Winserverの専門スタッフが、初期構築や運用業務などを代行いたします。
本資料では、サービス内容、特徴、料金プランをご紹介しています。

資料をダウンロードする

NVIDIA製GPU搭載
高性能・高火力の専用サーバー!
「Tesla V100」「RTX-5000」「RTX-4000」

▶ プランを見る

関連記事

サーバーの基礎知識

TOP
CLOSE