IPA午前2:高可用性・災害復旧 (HA/DR) 解説 – RTOとRPOの理解

Mermaid

IPA午前2:高可用性・災害復旧 (HA/DR) 解説 – RTOとRPOの理解

出題の意図

このテーマでは、システムが大規模な障害や災害に見舞われた際に、いかに迅速にサービスを復旧させ、データの損失を最小限に抑えるか、というビジネス継続性の観点から重要な指標であるRTO(目標復旧時間)とRPO(目標復旧時点)の理解を問います。情報システムを運用する上で、障害は避けられないものであり、その際の復旧戦略はビジネスの存続に直結します。

RTOとRPOは、ビジネス影響度分析(BIA: Business Impact Analysis)の結果に基づいて設定されることが多く、システムの重要度に応じて適切な目標値を定める必要があります。IPA午前2の試験では、これらの概念を正確に理解し、具体的なシナリオにおいて適切な指標を識別できるかが問われます。これは、システム管理者、プロジェクトマネージャー、情報システムに携わるすべての人にとって不可欠な知識です。

定義/前提

解説を始める前に、今回取り扱うHA/DRの基本的な用語について定義します。

  • 高可用性 (HA: High Availability): システムが継続して利用できる状態を維持する能力。冗長化やクラスタリングといった技術を用いることで、一部のコンポーネントに障害が発生してもシステム全体の停止を防ぎ、サービス提供を継続できるようにします。
  • 災害復旧 (DR: Disaster Recovery): 大規模な災害(自然災害、大規模サイバー攻撃など)やシステム全体の致命的な障害から情報システムを復旧させるための計画、手順、および戦略の総称です。HAが予防的な対策や部分的な障害対応を主とするのに対し、DRはより広範で深刻な事態への対応を指します。
  • RTO (Recovery Time Objective: 目標復旧時間): 障害発生後、情報システムが許容される目標時間内に復旧し、通常の業務を再開できる状態になるまでの時間です。これは「サービス停止が許容される最大時間」とも言え、短ければ短いほど迅速な復旧が求められます。 例: RTOが2時間の場合、システム障害から2時間以内にはシステムを完全に復旧させ、ユーザーが利用できる状態にする必要があります。
  • RPO (Recovery Point Objective: 目標復旧時点): 障害発生によって失われるデータの量が、許容される目標時点までに抑えられることを示す指標です。これは「サービス停止時に最大でどの時点までのデータ損失が許容されるか」とも言え、短ければ短いほど、より直近のデータまで回復できる必要があります。 例: RPOが30分の場合、システム障害が発生しても、最大で過去30分間のデータ損失までしか許容されないことを意味します。つまり、障害発生時点の30分前までのデータは必ず回復できるように対策しておく必要があります。

RTOとRPOは、トレードオフの関係にあります。目標値を厳しく(短く)設定すればするほど、対策にかかるコストや複雑性は増大します。そのため、システムのビジネス上の重要度を考慮して、最適なバランスを見つけることが重要です。

段階的な解法

それでは、具体的な問題を例に、RTOとRPOを識別する段階的な解法を見ていきましょう。


問題例:

ある企業がオンライン販売システムを運用している。このシステムは24時間365日稼働が求められ、システム障害が発生した場合のビジネスへの影響は大きい。障害発生時の復旧目標として、最大でも2時間以内にはシステムを復旧させ失われるデータは過去30分以内のものであることを許容すると決定した。

このとき、この企業が設定した目標復旧時間と目標復旧時点を示す指標として適切な組み合わせはどれか。

ア. RTO: 30分, RPO: 2時間 イ. RTO: 2時間, RPO: 30分 ウ. RTO: 2時間, RPO: 2時間 エ. RTO: 30分, RPO: 30分


解法のステップ:

以下のフローチャートに従って、問題を解いていきましょう。

graph TD
    A["問題文を注意深く読む"] --> B{"「システムを復旧させる時間」の記述を探す"}
    B -- 見つかった場合 --> C["その時間がRTO(\"Recovery Time Objective\") に対応"]
    C --> D{"「失われるデータの量/時点」の記述を探す"}
    D -- 見つかった場合 --> E["その時間/時点がRPO(\"Recovery Point Objective\") に対応"]
    E --> F["特定したRTOとRPOの値を組み合わせる"]
    F --> G["選択肢と照合し、最も適切なものを選ぶ"]
  1. 問題文を注意深く読む: まず、問題文全体を読み、システムの概要と障害発生時の目標に関する記述に注目します。

  2. RTO(目標復旧時間)に相当する記述を探す: RTOは「システムが復旧するまでの時間」を指します。問題文には「最大でも2時間以内にはシステムを復旧させ」と明記されています。この記述がRTOに該当します。

    • よって、RTO = 2時間
  3. RPO(目標復旧時点)に相当する記述を探す: RPOは「失われるデータの許容範囲」を指します。問題文には「失われるデータは過去30分以内のものであることを許容する」と明記されています。この記述がRPOに該当します。

    • よって、RPO = 30分
  4. RTOとRPOの組み合わせを特定する: ステップ2とステップ3で特定した値から、 RTO: 2時間 RPO: 30分 の組み合わせが導き出されます。

  5. 選択肢と照合する: 導き出した組み合わせ(RTO: 2時間, RPO: 30分)に合致する選択肢を探します。

    ア. RTO: 30分, RPO: 2時間 イ. RTO: 2時間, RPO: 30分 ウ. RTO: 2時間, RPO: 2時間 エ. RTO: 30分, RPO: 30分

    選択肢イが、特定した組み合わせと一致します。


答え

イ. RTO: 2時間, RPO: 30分

誤答しやすい理由

  1. RTOとRPOの混同: 最も多い誤答の原因は、RTOとRPOの定義を混同してしまうことです。「時間」と「時点/データ損失」の区別があいまいだと、問題文の数字をRTOとRPOに逆に対応させてしまう可能性があります。

    • RTOは「サービス停止許容時間
    • RPOは「データ損失許容範囲(過去どの時点まで戻せるか)」 を明確に区別して覚える必要があります。
  2. キーワードの誤解: 問題文中の「復旧」という言葉をRPOに関連付けてしまったり、「失われるデータ」という言葉をRTOに関連付けてしまったりするケースです。それぞれの指標がどのような事象の時間的目標であるかを正確に理解しておくことが重要です。

  3. 数値の読み間違え: 単純に問題文中の数値を間違って読み取る、あるいは混同してしまうこともあります。落ち着いて、それぞれのキーワードと数字のペアを確認するようにしましょう。

学習の指針

  • 定義の暗記と理解: RTOとRPOの定義を正確に暗記するだけでなく、「なぜそのように定義されているのか」「何を目指す指標なのか」を理解することが重要です。
  • 具体的なシナリオでの適用練習: 複数の具体的なビジネスシナリオを想定し、それぞれの場合のRTOとRPOを特定する練習を繰り返しましょう。これにより、知識の定着を図れます。
  • 関連用語との連携: RTO/RPOは、BCP(事業継続計画)、BIA(ビジネス影響度分析)、MTBF(平均故障間隔)、MTTR(平均復旧時間)など、他の重要な情報セキュリティやシステム運用の概念と密接に関連しています。これらの用語も合わせて学習し、情報システムの高可用性・災害復旧全体を体系的に理解するように努めましょう。
  • ディザスタリカバリサイトの種類: ホットサイト、ウォームサイト、コールドサイトといったディザスタリカバリサイトの種類が、それぞれどの程度のRTO/RPOに対応可能か、という視点も学習しておくと良いでしょう。

類題/バリエーションの作問

類題1(RTO/RPOの識別)

ある病院の電子カルテシステムは、高い信頼性が求められる。システム障害が発生した場合、最大でも1時間以内にはサービスを再開しデータ損失は過去15分を超えるものは許容されないと目標が設定された。この目標を達成するために必要なRTOとRPOの組み合わせとして適切なものはどれか。

ア. RTO: 15分, RPO: 1時間 イ. RTO: 1時間, RPO: 15分 ウ. RTO: 1時間, RPO: 1時間 エ. RTO: 15分, RPO: 15分

即答テク: 「サービスを再開」=「復旧」の時間を指すのでRTO。「データ損失」=「どの時点まで戻せるか」を指すのでRPO。問題文中のキーワードと時間を即座に紐付ければ、RTO=1時間、RPO=15分と判断できる。 答え: イ


類題2(具体的な対策とRPO)

企業Yは、オンライン取引システムの災害復旧計画を策定している。目標としてRTOは4時間、RPOは10分と設定した。このRPOを達成するために最も効果的な対策はどれか。

ア. 遠隔地にコールドサイトを準備し、週に一度バックアップを転送する。 イ. 毎日深夜に一度、全データのバックアップを取得し、別のデータセンターに保管する。 ウ. リアルタイムレプリケーションを用いた同期バックアップシステムを導入し、遠隔地にもデータを常に同期させる。 エ. 高性能なハードウェアに切り替え、MTBF(平均故障間隔)を向上させる。

即答テク: RPOは「データ損失の許容範囲」であり、目標値が10分と非常に短い。これは、障害発生直前までのデータを可能な限り回復する必要があることを意味する。各選択肢のデータ損失許容時間を考えると、「リアルタイムレプリケーション」が最もRPOを短縮できる手段である。MTBFはシステムの可用性向上には寄与するが、データ損失対策ではない。 答え: ウ


ライセンス:本記事のテキスト/コードは特記なき限り CC BY 4.0 です。引用の際は出典URL(本ページ)を明記してください。
利用ポリシー もご参照ください。

コメント

タイトルとURLをコピーしました