ニュース

Discordなど広範囲に不具合。Cloudflare障害は障害耐性向上に向けた作業ミスが原因

MCPのイメージ

 Cloudflare21日に発生したサービス障害について、同社がその原因と経緯に関する詳細をブログ記事にまとめて公開している。

 プロダクトエンジニアリング担当SVPのJeremy Hartman氏とエッジネットワークテクニカルリーダーのTom Strickx氏が連名で公開した記事によると、今回の障害はCloudflareの障害耐性を向上させることを目的としたネットワーク設定の変更によって引き起こされたものだという。

 具体的には、データセンターのアーキテクチャを変換する作業中にミスが発生した。同社では、メンテナンス時や障害発生時にデータセンター内のネットワークの一部を簡単に無効化/有効化できるようにすることによって、信頼性とメンテナンス性の向上を図っている。今回の障害発生時は世界19カ所のデータセンターに対してアーキテクチャの変換作業を実施していた。

 この作業には経路制御プロトコルのポリシーが変更されたことで経路の「withdrawn」(取り消し、撤回)が起きてネットワークプレフィックスがアドバタイズされなくなり、インターネットに到達できなくなった。これによりCloudflareが処理に成功したHTTPリクエストは50%程度まで減少。障害は21日の世界標準時6時27分(日本時間で15時27分)に発生し、同7時42分(日本時間16時42分)に復旧が完了した。

 Cloudflareでは今回の障害について謝罪するとともに、再発防止に向けた取り組みを行なっていると報告している。

BGPのポリシー変更により経路の「引き揚げ」が発生した
Cloudflareが処理に成功したHTTPリクエスト量
障害発生時からインシデント終了までの出力帯域幅

【13時訂正】記事初出時、障害発生と収束の日本時間が誤っておりました。お詫びして訂正します