ニュース
Discordなど広範囲に不具合。Cloudflare障害は障害耐性向上に向けた作業ミスが原因
2022年6月22日 11:35
Cloudflareで21日に発生したサービス障害について、同社がその原因と経緯に関する詳細をブログ記事にまとめて公開している。
プロダクトエンジニアリング担当SVPのJeremy Hartman氏とエッジネットワークテクニカルリーダーのTom Strickx氏が連名で公開した記事によると、今回の障害はCloudflareの障害耐性を向上させることを目的としたネットワーク設定の変更によって引き起こされたものだという。
具体的には、データセンターのアーキテクチャを変換する作業中にミスが発生した。同社では、メンテナンス時や障害発生時にデータセンター内のネットワークの一部を簡単に無効化/有効化できるようにすることによって、信頼性とメンテナンス性の向上を図っている。今回の障害発生時は世界19カ所のデータセンターに対してアーキテクチャの変換作業を実施していた。
この作業には経路制御プロトコルのポリシーが変更されたことで経路の「withdrawn」(取り消し、撤回)が起きてネットワークプレフィックスがアドバタイズされなくなり、インターネットに到達できなくなった。これによりCloudflareが処理に成功したHTTPリクエストは50%程度まで減少。障害は21日の世界標準時6時27分(日本時間で15時27分)に発生し、同7時42分(日本時間16時42分)に復旧が完了した。
Cloudflareでは今回の障害について謝罪するとともに、再発防止に向けた取り組みを行なっていると報告している。
【13時訂正】記事初出時、障害発生と収束の日本時間が誤っておりました。お詫びして訂正します