クラウドフレアが障害により、送信すべきログの約55%が消失
Cloudflare(クラウドフレア)は11月14日に大規模な障害が発生し3時間半続いたこの障害は、ソフトウェアアップデートの不具合が原因で同社のログサービスが機能不全に陥り、約55%のログが消失したことを発表しました。
発生したインシデントの概要
本インシデントにより、ユーザーのイベントログを基にした可観測性、コンプライアンス、アカウンティング情報などの一部業務に影響を与える可能性があります。
- 日時:2024年11月14日
- 影響時間:約3.5時間
- 影響範囲:Cloudflare Logs を利用している大多数の顧客
- 損失内容:通常お客様に送信しているログの約55%が送信されず、消失。
原因の概要
今回のインシデントは、以下の複数の要因が連鎖的に重なった結果として発生したとしています。
- 構成変更のエラー
2024年11月14日、新しいデータセットをサポートする構成変更が行われました。しかし、構成を再生成するシステムにバグが存在し、「ログを転送する顧客がいない」という誤った設定が生成されました。 - フェイルオープン動作による負荷増加
初期のログ転送設計では、構成が得られない場合、すべての顧客ログを転送する「フェイルオープン」動作が設定されていました。この動作により、ログ転送対象が急増し、負荷が一気に増大しました。 - バッファ管理システム(Buftee)のリソース不足
フェイルオープン動作により、Bufteeが処理するバッファ数が通常の40倍に増加しました。これによりシステム全体が過負荷状態に陥り、ログ送信が停止しました。