Facebookは昨日のサービスのダウンに関するレポートを発表した。この障害は異例に広範囲かつ長時間にわたり、Facebook本体だけでなく、Instagram、Messengerも正常に作動しなくなった。
専門家の間では原因をルート・リークに求める意見が多かったが、Facebookによれば、サーバー設定エラーが問題を引き起こしたものという。
昨日、サーバー・コンフィグレーションの設定のアップデートのエラーにより多くのユーザーがわれわれのアプリやサービスにアクセスすることが困難になった。われわれはこの問題を解決し、システムは回復に向かった。多くのユーザーに不便をかけたことをお詫びするとともに、忍耐に感謝する。
何百万というユーザーがこの不調の影響を受け、状況を知り、原因を推測する(あるいは不満を発散させる)ためはTwitterを使わざるをえないことになった。われわれの場合はメールによる情報提供も役立った。
今回のFacebookのダウンはDowndectectorにとって過去最大のケースだった。Downdetector の共同ファウンダーであるTom Sanders氏は次のように述べている。
Downdetectorが2012年にスタートして以来、今回のダウンは群を抜いて最長だった。障害が継続する間にわれわれのサービスには世界のユーザーから750万件の障害レポートが寄せられた。過去これほどの規模の障害を見たことがない。
最初に問題の原因はFacebook内部にあると最初に気付いたのはネットワーク監視サービスだった。ThousandEyesの広報担当者はメールでわれわれにこう書いてきた。
(ダウンの)原因は外部のインターネットや各種のCDNではなくFacebook内部にあると思われる。たとえばわれわれはFacebookから 500件の「内部サーバー・エラー」情報を受け取っている。Facebookの規模および同社がサービスの運営を続けながらアプリからインフラまでさまざまな効率化を試みる体質を考えると、いかに優秀なエンジニアリング・チームであれ、このような大規模な障害を招くことになったことに不思議はない。
われわれは昨日、Netscoutの「障害の原因をBGP(ボーダー・ゲートウェイ・プロトコル)のルート・リークではないか」というと推測を紹介したが、同社は後に考えを変えた。
Netscout Assertチームのプリンシパル・エンジニアのRoland Dobbins氏は広報担当者がメディアに送付したメール中でFacebookのダウン問題に関して、「BGPルート・リークがダウンの原因だという証拠は発見できなかった。部内の意思疎通に問題があったものと思われる」と述べている。
(原文へ)
(翻訳:滑川海彦@Facebook Google+)