自動インシデント対応プラットフォームを構築するShorelineがシリーズBで約43億円を調達

Shorelineの創業者でCEOのAnurag Gupta(アヌラグ・グプタ)氏は、同社を創業する前は8年間、AWSでインフラストラクチャに携わっていた。AWSのシステムがスローダウンしたり停止したりするインシデントに対応するシステムの責任者を務めていた。

これは大仕事で、同氏はインシデント対応を自動化する社内システムの構築に関わっていたが、マーケットプレイスには他社がそうした自動化に役立つツールが不足していることに気づいた。ソフトウェアのテストと導入、本番システムの監視、インシデントが起きた時の対応をするツールはあるが、同氏は欠けているものがあると見ていた。

同氏は、インシデントのチケットが発行され必要な人が対応を始めると、何がおかしいかをつきとめて修復するのは通常は手作業が極めて多いプロセスになると指摘する。システムがダウンすると1分ごとにコストがかさむ。ソフトウェアとシステムが複雑になり、こうした問題に対処する責任者であるSRE(サイト信頼性エンジニア、Site Reliability Engineer)が根本原因をつきとめて修復するのはさらに難しくなっている。

グプタ氏は「ほぼすべてのケースで手作業のプロセスとなり、人間は消耗してミスをします。たくさんの人手に頼る作業です。そして人間は機械よりも長い時間を要するのでダウンタイムが発生するのです」と説明する。

同社はジュピタースタイルのノートブックを作ってシステムによくある問題への対応を記録し、自動化する。問題を解決するためのステップ・バイ・ステップの手順を示し、可能な場合には対応を自動化するのだ。狙いは問題が起きた時に対応する負荷を軽減することだ。

グプタ氏は、システムの問題が発生した時にそれを解決する必要性が高まりSREの役割は急速に大きくなっているが、問題に体当たりしていくのは持続可能なアプローチではないと語る。

Shorelineに投資しているInsight PartnersのマネージングパートナーであるGeorge Mathew(ジョージ・マシュー)氏は、機械と人との協力で問題の解決を早めるのだという。

マシュー氏はShorelineに投資した理由を「ハイレベルの役割を人間が果たし、ローレベルの役割を機械学習のアルゴリズムで自動化できれば、この分野においてはたいへん魅力的なチャンスです」と説明する。

Shorelineが創業したのは2019年だが、このような自動化ソリューションを構築するのに2年半かかり、シリーズAでは2200万ドル(約27億600万円)を調達した。このプロダクトを発売してからすでに約半年が経ち、従業員はすでに50人近くいる。

グプタ氏は創業に関し、自社が事業をしている世界を反映した従業員を有することが自分にとって重要なゴールであると語る。

同氏は「当社の従業員はテックの世界ではなく社会全般と同じようでなくてはならないと強く確信しています。テックの世界には組織的なバイアスがすでにあるからです」と語る。つまり、従業員の比率を実際の人口比に一致させようとしている。

「私が変わることなく信じているのは、雇用のプロセスに多様性を取り入れれば、結果として企業は多様になるということです」と同氏はいう。

米国時間3月28日、ShorelineはInsight Partnersが主導し、Dawn Capitalが参加した3500万ドル(約43億500万円)のシリーズBを発表した。Shorelineによれば、今回のラウンドでこれまでの調達金額の合計は5700万ドル(約70億1100万円)となった。

画像クレジット:Dansin / Getty Images

原文へ

(文:Ron Miller、翻訳:Kaori Koyama)

SpotifyとDiscordがダウン中

SpotifyとDiscordが両方ともダウンしているようだ。

Spotifyへのログインが困難になっているようだ。モバイル端末でSpotifyアプリを開くとログイン画面が表示されるが、正しいユーザー名とパスワードでもログインに失敗するとTwitterで報告されている。

音楽配信会社は、この問題をTwitterで認めている。

また、Discordでもメッセージの送受信に影響を与える問題が発生していることが確認されている。

この問題について、SpotifyとDiscordに問い合わせをしているので、回答があり次第、更新する。

以下、Spotifyがダウンしていることに関するツイートをお楽しみください。

【更新】Spotifyから回答があり、基本的に更新に関する情報はTwitterでと案内があった。今後もTwitterをチェックしていく。

Spotifyの返事

私たちはこの問題を認識しており、@SpotifyStatusに最新情報を投稿しました。正常に戻ったら、またアップデートを投稿します。

画像クレジット:Bryce Durbin

原文へ

(文:Jordan Crook、翻訳:Katsuyuki Yasui)

ツイッターが2月12日午前2時すぎからダウン、現在は復旧済み

Twitterの翼が切り取られたようだ。Downdetectorに寄せられたユーザーの報告によると、Twitterは日本時間2月12日午前2時15分(米国東部標準時時間2月11日午後12時15分)ごろからダウンしていた。少なくとも45分間は停止しており、一部のユーザーはより多くの問題を抱えているようだ。

この障害はウェブとモバイルアプリの両方に影響を与えているが、Downdetectorによると、より多くのユーザーがウェブの問題を報告しているという。

TechCrunchはTwitterに、障害の原因やその影響がどの程度広がっているかについてのコメントを求めている。

この障害が最初に報告されてから約1時間後、Twitterサポートは以下の声明を発表しており、現在は復旧しているようだ。

タイムラインの読み込みやツイートの投稿を妨げていた技術的なバグを修正しました。現在、正常に動作しています。お待たせして申し訳ありませんでした。

画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Amanda Silberling、翻訳:Katsuyuki Yasui)

Discordがダウンしていたのはあなただけではなかった

グループチャットプラットフォームDiscordで、太平洋時間1月26日正午(日本時間1月27日5時)前からAPIの問題が広範囲に発生している。つまり、あなたがゲーマー / 暗号資産のプロ / Discord好きのどれかであるのなら、自身のポッドキャストのサーバー、#petsチャンネルに飼っている犬の写真をアップロードできなくなっている。スタートアップの中にはDiscordをSlackのように使っているところもあるため、短時間のシステム停止でも影響があったり、a16zが資金提供しているスタートアップの社員全員にお休みをもたらすかもしれない。

「API停止の根本的な問題を特定しましたが、データベースクラスタの1つで二次的な問題に対処しています。我々は、オンコール対応チーム全体がオンラインで、この問題に対応していま」と同プラットフォームは投稿している。本稿執筆時はサイトがダウンしてから約45分後であり、Discordはデータベースが再び健全な状態になり、ユーザーが徐々に再接続できるようになっていると述べていが、それでもすぐにログインできない可能性があり、エラーメッセージが表示される可能性が高いだろう。

Discord

最初の障害から1時間余り、Discordはサーバーステータスのページで、半分以上のユーザーがオンラインに戻ったことを掲示していた。

画像クレジット:Discord/Eric Szwanek

原文へ

(文:Amanda Silberling、翻訳:Katsuyuki Yasui)

ランサムウェア攻撃で米国5000校のウェブサイトがオフラインに、コロナ集団感染の通知に障害も

米国各地の学校区にウェブサイトのデザイン、ホスティング、コンテンツ管理のソリューションを提供しているソフトウェアハウスのFinalsiteが、ランサムウェア攻撃を受けた。

先週初め、Finalsiteがホストしているウェブサイトを利用している学区は、サイトにアクセスできなくなったり、エラーが表示されることに気づいた。当初、Finalsiteはこの問題を複数のサービスにおける「パフォーマンス上の問題」としていたが、コネチカット州グラストンベリーを拠点とする同社は、今回の障害がランサムウェアによるものであることを認めた。

「1月4日(火)、当社のチームは、我々の環境の一部のシステム上にランサムウェアが存在することを確認しました」と同社は声明で述べている。「当社は直ちにシステムの安全を確保し、活動を抑制するための措置を講じました。また、第三者のフォレンジック専門家の協力を得て、迅速に調査を開始し、特定のシステムを積極的にオフラインにしました」とも。

Finalsiteの広報担当者であるMorgan Delack(モーガン・デラック)氏がTechCrunchに語ったところによると、同社の全世界の顧客総数8000のうち、カンザスシティ、イリノイ州、ミズーリ州の学区を含む約5000校の顧客が今回のインシデントの影響を受けているとのこと。ウェブサイトの停止に加えて、あるRedditユーザーによると、このインシデントにより、新型コロナ集団感染の発生による休校に関するメール通知を送信できない学校もあったという。

Finalsiteは最新の状況報告の中で「エンドユーザーに表示されるウェブサイトの大部分はオンラインに戻っている」と述べているが、「一部のサイトでは、適切なスタイル、管理者のログイン機能、カレンダーイベント、関係者ディレクトリがまだ欠けている可能性がある」と指摘している。Finalsiteの顧客の1つであるペンシルバニア州のHoly Ghost Preparatory Schoolは、1月7日に、ウェブサイトは復旧したものの、クラス登録フォームと電子メールシステムは依然として利用できないと発表した。

Finalsiteの広報担当者によると、同社は問題に気づいた時点で顧客サイトをオフラインにし、クリーンな環境でシステムを一から再構築したという。「そのため、復旧に時間がかかっています。「マルウェアの問題が原因でサイトがダウンしたのではなく、お客様のデータを保護するために停止したのです」と同担当者は述べている。

攻撃者がどのようにしてFinalsiteのシステムにアクセスしたのかは依然として不明で、攻撃に使用されたランサムウェアの種類もまだわかっていない。同社はTechCrunchに対し、フォレンジック専門家と協力して徹底した調査を続けていると述べている。

同社は、今のところランサムウェアの攻撃によってデータが盗まれたという「証拠はない」としているが、広報担当者は、調査中であることを理由に、Finalsiteがデータの流出を検知するログなどの手段を持っているかどうかについては言及を避けた。

教育機関やそのプロバイダーはパンデミックの発生以降、多くの学校区がオンラインでの遠隔授業に移行したことから、狙われやすい攻撃対象となっている。例として、2021年9月には、ワシントンD.C.のハワード大学がランサムウェア攻撃を受け、授業の中止を余儀なくされた。

画像クレジット:Olivier Douliery / Getty Images

原文へ

(文:Carly Page、翻訳:Aya Nakazato)

トラブル続きのアマゾンAWS、今月3度目の障害でSlack、Asana、Epic Gamesのサービスに影響

Amazon Web Services(AWS)のデータセンターの1つで米国時間12月22日、今月3度目となる障害が発生。同社のUS-EAST-1リージョン(バージニア北部)で発生した停電により、Slack(スラック)、Asana(アサナ)、Epic Games(エピックゲームズ)などのサービスに影響が出た。

問題が発生したのは米国東部時間の午前7時30分頃で、午後1時(日本時間12月23日午前3時)現在もその影響は続いている。AWSでは、この地域の多くのサービス、特にEC2コンピューティングサービスと関連するネットワーク機能に問題が発生していると報告している。直近では、この地域のシングルサインオンサービスでもエラー率が上昇し始めていた。

同社は米国東部時間午前8時のアップデートでこう説明している。「US-EAST-1リージョンの1つのアベイラビリティーゾーン(USE1-AZ4)内の1つのデータセンターで停電が発生したことが確認されました。これにより、影響を受けたデータセンターの一部であるEC2インスタンスの可用性と接続性に影響が出ています。また、影響を受けているアベイラビリティーゾーン内の起動で、RunInstance APIのエラー率が上昇しています。影響を受けるアベイラビリティーゾーン内の他のデータセンター、またはUS-EAST-1リージョン内の他のアベイラビリティーゾーンへの接続性と電源は、この問題の影響を受けませんが、影響を受けているアベイラビリティーゾーン(USE1-AZ4)からフェイルオーバーできる場合は、そうすることをお勧めします」。

ここ数週間で発生したAWSの障害がこの1回だけだったら、ほとんど注目されなかっただろう。現代のハイパークラウドの複雑さを考えれば、障害は時々起こるものだと考えられる。しかし、AWSでは現在、毎週のように障害が発生している。12月7日には、同じUS-EAST-1リージョンがネットワークの問題で数時間にわたってダウンした。さらに12月17日には、西海岸の2つのリージョン間の接続に影響を与える障害が発生し、Netflix(ネットフリックス)、Slack、Amazon傘下のRing(リング)などのサービスが停止した。さらに、これらの障害は、12月初めに開催されたre:InventカンファレンスでAWSが自社のクラウドの回復力をアピールした直後に発生したものだ。

もちろん、理想的にはこれらの障害は起こらず、AWSユーザーは地理的に離れたリージョンにフェイルオーバーするようにシステムを構築することで、障害から身を守ることができれば一番だ。だが、それにはかなりのコストがかかるため、ダウンタイムとコストのトレードオフに見合う価値がないと判断する企業も多い。結局のところ、安定したプラットフォームを提供するのはAWSにかかっている。この会社が単に不運続きなのか、それとも何か組織的な問題があってこのような問題が発生しているのかはわからないが、もし私が今US-EAST-1リージョンでサービスをホスティングしていたら、少なくとも別の場所に移すことを検討するだろう。

画像クレジット:Noah Berger/Getty Images for Amazon Web Services / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Aya Nakazato)

Azureがカオスエンジニアリングツール「Chaos Studio」を発表

カオスに頼るのは健全なエンジニアリングの方法ではないように思えるかもしれない。しかしカオスエンジニアリングは急速に、現実の障害で複雑なシステムが試される前にテストをする標準的な方法になりつつある。Netflixのエンジニアリングチームが2012年にChaos Monkeyを開発し、これは今でもよく使われるツールの1つだ。米国時間11月2日、Microsoft Azureも同社プラットフォーム上でユーザーが利用できる同様のツール、Azure Chaos Studioを発表した。

AzureユーザーはChaos Studioを使って、自分のアプリにランダムな停止、極端なネットワークレイテンシー、シークレットの無効化、さらにはデータセンターの完全な停止などを発生させ、実際の障害時にアプリがどう反応するかを確かめることができる。こうしたことが発生した場合に何が起きるかの理論を構築し、それに応じて計画を立てる方法はある。しかし実際の動作を見るのは、また別の話だ。現在のデータセンターインフラストラクチャの複雑さを考えれば、どこかで発生した小さな障害が雪崩のように大きな問題となるのはあり得ることで、あなたが気づく前にプラットフォームは数日間ダウンしてしまう。

ちなみにAWSはFault Injection Simulatorで同様の機能をユーザーに提供している。人気のエンジニアリングのコンセプトで多く見られるようにこうした分野のスタートアップもあり、例えばGremlinはカオスエンジニアリングに特化したサービスを提供している。

画像クレジット:PM Images / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Kaori Koyama)

Robloxがハロウィーン期間中3日間ダウンした後に復旧、無料ブリトー原因説を否定

若い世代に絶大な人気を誇るゲームプラットフォームRoblox(ロブロックス)は、米国時間10月31日夜にTwitter(ツイッター)で、全世界でオンラインに戻ったと発表した。

この復旧は、3日間続いたシステム障害の後でのことだった。これは、Robloxのような巨大な規模のテック企業にとっては、やや珍しい連続したブラックアウトだった。同社は先に、原因は「内部システムの問題」であると述べていた。

Robloxの創業者兼CEOであるDavid Baszucki(デイビット・バシュッキ)氏は、業務復旧後の投稿で、「高負荷時にバックエンドサービスの通信に微妙なバグが発生したことが原因で、インフラの中核システムが過負荷状態になった」と説明している。

「これは、外部トラフィックのピークや特定のエクスペリエンスによるものではありません。むしろ、データセンター内のサーバーの数が増えたことが原因で障害が発生しました。その結果、Robloxのほとんどのサービスは、効果的なコミュニケーションと展開ができませんでした」とも。

「実際のバグの診断が困難だった」ため、特定・復旧に「予想以上の時間がかかった」とバシュッキ氏は述べている。

噂では、同ゲームプラットフォームとメキシカンファストフードチェーンChipotle(チポトレ)との間のプロモーションパートナーシップが、ハロウィーンの時期にRobloxプレイヤーに100万ドル(約1億1400万円)相当のブリトーを無料で配布することを計画していたことが、このクラッシュにつながったとされていた。Robloxは、今回の混乱はプラットフォーム上の「体験やパートナーシップ」によって引き起こされたものではないとツイートで否定している。

おりしも、Robloxのクラッシュは、Facebook(フェイスブック)がMeta(メタ)になるというリブランディング発表の直後に起こった。ユーザーがゲームを作ってプレイできるRobloxは、しばしばメタバースの象徴とみなされている。

今回の障害は、ハロウィーンの週末に若いユーザーにいら立ちを与えただけでなく、子供や10代の若者にゲームを売り込んで収入を得ているRobloxの数百万人のデベロッパーにも影響を与えた。Robloxは、8月時点で4300万人以上のデイリーアクティブユーザー(DAU)を抱えている。

この3日間の混乱が、月曜日に市場が開いたときに、Robloxの技術力に対する投資家の信頼を損ねるかどうかはまだわからない。

画像クレジット:Roblox

原文へ

(文:Rita Liao、翻訳:Aya Nakazato)

Instagramがサービス停止時にアプリ内でそれを通知する機能をテスト中

Instagram(インスタグラム)はプラットフォームの停止や技術的な問題が発生したときにユーザーに通知する機能をテストする。通知はユーザーのアクティビティのフィードに表示される。同社は、停止するたびにユーザーに通知を送るわけではないが、ユーザーが「混乱し答えを求めている」と判断される場合に、通知によって状況を明らかにすることができるかどうかを判断するとしている。

今回の発表の少し前である日本時間10月5日にFacebookとその傘下のサービスが長時間の停止に見舞われ、日本時間10月9日にも短時間停止した。Instagramは、この2回の停止は設定の変更に起因するが関係はないと説明している。

関連記事
フェイスブック、Messenger、Instagram、WhatsAppなどすべてがダウン中、DNS障害が原因か
フェイスブックとInstagramが再びダウン(30分ほどで復旧)

Instagramはブログの投稿で「コミュニティとの対話や広範囲にわたる調査を通じて、Instagramで一時的な問題が発生した際にどの程度の混乱が生じるかを把握しました。エンゲージメントや配信に影響を及ぼす際には、利用者がその問題は自分だけに起きていて自分の投稿のせいだと考える場合があることもわかりました。このように不明確な状況はいらだたしいことであるため、我々が状況を直接伝えて簡単に理解していただけるようにしたいと考えました」と述べた。

自分側の問題でアプリが動作しないのではないかとユーザーが心配しなくて済むようになるので、この新機能がアプリに追加されることは歓迎だ。Instagramはこの新しいテストを米国で今後数カ月間実施する。同社は、この機能の有効性を確認するために少人数から始めてその後対象ユーザー数を増やしていくとしている。

画像クレジット:Instagram

Instagramは「アカウントのステータス」という新機能も発表した。これは自分のアカウントが無効になる危険性があるかどうかを簡単に確かめる機能だ。同社によれば、この新しいツールは「自分のアカウントがどういう状態かを確かめるためのワンストップショップ」になるという。Instagramが誤って自分の投稿を削除したと考えるユーザーは、このツールですぐに「レビューをリクエスト」を選択してアピールすることができる。

Instagramはこのツールにさらに情報を追加し、自分のコンテンツがアプリのさまざまな部分でどのように配信され、おすすめされているかをユーザーが把握できるようにする計画だ。同社は、この2つの新機能について今後さらに情報を共有していくとしている。

画像クレジット:Bryce Durbin/TechCrunch

原文へ

(文:Aisha Malik、翻訳:Kaori Koyama)

フェイスブックとInstagramが再びダウン(30分ほどで復旧)

今週はFacebookにとって大変な1週間だったが、米国時間10月8日の午後も、このハイテク企業には容赦がなかったようだ。10月4日の月曜に同社史上最長の障害が発生した後、金曜午後にFacebookは再びダウンした。この障害は、WhatsApp、Messenger、Instagramを含むFacebookのすべてのプロパティに影響を与えている。

関連記事
フェイスブック、Messenger、Instagram、WhatsAppなどすべてがダウン中、DNS障害が原因か
【コラム】フェイスブック、Instagram、WhatsAppはなぜダウンしたのか?

FacebookはTwitterで「当社のアプリや製品へのアクセスに問題が生じていることを認識しています。ご迷惑をおかけして申し訳ありません」と投稿している。。Instagramも同様の声明をツイートしており、絵文字( )で「This Is Fine」の雰囲気を漂わせている。

Facebookがツイートしてから30分も経たないうちにサービスが再開されたことから、この障害は長くは続かなかったようだ。しかし、今週はより深刻な障害が発生したこともあり、今回の度重なる障害はアプリの信頼性と安全性に対する懸念を引き起こしかねない。Facebookのツールを顧客とのコミュニケーションに利用している中小企業の経営者や、主要なテキストアプリとしてWhatsAppを利用しているユーザーにとって、度重なる停止は特に気になるところだ。

10月4日の障害は、Facebookのデータセンターでのルーターの設定変更が原因だった。FacebookはTechCrunchに対して、この度の障害も設定変更によるもので、世界中の人々に影響を与えたが、月曜日のダウンタイムとは無関係だと述べている。

「ここ数時間、当社の製品にアクセスできなかった方々に心からお詫び申し上げます。問題を修正しましたので、現在はすべて正常に戻っているはずです」とFacebookの広報担当者はTechCrunchに語っている。また、Instagramは、問題が解決したことをTwitterに投稿し、今週のミームを作ってくれたユーザーに感謝している。

画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Amanda Silberling、翻訳:Katsuyuki Yasui)

TelegramがフェイスビックとWhatsAppに障害が発生した日に7000万ユーザー増加を発表

米国時間10月4日に発生したFacebook(フェイスブック)の数時間に及ぶ障害は、会社、創業者、株主、そしてそのサービスに依存している多くの企業に打撃を与えたかもしれない。しかし、インスタントメッセージングのライバル企業にとっては、それは非常に良い1日となった。

関連記事:フェイスブック、Messenger、Instagram、WhatsAppなどすべてがダウン中、DNS障害が原因か

Telegram(テレグラム)の創業者兼CEOであるPavel Durov(パベル・デュロフ)氏は、10月5日に、同社のインスタントメッセージングアプリに7000万人という驚異的な数のユーザーが増えたことを発表し、そのサービスにとって「ユーザー登録数とアクティビティの記録的な増加」と表現した。

デュロフ氏は、自身のTelegramチャンネルに「Telegramは大多数のユーザーにとって完璧に機能し続けたので、我々のチームがこの前例のない成長にどのように対処したかを誇りに思います」と書いている。しかし、実際のところ、その日はそれほど完璧ではなかった。

「とはいえ、アメリカ大陸の数百万人のユーザーが一斉にTelegramに登録したため、一部のユーザーは通常よりも遅い速度を経験したかもしれません」とデュロフ氏は付け加えている。

最近10億ダウンロードを突破したTelegramは、2021年初めの時点で月間アクティブユーザー数が5億人に達している。

関連記事
メッセージアプリTelegramのダウンロード数が10億回超え、全世界で15番目
ユーザー数5億人に迫るインスタントメッセージアプリTelegramが2021年に広告プラットフォーム導入

また、TelegramとWhatsApp(ワッツアップ)の両方と競合するSignal(シグナル)も、新しいユーザーを増やした。同社は「数百万人の新規ユーザー」がアプリに参加したとツイートしている。

TelegramとSignalがライバル企業の犠牲の上にユーザーを増やしたのは、今回が初めてではない。WhatsAppが新しいプライバシーポリシーの内容を正確に説明するのに苦労していた2021年の初めにも、TelegramとSignalは数百万人のユーザーを獲得している。

Signalの持ち株会社の会長であるBrian Acton(ブライアン・アクトン)氏は、TechCrunchとのインタビューで、2021年初めのWhatsAppの失敗について「小さな出来事が最大の結果の引き金になった」と語っていた。

画像クレジット:Chris Ratcliffe/Bloomberg via Getty Images / Getty Images

原文へ

(文:Manish Singh、翻訳:Yuta Kaminishi)

【コラム】フェイスブック、Instagram、WhatsAppはなぜダウンしたのか?

Facebookの1日にわたるサービス停止は、ここ数年で最も長く、最も極端なものだった。ソーシャルジャイアントの本社がある米国西海岸では、現地午前9時頃、Facebook、WhatsApp、Instagram、Facebook Messengerがインターネット上から消えたように見えた。

この障害は市場終了まで続き、同社の株価は米国時間10月4日の初値から約5%下落した。Facebookがサンタクララのデータセンターにチームを派遣し、同社のサーバーを「手動でリセット」したことが報じられた後、午後の初めにはサービスが再開された。

関連記事
フェイスブック、Messenger、Instagram、WhatsAppなどすべてがダウン中、DNS障害が原因か
世界的な障害が続く中、フェイスブックの株価も下落を続ける

今回の障害の特徴は、Facebookが非常に長い時間オフライン状態にあったということだ。

午前中、Facebookは「一部のユーザーが、当社アプリやプロダクトへのアクセスに支障がある」ことを謝罪するツイートをした。その後、この障害がユーザーだけでなく、同社自体にも影響を与えていることが報告された。従業員はオフィスビルに入ることができず、スタッフは「スノーデイ」と呼んでいたが、この障害は社内のコラボレーションアプリにも影響を与えたため、仕事をすることができなかった

Facebookは、障害の原因についてコメントしていないが、セキュリティの専門家によると、同社のネットワークに問題があり、インターネットとFacebook全体が遮断されたことを示す証拠があるとのことだ。

ネットワーク大手CloudflareのCTOであるJohn Graham-Cumming(ジョン・グラハム-カミング)氏によると、最初の兆候が観測されたのはカリフォルニア州では午前8時50分頃で、Facebookは2分間に渡って「BGPのアップデートが嵐のように続く中、インターネットから消えた」という。BGP(Border Gateway Protocol)とは、ネットワークがインターネット上のデータを他のネットワークに送信する際の最速方法を決定するために使用するシステムのことだ。

具体的には、アップデートはBGPルートの取り消しだった。つまり、Facebookは、城の橋を閉鎖するように「ビジネスを終了する」というメッセージをインターネットに送ったのだ。その構造上、FacebookのネットワークはWhatsApp、Instagram、Facebook Messengerなど、デジタルの壁の内側にあるすべてのものが閉鎖されることになった。

BGPルートが取り消しから数分後、ユーザーは問題に気づき始めた。Errata Securityの創業者であるRob Graham(ロブ・グラハム)氏は「Facebookに送られるべきインターネットトラフィックが、インターネット上で迷子になり、どこにも行かなくなってしまったのです」とツイートしている。

ユーザーは、Facebookアプリが動かなくなったことやウェブサイトが読み込まれないことに気づき始め、インターネットの仕組みのもう1つの重要な部分であるDNS(Domain Name System)に問題が生じたことを報告した。DNSは、人間が読めるウェブアドレスを機械が読めるIPアドレスに変換し、ウェブページがインターネット上のどこにあるのかを見つけ出す。Facebookのサーバーにアクセスする手段がなければ、アプリやブラウザはDNSエラーのようなものを返し続けることになる。

BGPルートが取り消された理由は、はっきりとはわかっていません。インターネットが登場したときから存在しているBGPが、悪意を持って操作され、大規模な障害につながった可能性がある。

それよりも可能性が高いのは、Facebookの設定更新がひどい失敗をし、その失敗がインターネット全体に連鎖したということだ。現在は削除されているが、Facebookのエンジニアが投稿したRedditのスレッドには、広く知られるようになるずっと前に、BGPの設定ミスについて書かれていた。

修正は簡単かもしれないが、インターネットの仕組み上、復旧には数時間から数日かかる可能性がある。インターネットプロバイダーは通常、数時間ごとにDNSレコードを更新するが、完全に伝搬するまでには数日かかることがある。

Facebookは、現地時間午後3時30分頃「私たちを頼りにしてくれている世界中の人々や企業の巨大なコミュニティへ:申し訳ありません」とツイートした。「アプリやサービスへのアクセスを回復するために懸命に取り組んできましたが、現在はオンラインに戻っていることを報告します。ご理解いただきありがとうございます」。

画像クレジット:TechCrunch

原文へ

(文:Zack Whittaker、翻訳:Katsuyuki Yasui)

世界的な障害が続く中、フェイスブックの株価も下落を続ける

Facebookの株価は米国時間10月4日、急落した。これは、Facebookが過去10年間で最悪の障害に見舞われたためだ。

株価は5%近く下落し、Facebookはサービス停止の原因を分析するための要素を整理し、投資家はサイトへの継続的なダメージがどのようなものかを計算しようとした結果、時価総額を数百億ドル(数兆円)減らした。Facebookの株価は2021年に急騰し、7月初旬には時価総額1兆ドル(約110兆円)に達したが、ここ数カ月は停滞しており、時価総額は9200億ドル(約102兆円)をわずかに下回っている。

関連記事:フェイスブック、Messenger、Instagram、WhatsAppなどすべてがダウン中、DNS障害が原因か

数時間から1日程度のダウンでも、一部のユーザーを競合サービスに移行させるには十分であり、現在、投資家は同社の株価が下落する中、この脅威を重く見ている。

画像クレジット:Jakub Porzycki/NurPhoto / Getty Images

原文へ

(文:Lucas Matney、翻訳:Katsuyuki Yasui)

システム障害に対応するエンジニアのための共同作業ノートブック「Fiberplane」

アムステルダムを拠点とするFiberplane(ファイバープレーン)は、Googleドキュメントのグループ編集に似た方法で、SRE(サイト・リライアビリティ・エンジニア)がインシデントに取り組むための共同作業ノートブックを構築している。このアーリーステージのスタートアップ企業は現地時間9月16日、シードラウンドにおける750万ユーロ(約9億7000万円)の資金調達を発表した。

この投資ラウンドは、Crane Venture Partners(クレーン・ベンチャー・パートナーズ)とNotion Capital(ノーション・キャピタル)が共同で主導し、Northzone(ノースゾーン)、System.One(システムワン)、Basecase Capital(ベースケース・キャピタル)が参加した。

通称Mies(ミース)と呼ばれているMicha Hernandez van Leuffen(ミシャ・ヘルナンデス・ファン・ロイフェン)氏は、Fiberplaneの創業者でCEOだ。以前起ち上げたスタートアップのWerker(ワーカー)が2017年にOracle(オラクル)に買収されたことをきっかけに、ヘルナンデス・ファン・ロイフェン氏はより大きな会社の一員となり、そこで(どこの会社でも起こる)障害への対応に苦労している人々を目にした。

関連記事:WerckerをOracleが買収、コンテナベースのデベロッパープラットホームに既存大手も着目

「私たちは常にメトリクス、ログ、トレースの間を行ったり来たりして、私はいつもこれを宝探しと呼んでいるのですが、機能停止やダウンタイムの根本的な原因を突き止めていました」と、ヘルナンデス・ファン・ロイフェン氏は筆者に語ってくれた。

同氏はこの経験から、インシデント対応に関するいくつかの重要な洞察が得られたという。1つ目は、すべてのインシデントデータを集めておく集中的な場所が必要だということ。2つ目は、分散したシステムを管理する分散したチームが、しばしば異なるタイムゾーンを越えて、リアルタイムに協力する必要があるということだ。

2020年8月にOracleを退職した同氏は、DevOps(デブオプス)チームやSREに、組織内の他のチームがGoogleドキュメントやNotion(ノーション)などのツールで行っているのと同じようなグループ編集機能を与えることができないかと考え始め、新会社のアイデアを具体化させていった。

同氏がFiberplaneで作り上げたものは、SREがさまざまな種類のデータを取り込み、インシデントを解決するために共同作業を始めるためのコラボレーションノートブックだ。同時にこのノートブックには、何が起き、どのように問題を解決したかという自然な監査証跡を残すことができる。Googleドキュメントを複数の人が編集できるように、このノートブックにもさまざまな人が参加できるようにすることで、当初の構想を実現している。

複数の人が関わっているFiberplaneのコラボレーションノートの例(画像クレジット:Fiberplane)

しかし、彼はそこで止まるつもりはない。長期的なビジョンとしては、SREやDevOpsチームが障害のあらゆる側面に対応できる運用プラットフォームを目指している。「これは私たちの出発点です。しかし、ここからさらに拡大して、いわばSREのワークベンチとして、インフラを指揮・管理できるものにしたいと考えています」と、同氏は述べている。

現在、Fiberplaneでは13名の従業員が働いており、今も成長を続けている。彼らは、今の彼らがそうであるように、多様性のある会社を作るための方法を模索しており、より多様な候補者を見つけるための具体的な戦略を検討している。

「私たちは多様な人材を雇用するために、当社のトップ・オブ・ザ・ファネルのプロセスを再検討しているところです。当社の取り組みとしては、社会的弱者のコミュニティに求人情報を掲載したり、求人情報の記述をジェンダーデコーダにかけたり、求人情報の公開期間を長くしたりしています」と、Fiberplaneのマーケティングマネージャーを務めるElena Boroda(エレナ・ボロダ)氏は述べている。

ヘルナンデス・ファン・ロイフェン氏はアムステルダムを拠点としているが、同社は英国、ベルリン、コペンハーゲン、そして米国でも人材を雇用しているという。従業員の大半がアムステルダムに住んでいるため、オフィスが再開される際にはアムステルダムを中心拠点とする計画だ。

画像クレジット:lemono / Getty Images

原文へ

(文:Ron Miller、翻訳:Hirokazu Kusakabe)

システム障害に対応するエンジニアのための共同作業ノートブック「Fiberplane」

アムステルダムを拠点とするFiberplane(ファイバープレーン)は、Googleドキュメントのグループ編集に似た方法で、SRE(サイト・リライアビリティ・エンジニア)がインシデントに取り組むための共同作業ノートブックを構築している。このアーリーステージのスタートアップ企業は現地時間9月16日、シードラウンドにおける750万ユーロ(約9億7000万円)の資金調達を発表した。

この投資ラウンドは、Crane Venture Partners(クレーン・ベンチャー・パートナーズ)とNotion Capital(ノーション・キャピタル)が共同で主導し、Northzone(ノースゾーン)、System.One(システムワン)、Basecase Capital(ベースケース・キャピタル)が参加した。

通称Mies(ミース)と呼ばれているMicha Hernandez van Leuffen(ミシャ・ヘルナンデス・ファン・ロイフェン)氏は、Fiberplaneの創業者でCEOだ。以前起ち上げたスタートアップのWerker(ワーカー)が2017年にOracle(オラクル)に買収されたことをきっかけに、ヘルナンデス・ファン・ロイフェン氏はより大きな会社の一員となり、そこで(どこの会社でも起こる)障害への対応に苦労している人々を目にした。

関連記事:WerckerをOracleが買収、コンテナベースのデベロッパープラットホームに既存大手も着目

「私たちは常にメトリクス、ログ、トレースの間を行ったり来たりして、私はいつもこれを宝探しと呼んでいるのですが、機能停止やダウンタイムの根本的な原因を突き止めていました」と、ヘルナンデス・ファン・ロイフェン氏は筆者に語ってくれた。

同氏はこの経験から、インシデント対応に関するいくつかの重要な洞察が得られたという。1つ目は、すべてのインシデントデータを集めておく集中的な場所が必要だということ。2つ目は、分散したシステムを管理する分散したチームが、しばしば異なるタイムゾーンを越えて、リアルタイムに協力する必要があるということだ。

2020年8月にOracleを退職した同氏は、DevOps(デブオプス)チームやSREに、組織内の他のチームがGoogleドキュメントやNotion(ノーション)などのツールで行っているのと同じようなグループ編集機能を与えることができないかと考え始め、新会社のアイデアを具体化させていった。

同氏がFiberplaneで作り上げたものは、SREがさまざまな種類のデータを取り込み、インシデントを解決するために共同作業を始めるためのコラボレーションノートブックだ。同時にこのノートブックには、何が起き、どのように問題を解決したかという自然な監査証跡を残すことができる。Googleドキュメントを複数の人が編集できるように、このノートブックにもさまざまな人が参加できるようにすることで、当初の構想を実現している。

複数の人が関わっているFiberplaneのコラボレーションノートの例(画像クレジット:Fiberplane)

しかし、彼はそこで止まるつもりはない。長期的なビジョンとしては、SREやDevOpsチームが障害のあらゆる側面に対応できる運用プラットフォームを目指している。「これは私たちの出発点です。しかし、ここからさらに拡大して、いわばSREのワークベンチとして、インフラを指揮・管理できるものにしたいと考えています」と、同氏は述べている。

現在、Fiberplaneでは13名の従業員が働いており、今も成長を続けている。彼らは、今の彼らがそうであるように、多様性のある会社を作るための方法を模索しており、より多様な候補者を見つけるための具体的な戦略を検討している。

「私たちは多様な人材を雇用するために、当社のトップ・オブ・ザ・ファネルのプロセスを再検討しているところです。当社の取り組みとしては、社会的弱者のコミュニティに求人情報を掲載したり、求人情報の記述をジェンダーデコーダにかけたり、求人情報の公開期間を長くしたりしています」と、Fiberplaneのマーケティングマネージャーを務めるElena Boroda(エレナ・ボロダ)氏は述べている。

ヘルナンデス・ファン・ロイフェン氏はアムステルダムを拠点としているが、同社は英国、ベルリン、コペンハーゲン、そして米国でも人材を雇用しているという。従業員の大半がアムステルダムに住んでいるため、オフィスが再開される際にはアムステルダムを中心拠点とする計画だ。

画像クレジット:lemono / Getty Images

原文へ

(文:Ron Miller、翻訳:Hirokazu Kusakabe)

FastlyのCDN障害でSpotify、GitHub、CNNなどがダウン

Reddit、Spotify、Twitch、Stack Overflow、GitHub、gov.uk、Hulu、HBO Max、Quora、PayPal、Vimeo、Shopify、Stripeをはじめとした無数の人気ウェブサイトや、ニュース配信サイトのCNN、The Guardian、The New York Times、BBC、Financial Timesなどで、現在、障害が起こっている。Financial Timesのプロダクトマネージャーによると、人気のCDNプロバイダーFastlyの不具合が原因と考えられている。Fastlyは、同社のウェブサイトで障害が発生していることを確認している。

「現在、CDNサービスのパフォーマンスへの潜在的な影響を調査中です」と述べている

コンテンツ配信ネットワーク(CDN)は、インターネットインフラの重要な部分を占めている。CDNは、ウェブサービスのパフォーマンスと可用性を向上させるために、サーバーのグローバルネットワークを運営している。CDNはプロキシサーバーとして機能し、一部のデータをできるだけエンドユーザーの近くにキャッシュする。例えば、メディアコンテンツは、ユーザーの近くにあるCDNサーバーにキャッシュされることが多く、ユーザーがウェブページを読み込むたびに元のサーバーで取得する必要がないようにしている。

CDNには、ロードバランシング、DDoS対策、ウェブアプリケーションファイアウォール、セキュリティ機能など、さまざまな機能が追加されてきている。人気のあるCDNには、Fastly、Cloudflare、Amazon Web ServicesのCloudFront、Akamaiなどがある。

特にFastlyは、メディアのウェブサイトでかなり人気だ。同社は2019年に上場した。Fastlyの株式(NYSE:FSLY)は現在、昨日の終値と比較して5.21%減の48.06ドルで取引されている。

本日の問題は、特にデータセンターに限定されるものではない。Fastlyはこれを「グローバルCDNディスラプション」と呼び、同社のネットワークに対しグローバルに影響を与えているようだ。

カテゴリー:ネットサービス
タグ:FastlyCDNシステム障害

原文へ

(文:Manish Singh、Romain Dillet、翻訳:Katsuyuki Yasui)

マイクロソフトのネット障害でサイトやサービスがダウン

Microsoft(マイクロソフト)でのサービスで大規模なシステム障害が発生している。

ホームページ以外でもマイクロソフトのサービスはダウンしており、ログインページが読み込まれず、同社のステータスページさえも機能していない。さらに悪いことに、マイクロソフトのクラウドサービスであるAzureもオフラインになっているようで、同サービスに依存しているサイトやサービスはすべて停止している。

ステータスページによると、原因はネットワーク障害のようだ。マイクロソフトはまた、ウェブアドレスをコンピューターが読み取れるインターネット番号に変換するシステムであるDNSに関連しているとツイートしている。これはインターネットの仕組みの中で重要な役割を果たしているため、突然の停止は大きな問題となる。

米TechCrunchはマイクロソフトにコメントを求めている。詳細が判明次第アップデートする。

カテゴリー:ネットサービス
タグ:Microsoftシステム障害Microsoft Azure

画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Zack Whittaker、翻訳:塚本直樹 / Twitter

InstagramとWhatsAppにシステム障害発生

Instagram(インスタグラム)とWhatsApp(ワッツアップ)で米国時間3月19日(日本時間3月20日)、明らかなシステム障害が発生した。この障害は東部標準時午後1時40分(日本時間3月20日3時40)頃に始まり、30分以上続いた。

WhatsAppではサーバーに接続できず、メッセージが配信されなかった。この問題がFacebook Messengerにも影響を与えたかどうかは定かではないが、同アプリは2020年にFacebook(フェイスブック)、WhatsApp、Instagramの間でクロスプラットフォームのメッセージングを可能にする新機能を導入していた。

Instagramではバックエンドサーバーのエラーを示唆する500のメッセージが表示されていた。

WhatsAppのユーザー数は20億人以上、Instagramのユーザー数は約10億人だという。Facebookの開発者ステータスページには、直ちに停止するような表示はなかった。

TechCrunchはこれらのサービスを運営しているFacebook(フェイスブック)に連絡をとったが、すぐには返答がなかった。詳細がわかり次第、続報をお届けする。

カテゴリー:ネットサービス
タグ:InstagramWhatsAppシステム障害

画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Zack Whittaker、翻訳:塚本直樹 / Twitter

オンラインワークスペースNotionの障害はフィッシング苦情が原因

先週、数時間にわたって起きたオンラインワークスペーススタートアップNotion(ノーション)のDNS(ドメインネームサーバー)障害は、同社のドメインレジストラによるとフィッシングの苦情が原因だった。

Notionは米国2月12日午前中のほとんどの時間オフラインとなり、同社がいうところの「レジストリオペレーターレベルでのかなり異常なDNS問題」のためにユーザー400万人超がサービスを利用できなくなった。Notionのドメインがオフラインになり、ユーザーはファイルやカレンダー、書類にアクセス不能になった。

関連記事:オンラインワークスペースのNotionに一時DNS原因の障害発生

Notionは同社のドメインネーム「notion.so」をName.comを通じて登録しているが、すべての「.so」ドメインは、「.so」のトップレベルのドメインレジストリSonicをName.comのようなドメインネームレジストラにつなげることををサポートしている企業であるHexonetによって管理されている。

相互依存の複雑なウェブが、数時間にわたってNotionがオフラインに陥ることになった通信障害の主な原因だ。

TechCrunchへのメールで、Name.comの広報担当Jared Ewy(ジャレッド・ユーイ)氏は次のように述べた。「Hexonetはフィッシングにつながっているユーザーが作ったNotionページについての苦情を受けました。Hexonetはこうした報告についてName.comに知らせましたが、当社は独立して苦情を確認することができませんでした。規則により、HexoneはNotionのドメインを一時保留としました」。

「こうした措置の影響を認識し、全チームがNotionとそのユーザーへのサービス復旧のために取り組みました。全3社のチームは現在、この手のインシデントが再発することがないようにするため、新たなプロトコルで提携しています。Notionのチームとその熱心なフォロワーはすぐに反応し、協業できたことは喜びでした。みなさんの忍耐と理解に感謝します」とユーイ氏は述べている。

繰り返されるサービス一時停止の差し迫った危険はないように聞こえる。

Notionはこの記事が公開される前にTechCrunchの電子メールに反応しなかったが、後に広報担当のCamille Ricketts(カミール・リケッツ)氏は「Notionがフィッシングサイトをホストするのに使われることを当社は許しません。当社のドメインに関連するあらゆるページにある疑わしいリンクをスキャンして削除するセキュリティソフトウェアを自動化しました」と述べた。

「今回のケースではユーザーがどこか別のところでホストしたフィッシングサイトとリンクするNotionページを作り、これにはフラッグが立てられませんでした」と同氏は話した。「今回のようなケースでも、通常ならサービスがブロックされる前にドメインベンダーによって問題を警告されます。しかし今回は通知されませんでした。当社はいま新しい通信プロトコルを運用していて、この種の問題は二度と起こらないと自信を持っています」

Redditには、フィッシングサイトをホストするために使用されているNotionについての懸念を議論するスレッドいくつかある。そしてセキュリティ研究者はアクティブなフィッシングに使われているNotionの例を示した。Notionの従業員は、Notionが自社所有の「notion.com」にドメインを「すぐ」に移す、と1年ほど前に述べている

Notionのサービス一時停止は、2018年にZohoで起きたものとほぼ同じだ。ZohoはNotionと同様、Zohoがホストする電子メールアカウントから送られたフィッシング電子メールに関する苦情を受け、zoho.comをブロックした後にドメインレジストラでのツイートに頼った。

カテゴリー:ネットサービス
タグ:Notionシステムダウン

画像クレジット:TechCrunch / composite

原文へ

(文:Zack Whittaker、翻訳:Nariko Mizoguchi

オンラインワークスペースのNotionに一時DNS原因の障害発生

2020年に20億ドル以上(約2100億円)の評価を受けたオンラインワークスペースのスタートアップNotionは、DNS(ドメインネームサーバー)障害の後にサービスが一時停止した。なお公式サイトによると、障害が発生した当日のうちに問題は解決している。

関連記事:職場の生産性プラットフォーム運営のNotionが約54億円調達

共同オンラインオフィスとドキュメントサービスを提供するNotionは東部標準時2月12日金曜日午前9時の時点でサービスが停止し、利用者は誰もクラウドに保存されたデータにアクセスできなかった。

後に削除されたツイートの中で、Notionは「Name.comの連絡先を知っているユーザーはいないですか?」と尋ねた。これは、Notionがドメイン名を依存しているウェブホストだ。Name.comは返信の中で、「このドメインの所有者と協力して、この問題にできるだけ早く対処します」と述べた。Notionは「この件に対処するため、どこにメッセージを送っているのか教えてください」と返信している。

すでに部分的に削除されている、Notionの停止を指摘するツイートのスレッド(画像クレジット:TechCrunch)

最初のツイートが公開された直後の声明で「DNSの問題が発生しており、多くのユーザーがサイトへとアクセスできない原因となっている。我々はこの問題を積極的に調査しており、詳細な情報が判明した際にはTwitterのステータスページを更新します」と同社はTechCrunchに対して述べている。

 

NotionはDNS問題の原因について、具体的には言及していない。DNSは、インターネットの仕組みにおいて重要な機能だ。ウェブサイトにアクセスする度に、ブラウザはDNSサーバーを使用してウェブアドレスをIPアドレスに変換し、インターネット上のウェブページの位置を特定する。しかしウェブサイトやDNSサーバーが正しく設定されていなければ、ウェブサイトが読み込まれない原因となることがある。

このDNS問題の原因は、正確には明らかになっていない。Name.comの広報担当者に連絡を取ったがコメントは得られておらず、またNotionが利用している国別コードのトップレベルドメイン「.so」を管理してるソマリアに拠点を置くレジストラのSonic.soも、コメントに返信していない。

カテゴリー:ネットサービス
タグ:Notionシステム障害

画像クレジット:TechCrunch / composite

原文へ

(文:Zack Whittaker、翻訳:塚本直樹 / Twitter