Topsy、2006年以来の全ツイートを検索可能に。他のソーシャルメディアのインデックスも作成中

Twitterは，ソーシャルネットワークとしてトップクラスの地位を確立し、FacebookやLinkedIn、YouTubeなどのサイトと同列に語られるようになり、さらには最新ニュースの目的地にもなった。しかし、リアルタイムメディアのGoogleになるべく検索エンジンとしては、未だにTwitterは成功していない。TwitterのデータパートナーであるTopsyにとって、それは好機だった。

もしウェブが今、ページランクされたウェブサイトと同じくらい、近況ステータスとハッシュタグ付の記事で埋まっているのだとすれば、大きな部分が失われていることになる。Twitterの場合、2006年に遡る歴史のごく表面を撫でているだけだ。現時点でそのアーカイブには4250億件からのツイートが入っている。

わずか 4社しかないTwitterデータ認定リセラーの一つであるTopsyは、これまで発信されたツイートすべてをインデックスしていると言っている — これはTwitterもやっていないことであり、必要な基盤作りとコストゆえ容易には真似できない（Topsyは、2008年以来3500万ドルのベンチャー資金を調達したと言っている）。

一方、今日のTwitterの関心事は「今」と「最近」であり、遠い過去ではない。search.twitter.com に行くと、見つかるのは「日」単位のツイートであり、月でも、もちろん年でもない。そして、季節が変わるごとにこの時間幅は狭まっていく。現在Twitterのインデックスはわずか1週間しか遡らないと同社は言っている。去る2009年、それは1週間半だった。それ以前はひと月だった。

Topsyは今年8月、システムの拡張によってTwitterのアーカイブを2010年まで遡れるようになった。そして今、7年間のデータすべてを掘り起こせる。これは、無料の公開利用向けとして、史上最大にして最も包括的なTwitterデータアーカイブだ。Twitter以外でこのデータをアクセスしたこ
とがあるのは、Gnipなどのデータパートナーおよび議会図書館だけだ — ただし、一般利用者が検索できる形式ではなかった。そしてもちろん、無料ではなかった。

Topsyの共同ファウンダー・CTOのVipul Ved Prakashによると、Twitter開始以来の全ツイート — 現在4250億項目、3500サーバーにわたる — をインデックスすることは大掛かりなデータ技術だった。「われわれの第3世代のインデックス技術は、サーバー1台にインデックスできるドキュメントの密度を高め、その結果あらゆるツイートを含む巨大なインデックスを運用できるようになった」と彼は言った。Topsyは、最終的に兆単位規模のドキュメントを処理できるようになり、彼らが取り組んでいるインフラストラクチャーベースのビジネスを構築していないライバルたちは太刀打ちできない、とも付け加えた。

この手の大胆なことを言いたがる会社は数多いが、この主張にはそれなりの真実がある。今日のウェブは変化している。例えばTwitterは、毎日4〜6億件の新しいツイートを送り出し、Topsyはそれを150ミリ秒以内にインデックスしている。言い方を変えると、Twitterが今後一年間に生成するデータ量は、今日までに生成された全ツイートよりも多い。

TwitterとFacebookが毎日生みだしているデータは、それ以外のウェブで生まれるデータよりも多い

そしてこれにFacebookを加えると、Googleが理解できるのはウェブのごく一部にすぎないことに気づく。「現在TwitterとFacebookが毎日生みだしているデータを合わせると、それ以外のウェブで生まれるデータよりも多い」とPrakashは説明する。「ソーシャルデータは益々大きな公共資料になった」（これが「なぜGoogle+が存在するか？」への答えだ）。

そしてもし今ソーシャルウェブが巨大なウェブであるなら、Topsyの野心がTwitterに留まらないのは驚くにあたらない。すでに同社のテクノロジーは、ユーザーがツイートしたリンクはもちろん、Facebookをはじめ他のソーシャルメディアサイトの全公開ページをインデックスできる準備が整っている。Google+の公開記事すべてのアーカイブも持っている。

「我々は、将来利用可能になるインデックスをいくつかバックグラウンドで作っている」と、Topsyの将来計画についてPrakashは示唆した。しかし、Facebookのインデックスに関しては、同社が作っているものの詳細は語らず「非公開」とだけ言い、「公開ページのアクセスは公開されている」だから「もしわれわれがあるソーシャルネットワークのために価値を作り出すなら — ビジネスとして意味があるなら — さらに深くデータにアクセスするだろう」と指摘した。

Topsyのソーシャルネットワーク例えばTwitter（あるいは他にも）に求める価値は、集めた後のデータに対して何ができるかという機会の問題だ。たとえば、データにまつわる詳細な統計データを提供することで、これは現在ツイートについて彼らがやっていることと似ている。Topsyは、”Obama” といった単語が過去何回言及されたかを数えることができる。あるいは、新しいiPhoneについてユーザーが〈本音で〉どう感じているかをヘッジファンドに教えることもできる。ブランドは自社のソーシャルメディアでのプレゼンスを監視して、広告やインフルエンサーのターゲット方法を改善できる。ジャーナリストは記事の情報収集に使える、等々。

「ソーシャルネットワークの排出物を処理することは、ソーシャルネットワークが今やっているビジネスとは異なる種類のビジネスだ」とPrakashは言う。Twitterの関心事は、バブリッシング・プラットフォームの構築や、ツイートをめぐるエンゲージメントを収益化することであり、アーカイブの分析結果を提供することとは限らない。Twitterには、エコシステムパートナーが先行していたビジネスに乗り出した過去があるが、Prakashはそれを恐れていない。なぜなら彼らはTwitterを補完するのであって、置き換えるものではないからだ。

それでもTopsyは、Twitterと共生関係になることを選んだ — APIアクセス（Twitterデータの「消防ホース」とも呼ばれる）のためにTopsyは非公開の金額を支払い、一方Twitterも、大統領選挙インデックスやアカデミー賞インデックスなどの特殊ツールを作るために、別契約を通じてTopsyに費用を支払っている。ちなみに、Topsyの分析サービス利用者は、月額1000ドルをTopsyに払っており、API利用者は使用データ料に応じて料金を払っている。

ある日、Twitterはこれを面白いビジネスだから自分でやりたいと思うだろうか？そしてもし、Topsyのシステム基盤が容易に真似できなければ、TwitterはTopsyを
買収するのだろうか？「その可能性はなくはない」とPrakashは認めたが、それについて両社で話したことはないと念を押した。今のところ、Topsyは規模拡大に向けて資産を消化しているところだが、顧客数や売り上げはもちろん成長率も明らかにしなかった。

長期的には、ソーシャルメディアの歴史的アーカイブが、特定のビジネスやマーケターに価値を生むかもしれないが、一般の主流ユーザーが同じように感じるかどうかは別の問題り。しかし、時間とともに変わる可能性はある。「10年以内に、ソーシャルメディアがインターネットのように見え始めるかもしれない・・・それは巨大なデータ保存庫を持つ異なるエコシステムだが、新しい市場が形成されようとしている」とPrakashは言う。「われわれの野望は、あらゆる公開ソーシャル書き込みを自分たちのすインデックスに取り込むことだ」。

Blogging!

— TechCrunch (@TechCrunch) March 7, 2007

I’ve got a secret dream to one day be a Startup Battlefield judge #tcdisrupt

— Alexia Tsotsis (@alexia) May 26, 2010

Jaiku? What did twitter ever do to you? One addiction is enough for me anyway!

— Sarah Perez (@sarahintampa) April 10, 2007

not using twitter, foo’

— Eric Rosser Eldon (@eldon) August 22, 2007

［原文へ］
　
（翻訳：Nob Takahashi）