Diffbotの使命は、CEO Mike Tungによると、「ロボットにウェブページを読んで理解する方法を教えること」だ。今日(米国時間3/31)同サービスは、理解の対象をフォーラム、コメント、レビュー、その他のオンライン議論へと拡大した。
Tungがウェブページを理解すると言うとき、それはコンテンツを構造化データに変換することを意味している ― 例えば、記事を見てタイトル、著者、テキスト、画像、トピック等を識別する。その情報は、企業が自分たちに関連の深いコンテンツを見つけて追跡するのに役立つ(Diffbotの顧客には、Microsoft/Bing、Cisco、eBay等がいる)。
しかし今日までは、Diffbotが分析するのは記事または商品ページだけで、記事へのコメントや商品説明の下にあるレビューは対象外だった。
Tungは、この種の議論の分析には特有の課題がいくつかあると言った。例えば、コメントはJavaScriptウィジェットを使って表示されるものが多くテキストを抜き出すのが一筋縄ではいかない ― そのためには「大量のビジュアル分析」が必要だと彼は言った。他にも、議論にはくだけた、会話調の、絵文字を多用した英語が使われるため、Diffbotは「特化した言語モデル」を開発する必要があった。
Diffbotのテストドライブページに行けば、好きなページでDiffbotの分析が見られるので自分で試すすことができる。私は、先週書いて普段より多くコメントのついた自分の記事で試したところ、それぞれのコメントの基本属性 ― 著者、時刻、テキスト、言語、および著者のリンク ― が表示された。
会話の大きな流れを見つけられるようになると、さらに面白くなってくる ― Tungは、ソーシャルメディアの監視ツールはいくつもあるが、ウェブ横断で会話を追跡するのは難しい。しかし「詳細でよく考えられた議論」はそこにある、と指摘した。例えば靴メーカーは、顧客がいちばん履き心地が良いと思う靴はどれかを知ることがてきる、と彼は言った。
Diffbotによると、新しいDiscussions APIは、Facebookコメント、Disqus、Livefyre、WordPress、Blogger、AutomatticのIntense Debate、Kinja、Hacker News、Reddit、等々をサポートしている。
[原文へ]
(翻訳:Nob Takahashi / facebook)