Facebookの「ロゼッタ」システムは、ミームの認識を容易にする

ミームはウェブの言語であり、Facebookはそれをもっと理解したいと思っている。

FacebookのAIチームはここ数年、コンピュータービジョンと自然言語認識の両分野で目覚ましい進歩を遂げてきた。今日(米国時間9/11)同チームは、ふたつの分野の進歩を融合する最新の成果を発表した。新しいシステムはコードネームを “Rosetta” といい、FacebookとInstagramで画像内テキストを認識して、被写体がなんであるかを理解し分類を容易にすることによって検索や不正コンテンツの識別に役立てる。

ミームばかりではない。ツールは10億以上の画像とビデオフレームを、毎日複数言語にわたってリアルタイムで解析する、と同社はブログに書いている。

Rosettaは光学文字認識(OCR)の最新技術を活用している。まず画像をスキャンしてテキストの存在を検出し、文字がバウンディングボックスの中に置かれる。つぎに畳み込みニューラルネットワークを用いた分析によって、文字を認識し何を伝えようとしているのかを判定する。

via Facebook

このテクノロジーはしばらく前から使われていたが——FacebookはOCRに2015年から取り組んでいる——同社の巨大なネットワーク全体に展開することは、狂気レベルのスケールを必要とするため、文字検出と認識に関して新しい戦略を考える動機が生まれた。

技術面に興味のある人には、チームの書いた論文がある。

Facebookには、ビデオや写真に写ったテキストに興味を持つ理由が山ほどある。同社のコンテンツモデレーション[コンテンツの監視]の必要性に関しては特にそうだ。

スパムの識別は、写真の説明テキストが”Bruh!!! ” や “1 like = 1 prayer” (いいね! 1回=祈り1回)のようなものなら比較的単純だが、Facebookの “time well spent”[有意義な時間]推進のためのアルゴリズム変更によって、タイムラインには似たような技巧を用いたビデオや写真が増えている。同じことはヘイトスピーチにも言える。あらゆるメッセージが1つの写真やビデオに埋め込まれていたらシェアは容易だ。字幕機能が便利なツールになる。

同社によると、現在このシステムは複数言語対応という新しい課題をもたらしている。現在は言語を統一したモデルによって動いていて、訓練データの大部分はラテン文字を使っている。同社の研究論文によると、現在既存データベースの最目的化によって新言語をサポートするための戦略を検討しているという。

Facebookは人間監視役の負荷を減らし、ニュースフィードアルゴリズムが分類結果に応じてコンテンツを選べるようしたいと考えている。こうしたツールは、Facebookが有害コンテンツを識別し、より興味深いコンテンツをユーザーに見せるうえで大きな可能性を持っている。

[原文へ]

(翻訳:Nob Takahashi / facebook

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。