FacebookとInstagramのAI生成画像キャプションがアップデート、より詳細な情報を提供

Facebook(フェイスブック)とInstagramに投稿された写真は、画像分析AIによって分析されキャプションが作成される。このAIがこのほど一段と強化された。新システムは視覚にハンデのあるユーザーを助けると同時に、将来は一般ユーザーが写真をすばやく見つけるのにも役立つようになるという。

AI分析によって「野原で人が馬の横に立っている」「ボートの上に犬がいる」のようなキャプションが生成され、画像のメタデータに保存される。これにより画像を見ることができない人も、どんな画像なのかを理解できるようになる。

これまで撮影者やメディアは、こうしたユーザー補助キャプションを手動で追加してきた。しかしソーシャルメディアに写真をアップロードする一般ユーザーは、いちいちキャプションを入力しないことが多い。Googleフォトのような画像をAIで分析して検索可能にするテクノロジーが、ここ数年で大きく進歩を遂げている。この機能がソーシャルメディアに導入されれば利便性が飛躍的にアップすることは明らかだった。

Facebookは、自動代替テキスト(Automatic Alt Text)システムを2016年に開発した。これは機械学習が普及し始めるよりずっと前のことだった。それ以来チームは、処理をスピードアップし内容を詳細にするため多くの改良を加えきた。最新のアップデートでは、詳細なキャプションをオンデマンドで生成するオプションが追加されている。

改良されたシステムは当初の10倍、約1200種類の対象、コンセプトを認識する。説明も詳細になっている。以前は「建物の側にいる2人」だったが、今では「エッフェル塔の側で2人が自撮り」というキャプションも可能だろう(実際のキャプションでは「かもしれない」と断りを入れるし、大胆過ぎる推測は避けられる)。

必ずしも大きな意味があるとは限らないが、たとえば下の例ではAIは人と物の相対的な位置を認識している。

画像クレジット:Facebook

人が立っているならドラムより背が高いし、帽子をかぶっているならそれは人の頭の上にある。こういう場合はいちいち位置関係を説明する必要はない。しかし「家と木と山」という場合はどうだろうか?そういう画像の場合、家は山の上にあるのか手前にあるのか?木の位置は家の手前か後ろか?それとも遠くの山に生えているのか?

つまり少ない語数で簡単に説明できる場合でも、背後で詳細な情報を生成しておく必要がある。我々は詳細な情報を求めて画像をクリックして拡大することがある。「詳細な画像の説明を生成」コマンドはキャプションで同様の役割を果たす(Androidアプリの場合は長押し、iOSならカスタムアクションで起動する)。

おそらく「雪が降っている山の手前に家と複数の木」というような説明になるのだろう。そうなるのであれば、画像理解のために便利だ (もちろんこの例は説明のために今考えついたものだが、おそらくそのような方向に改善されるのだろうと思う)。

この「詳細な説明」機能は、まずFacebookでテスト公開されるが、続いてInstagramでも行われるはずだ。キャプションは、すでにサポートされている他の言語に翻訳できる。ただしこの機能自体は当面多数の言語に拡張されることはないようだ。

カテゴリー:ネットサービス
タグ:FacebookInstagram

画像クレジット:Facebook

原文へ

(翻訳:滑川海彦@Facebook

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。