テック企業の多くが目指しているように、ARメガネやその他のウェアラブルに搭載されたAIが人間の目を介して物事を見るようになるのであれば、未来のAIは人間の視点をきちんと理解できるようになる必要がある。自身の視点というのは当然、我々にとっては自然なものだが、意外なことに日常的な作業を映した1人称視点のビデオ映像はほとんど存在しない。そこでFacebookは、数千時間に及ぶ映像を新たなデータセットとして公開するため収集した。
Facebookが取り組んだのは、現在最も優れた物体・シーン認識モデルであっても、そのほとんどが三人称視点でのみ学習されているという課題だ。つまりキッチンに立っている場面を見れば、料理をしている人として認識することができても、料理をしている人の視点から見た場合では認識する事ができない。自転車を認識するにしても、自転車が映し出されれば認識できるが、自転車に乗っている人の視点では理解ができないわけだ。我々人間にとっては当たり前のことで、これまで見過ごされてきたことだが、コンピューターにとってはまだ難しい課題なのである。
機械学習の問題を解決するには通常、データを増やすかより優れたデータを得るかのどちらかが必要になる。今回の場合は両方あっても損はないだろう。Facebookは世界中の研究パートナーに協力を依頼し、料理や買い物、靴ひもを結ぶ様子から仲間と遊んでいる様子まで、一般的な行動の1人称映像を集めた。
13のパートナー大学が9カ国700人以上の参加者から何千時間ものビデオを収集。参加者はみんなボランティアで、自身の関与やアイデンティティのレベルをコントロールすることができた。これら数千時間にもわたる映像は、研究チームによって3000時間にまで縮小され、研究チームが映像を見て編集し、手書きで注釈を加え、さらに現実世界では撮影できなかった環境を演出した独自の映像も追加された。この研究論文にそのすべてが記されている。
映像はメガネ型カメラ、GoPro、その他のデバイスなどさまざまな方法で撮影されている。研究者の中には、活動している環境を同時に収録した人もいれば、視線の方向やその他の指標を追跡した人もいる。これらのデータはすべてEgo4Dと呼ばれるFacebookのデータセットにまとめられ、研究コミュニティに広く提供される予定だ。
コンピュータービジョンが物体の識別に成功しているものと、1人称映像での識別に失敗しているもの(画像クレジット:Facebook)
「AIシステムが人間と同じように環境と関わり合うためには、AI分野が1人称視点の知覚というまったく新しいパラダイムに進化する必要があります。そのためには人間の目を通したリアルタイムの動き、関わり合い、多感覚の観察の中で、AIに日常生活の動作を理解することを教えなければなりません」と、主任研究員のKristen Grauman(クリステン・グラウマン)氏はFacebookのブログ中で話している。
Facebookは1人称視点での理解力があらゆる分野でますます重要になっていると考えてはいるものの、何とも信じ難いことにこの研究とRay-Ban Storiesのスマートシェードはまったく無関係とのこと(この3Dスキャンは同社のハビタットAIトレーニングシミュレーターに使用されるかもしれないが)。
「弊社の研究では、拡張現実やロボット工学への応用を強く意識しています。特にARメガネのようなウェアラブル製品が人々の日常生活や移動に不可欠な要素になるにつれ、将来AIアシストを実現するためには1人称視点の知覚が不可欠です。もし、あなたのデバイスに搭載されているアシスト機能が、あなたの目を通して世界を理解し、生活から認知的過負荷を取り除くことができたらどれほど有益か想像してみてください」とグラウマン氏はTechCrunchに話している。
世界中から映像を集めたというのは意図的な戦略である。1つの国や文化の映像だけを集めるようでは近視眼的だ。米国のキッチンはフランスのキッチン、ルワンダのキッチン、日本のキッチンとはまるで別物であり、また同じ食材を使って同じ料理を作ったり、同じ作業(掃除や運動)をしたりしても、個人間はさることながら、文化間となれば大きく異なるのは当然である。つまりFacebookの投稿にあるように「既存のデータセットと比較して、Ego4Dのデータセットは、シーン、人、アクティビティの多様性が高く、背景、民族、職業、年齢を問わずさまざまな人に向けてトレーニングされているため、モデルの適用性が高い」のである。
Facebookの1人称視点のビデオとその環境の例(画像クレジット:Facebook)
Facebookが公開しているのはデータベースだけではない。データ収集においてこのような飛躍的な進歩がある場合、あるモデルがどれだけこの情報を活用できているかをテストしたベンチマークを公開するのが一般的になっている。例えば犬と猫の画像があったとして、どちらがどちらかを見分けるというモデルの有効性をテストした標準的なベンチマークが知りたい場合もあるだろう。
しかし今回のような場合はもう少し複雑になる。1人称視点で物体を識別するというのはそれほど難しいことではなく、目新しさや便利さもない。「これはトマトですよ」と教えてくれるARメガネなど誰が必要だろう。他のツールと同様に、ARデバイスは私たちが知らないことを教えてくれるものでなければならないのだ。そのためにARデバイスは、意図、文脈、連動したアクションなどをより深く理解する必要がある。
そこで研究者らは、1人称視点の映像を分析することで理論的に達成可能な5つのタスクを考えた。
- エピソード記憶:物体や概念を時間と空間の中で追跡し「私の鍵はどこにあるか」といった任意の質問に答えられるようにする。
- 予測:一連の出来事を理解することで「レシピの次の手順は何か」といった質問に答えたり「車の鍵を家に忘れた」といったことを事前に指摘したりすることができる。
- 手と物体のインタラクション:人がどのように物を掴み、操作しているのか、またその際に何が起こっているのかを把握することで、エピソード記憶やそれを模倣したロボットの動作に反映させることができる。
- オーディオ・ビジュアル・ダイアライゼーション:音をイベントやオブジェクトに関連付けることで、音声や音楽をインテリジェントに追跡し「カフェでかかっていた曲は何だったのか」「会議の最後に上司は何と言ったか」といった質問のソリューションに適用する(「ダイアライゼーション」が「言葉」である)。
- 社会的相互作用:誰が誰に向かって話しているのか、何が語られているのかを理解し、他のプロセスに情報を提供する目的と、複数の人がいる騒がしい部屋で字幕を表示するなどの瞬間的な使用の両方に対応する。
当然、このような活用法やベンチマークに限られているわけではなく、上記の例はAIモデルが1人称視点のビデオで何が起きているかを実際に理解しているかどうかをテストするための初期アイデアに過ぎない。論文に記載されている通り、Facebookの研究者らはそれぞれのタスクについてベースレベルの実行を行い、それを出発点としている。さらにこの研究をまとめた動画には、それぞれのタスクが成功した場合を想定した、非現実的とも言えるような例が挙げられている。
現在公開されているデータは、25万人の研究者が手作業で丹念に注釈を加えたという3000時間ものデータ数にははるか及ばないものの、まだ成長の余地があるとグラウマン氏は指摘する。今後もデータセットを増やしていく予定であり、パートナーも積極的に増やしていくという。
このデータの活用に興味がある読者は、Facebook AI Researchのブログをチェックして論文に掲載されている莫大な数の人々の1人に連絡を取ってみるといい。コンソーシアムが正確な方法を確定した後、数カ月以内に発表される予定だ。
画像クレジット:Facebook
[原文へ]
(文:Devin Coldewey、翻訳:Dragonfly)