「常識」獲得に向け少しずつ進化するコンピュータービジョン、フェイスブックの最新研究

機械学習は、やり方を教えるデータさえあれば、あらゆることができる。これは必ずしも簡単なことではない。だから研究者は、AIに少々の「常識」を加える方法を常に模索している。常識があれば、AIが猫だと認識する前に500枚の猫の写真を見せる必要がなくなるからだ。Facebook（フェイスブック）の最新の研究は、データのボトルネックを減らす方向へ大きな一歩を踏み出した。

同社の強力なAI研究部門は、高度なコンピュータービジョンアルゴリズムなどの技術進歩や応用範囲拡大の方法に長年取り組んでいる。着実に前進しており、その成果は一般に他のリサーチコミュニティと共有されている。Facebookが特に追求している興味深い開発の1つは「半教師あり学習」と呼ばれるものだ。

一般にAIの訓練について考えるとき、上述の猫の500枚の写真のようなものを思い浮かべる。こうした画像はあらかじめ選り分けられ、ラベルが付されている（つまり、猫の輪郭が描かれていたり、猫の周りに四角い囲みをつけたり、単に猫が画像の中のどこかにいると示されていたりする）。こうして、機械学習システムが猫の認識プロセスを自動化するアルゴリズムを作れるようにする。当然のことながら、犬や馬で行いたい場合は、500枚の犬の写真、500枚の馬の写真などが必要となる。つまり、線形に応用範囲が広くなる。テクノロジーの世界では決して目にしたくない言葉だ。

「教師なし」学習に関連する半教師あり学習では、ラベル付けされたデータをまったく使用せずにデータセットの重要な部分を理解する。これで単純に明後日の方向に進んでしまうことはなく、そこにはまだ構造がある。例えばシステムに1000個の文（センテンス）を与えて学習させた後、いくつかの単語が欠落している10の文をシステムに提示する。システムはおそらく、最初に見た1000文に基づき空白を埋めるまともな仕事をすることができる。しかし、それを画像や動画で行うのはそれほど簡単ではないし、単純でも予測可能でもない。

だがFacebookの研究者は、簡単ではないかもしれないが可能であり、実際には非常に効果的であることを示した。DINOシステム（DIstillation of knowledge with NO labels「ラベルなしでの情報抽出」の略）は、ラベル付きのデータが皆無でも、人、動物、静物のビデオの中から目的のものを見つけるべく学習することができる。

画像クレジット：Facebook

AIは上記の処理を、1つずつ順番に分析される一連の画像として動画を捉えるのではなく「一連の単語」と「文」の違いのような複雑で相互に関連する集まりとして捉えることによって行う。動画の冒頭だけでなく、途中や最後にも注意を払うことで、AIエージェントは「この一般的な形の対象物が左から右に移動する」という感覚を得る。その情報は他の知識にも反映される。例えば右側にある物が最初の物と重なっている場合、システムは双方の輪郭をパッと見て同じではないと認識する。その知識は他の状況にも応用できる。言い換えれば、AIは「見たものの意味」という基本的な感覚を養う。そして新しい対象物に関して非常に少ない訓練で同じことを行う。

これによりコンピュータビジョンシステムは、従来の訓練を受けたシステムと比べて優れたパフォーマンスを発揮するという点で効果的であるだけでなく、関連づけや説明する能力が高まる。例えば500枚の犬の写真と500枚の猫の写真で訓練されたAIは犬と猫を認識するが、その類似性はまったく理解しない。だがDINOは、具体的にではないが、両者が視覚的に類似し、とにかく車よりも類似していることを理解する。そしてメタデータとコンテキストがメモリで見えるようになる。犬と猫は、犬と山よりも、その種のデジタル認知空間では「近い」のだ。こうした概念は小さな集まりとして見ることができる。下の画像で、ある種の概念同士がどのくらい近接しているのか見て欲しい。

画像クレジット：Facebook

これには、この記事では取り上げない技術的な利点がある。興味がある人は、Facebookのブログ投稿にリンクされている論文に詳細があるので参照されたい。

隣接する研究プロジェクトとしてPAWSと呼ばれる訓練方法もある。これは、ラベル付けされたデータの必要性をさらに減らす。PAWSは、半教師あり学習のアイデアの一部を従来の教師ありメソッドと組み合わせて、ラベル付きデータとラベルなしデータの両方から学習させ、訓練を飛躍的に向上させる。

Facebook自身はもちろん、多くのユーザー向け（そして秘密の）画像関連の製品のために、速く優れた画像分析を必要としている。だが、コンピュータービジョンの世界でのこうした一般的な進歩は、目的が異なる開発者コミュニティでも歓迎されることは間違いない。

カテゴリー：人工知能・AI

タグ：機械学習、コンピュータービジョン、Facebook

画像クレジット：Facebook

［原文へ］

（文：Devin Coldewey、翻訳：Nariko Mizoguchi）

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。 TechCrunch Japan の投稿をすべて表示