画像や映像に写っている物だけでなく場面全体の状況も認識する人工知能をMITで研究開発中

mit-objectsscenes-1

コンピュータの能力は、一歩々々、人間に近づいていると言われる。今週ご紹介するのはMITのComputer Science and Artificial Intelligence Laboratory(コンピュータ科学と人工知能研究所)の研究プロジェクトで、画像や映像から物を認識し、さらに、その場の状況を認識する。これはコンピュータをさらに賢くするための、重要な機能の一つだ。

人間が画像を見ると、そこで今何が起きているのかをおおむね直観的に判断できる。しかし今のコンピュータビジョンや機械学習システムは、それが苦手(にがて)なため、車の自動運転とか荷物の配達などのインテリジェントなシステムの進歩を阻んでいる。状況認識に取り組んだMITの研究者たちは、これまであったシステムよりも33%高いパフォーマンスを実現したという。

今週彼らが発表した論文によると、その彼らのシステムは、画像を見て、そこで何が行われているかを判断するだけでなく、その状況を構成する個々の物も認識する。つまり、全体の認識だけでなく、個別の認識もできる。

おもしろいのは、研究者たちは自分たちの状況認識技術が約50%の認識精度を達成した理由を、正確に把握していない(なお、人間の状況認識精度は約80%)。とにかくそのシステムは画像中の何らかの視覚的特徴を拾って、それらを返しているのだ。人間もやはり、いくつかの特徴から、状況を判断している。たとえばベッドが写っていれば寝室、長いテーブルと椅子とスピーカーホンがあれば会議室だ、と判断するだろう。

高度な機械学習システムでは物の認識と場面の認識が一体化しているだけでなく、お互いを強め合っている、とチームは考えている。もしそうなら、いまよりもずっと賢いコンピュータの研究開発が一層加速され、言うまでもなく、ユートピアまたは黙示録の世界が訪れてしまうだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa