DARPAの挑戦:AIに「常識」を教えることはできるか?

AIとは奇妙な存在だ。対象物をあっという間に判別し、人間の声を模倣したり、新しい音楽を推薦したりすることができるくせに、ほとんどの「機械知性」はもっとも基礎的な日常の物体や行動に関する理解を欠いている。言い換えれば常識がないのだ。DARPA(アメリカ国防高等研究計画局)はシアトルに拠点を置くアレン人工知能研究所(Allen Institute for Artificial Intelligence)と協力して、その状況を変える可能性を探ろうとしている。

このMachine Common Senseプログラム(MCSプログラム)は、問題の定義とそれに対する解決の進捗の両者を目指しているが、それが1〜2年のうちに「解決」すると考えている者は誰もいない。しかしAIが自分の得意な超特定ニッチの監獄から脱出させるためには、分類作業をすばらしいスピードで実行すること以上に、その脳を成長させる必要がある。

「常識が欠けているために、知能システムは世界を理解し、自然に人間とコミュニケーションをとり、予期せぬ状況で合理的に行動し、新しい経験から学ぶといったことができないのです。この不在こそが、今日の局所的に調整されたAIアプリケーションと、将来作り出したいと思っているより一般的なAIアプリケーションとの間の、もっとも重大な障壁でしょう」こうプレスリリースの中で説明するのはDARPAのDave Gunningである。

AIには常識が欠けているだけでなく、その概念がどれほど広いかを考えれば、その定義とテストは非常に難しい。常識とは例えば、固体同士は同じ空間を共有できないということから、台所というものは人間が喉の渇きを感じたときに一般的に向かう場所だといったものまで、あらゆるものを含む可能性がある。生まれて数ヶ月以上の人間にとっては当然のそうした常識も、実際には複数の概念や直感的なつながりを含む非常に洗練された構造なのだ。

それは単に事実の集合(例えば、オレンジは食べる前に剥かなければならないとは、引き出しは小物を仕舞うことができるなど)というだけではなく、別の場所で観察したものに基いて、事実同士の関連を見つけることも含まれている。それがDARPAの提案書に「経験から学び、発達心理学によって定義された認知の中核機能を模倣する計算モデルの構築」が含まれている理由だ。その中にはオブジェクトの領域(直感的な物理学)、場所(空間ナビゲーション)、エージェント(意志のあるアクター)が含まれる。

しかし、どうやってこれらをテストするのだろうか?幸いなことに、偉大な人びとが何十年にもわたってこの問題に取り組んできている。そしてある研究グループが、常識をテストするための最初の手法を提案した。この手法は将来的により洗練されたものへの足がかりとなる筈だ。

私はアレン人工知能研究所の責任者であるOren Etzioniに話を聞いた。彼はとても長い期間AIの常識について研究をしてきた人物だ。特に実世界の理解と移動に関する多くのプロジェクトを手がけている。

「これは35年以上にわたる、AIの聖杯(holy grail:至高の目標)なのです」と彼は語った。「問題の1つは、どうやればこれを実証的な土台の上に載せることができるのかということです。もし測定することができないならば、どうやってそれを評価すれば良いのでしょうか?これは、人間が最初に常識を計測可能にするために試みているものの1つですが、DARPAがこれに対してリーダーシップをとって資金を提供するのは全く初めてのことなのです」。

研究所のアプローチは、単純だが注意深く調整されている。機械学習モデルに対しては、状況についての記述と、次に何が起こるかに関するいくつかの短い選択肢が提示される。例えば以下のようなものだ:

ステージの上で、1人の女性がピアノに向かって腰掛けている。彼女は…
a)彼女の妹が人形で遊んでいる間、ベンチの上に腰掛けている。
b)音楽が演奏されているので、誰かと微笑んでいる。
c)群衆の中にいて、ダンサーを見ている。
d)神経質そうに鍵盤に指を触れている。

人間にとっては一瞬でわかるように、答えは(d)だ。しかし、私たちがその答えを見つけ出すために要した、文脈と知識の量は膨大である。そして他の選択肢も不可能というわけではない、実際それらはAIによって生成された選択肢で、他のAIからはもっともらしいものとして解釈される。だが人間によっては容易に見抜かれてしまう。これは機械にとって解決することが本当に難しい問題である、そして現在のモデルはおよそ60%の割合でそれを正しく選択することができる(偶然で当たる確率は25%である)。

こうした質問が11万3000個あるが、Etzioniによると、これはいくつかあるデータセットの最初の1つである。

「この特定のデータセットはそれほど難しいものではありません」と彼は言う。「急速に進展することを期待しています。今年の終わりまでに、少なくともあと4つは展開する予定ですが、それらはもっと難しいものになるでしょう」。

結局、子供たちはGRE(大学院入学のための学力テスト)を受験することで常識を学ぶわけではない。他のAIの課題と同様に、似たような問題のより難しいバージョンに対応するように徐々に改善して行きたい。例えば写真の中の1つの顔を認識することから始めて、複数の顔を認識するようにし、そしてそれらの顔の上の表情を読み取るといった具合だ。

来週には、このささやかなチャレンジを実行している人たちと、ちょっとした顔合わせをしたいと思っている研究者たちのために、アーリントンでMCSプログラムへの提案者たちのためのイベントが開催される。その後パートナー選定が行われて、来年の初めには選ばれたグループはそれぞれのモデルを、アレン人工知能研究所のシステムによって春に行われる評価のために提出することができる。

この常識への取り組みは、DARPAによる多岐にわたる大規模な20億ドル規模のAIへの投資の一部である。しかし彼らは、Google、AmazonそしてBaiduといった、電話機などの中に組み込まれている狭いAIアプリケーションに多大な投資を行う企業たちと、同じことをしたり競争をするつもりはない。

「彼らは、こうしたシステムの限界は何か、と問いかけています。私たちはどこで、新しい産業全体の基盤となる基礎研究に向けての資金を調達できるのでしょうか?」とEtzioniが考えを述べた。もちろん最初にDARPAや政府の投資が注がれるのは、自動運転車や仮想アシスタントなどなのである。常識に対しても同じように扱われても良いのではないだろうか?

[原文へ]
(翻訳:sako)

画像:Getty Images

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。