自己学習 | SEO-LPO.net

OpenAIの最新の研究は、機械学習エージェントにかくれんぼで遊ばせ、相手を見つけ出す目的のために、オブジェクトの意外な使い方など創意工夫を競い合わせることを目指すものだ。こうした自己学習型AIは、現実世界にも役立てることができる。

この研究は、機械学習エージェントが研究者の介入や手助けなしに、高度な現実世界で応用できる技術を習得する可能性を見極めるもので、見事に実証された。

写真に写っている物を定義したり、本物らしい人の顔を作るといった作業は困難ながら役に立つ。しかしAIのやり方は、私たちが現実世界で行うときの方法をそのまま引き継いでいるわけではない。AIはとても頭がいいため、コンピューターの中だけで非常に効率的にものごとを熟すと思われがちだ。

ところが、カップを持ってソーサーの上に置くといった作業をロボットアームで行うようAIに教えるのは想像以上に難しい（しかも、非常に限定された状況でのみ可能となる）。現実の物理世界は大変に複雑で、コンピューターの中だけでの純粋に知的な学習でのみ作業を習得することは、まずもって不可能だ。

同時に、現実世界を完全に写すわけではないが、それでも現実で有意義となる中間的な作業もある。簡単な例では、複数の重要な物や人に出会ったときに、どちらにロボットの向きを変えるかといった問題がある。自分自身またはカメラの向きを変えて両方同時に見る、あるいは片方ずつ見ればいいことに気付くまでに、1000回も試行錯誤する必要はない。

赤ちゃん機械学習エージェントにかくれんぼで遊ばせるというOpenAIの試みは、この路線に従っている。そこは、Polyworld（ポリワールド）と呼ばれる単純なルールだけの、それでいて現実に近い物理法則や情報のあるゲーム環境だ。AIがその単純化された世界を歩き回ることを自己学習できれば、そこで学んだスキルは、ちょっと手を加えれば本物の現実世界でも使えるはずだ。

この実験の背後にはそうした考えがあるものの、それ自身が見て楽しいものになっている。ランダムに壁やオブジェクトが設置された小さな3Dアリーナで、2組に分かれたエージェントたちが対戦する。いくつかのエージェントがそこに出現し、隠れる側の者たちには、環境になじんで隠れるまでの猶予が与えられる。彼らはオブジェクトを動かすこともできる。押してどかしたり、固定したりが可能だ。次に鬼が登場し、隠れている者を探し出すまでの時間が与えれる。

どの機械学習プログラムにも、基本的な感覚だけが教えられる。各エージェントは世界を見る視覚と、近くのオブジェクトの位置を感知するライダーのような感覚、そしてオブジェクトは動かせるという知識が与えられている。しかしそれ以外に、探す側にも隠れる側にも、仕事を達成したときにポイントが与えられる。それが彼らのモチベーションになる。

この基本的な設定から、驚くほど面白い結果が導き出された。最初は、チームはただランダムに動いているだけだったが、数百万回も繰り返すうちに、隠れる側はある法則で動けばポイントがもらえることを学ぶ。露骨に逃げ回るのだ。そうして競い合いが始まった。

隠れる側は逃げ回るので、鬼はより構造的な追跡行動を開発する。しかし、そこに道具が現れる。

隠れる側は、環境内に置かれているオブジェクトを押したり引いたりできることを知り、それを使って砦を作り始める。

鬼は、落ちていた坂道を拾ってきてオブジェクトを乗り越え、砦を破壊する。

そのうち隠れる側は、鬼がまだ数を数えているうちに坂道を探し出し、それを盗んできたり、その場に固定したりするようになった（固定したオブジェクトは敵のエージェントには動かせなくなる）。面白いことに、そこにはある程度の作業の分担が見られる。時間が足りないため、隠れる側は砦作りと坂道探しの両方ができない。そのため、一人が砦を作っている間に、もう一人が坂道を探しにいくのだ。

OpenAIの研究者たちは、そこが限界だろうと考えたのだが、鬼たちは、このゲーム世界で想定していなかった機能を利用し始めた。箱に載ったまま押しせることを発見したのだ。つまり、坂道の近くに箱を持っていき、箱の上に載っかり、フィールド内をサーフボードを乗り回すように移動して、ずる賢く隠れている連中を探し出した。

当然のことながら、隠れる側は、砦に使用しないすべてのオブジェクトを固定するという対策に出た。これで、このゲームの戦略としては最終段階まで来たかと思われた。

この研究の要点はなんだったのだろう？論文の著者は、これは私たちが辿ってきた道だと話す。

地球の膨大な複雑性と多様性は生物間の共進化や競争によって変化し、自然淘汰によって方向付けられた。新しい有効な戦略や突然変位が現れると、近くのエージェント同士で問題を解決するための暗黙のタスク分配が変更され、適応のための新たな圧力が生まれる。この進化的軍拡競争は、潜在的なオートカリキュラ（Autocurricula、自己教育）を生み出し、競い合うエージェントたちは、継続的に互いのための新しいタスクを作り出す。

物理的な無限に広がる環境に自己教育を取り入れれば、人間にとって有用なスキルを無数に習得できるようになる。

言い換えれば、管理者のいない環境でAIモデル同士を競争させるほうが、環境を探索したパーセンテージのような意味のない数字を積み上げて一人でよちよち歩きをさせるよりも、有用でしっかりとしたスキルの開発には、ずっといいということだ。

AIの能力のあらゆる側面を、パラメーター化して環境との関わり合いを制御する形で人間が直接管理することは、次第に困難さを増し、さらには不可能になってきている。たとえば、混雑した環境内をロボットが移動するといった複雑な作業には非常に多くの要素が含まれるため、エージェントが日常的に歩き回るのに十分なまでの高度な行動は、人間にはもう決してデザインできない。

しかしAIエージェントは、今回の実験や敵対的生成ネットワークでも見られるように、互いに教え合うことができる。そこでは2組の敵対するAIが、現実的な媒体を作り上げたり感知したりして相手に打ち勝とうとする。OpenAIの研究者は、マルチエージェントオートカリキュラ、つまり自己学習型エージェントこそが他の方法があまりにも遅く、または体系化されすぎた数多くの状況で前に進める方法だと断言している。彼らはこう締めくくっている。

「この結果は、より広大で多様な環境において、マルチ・エージェントの力学が、非常に複雑で、人間と関わる行動に道を拓くという自信をもたらした」。

この研究は部分的にオープソースとして公開されている。実験を解説した論文の全文はこちら。

[原文へ]

（翻訳：金井哲夫）

タグ: 自己学習

かくれんぼで遊んでいたAIが道具の使い方やルールの破り方を自分で発見