DeepMind(ディープマインド)は、AIがゲームの達人になれることに加え、ルールを教わらなくても強くなれることを証明するという目標を立てていたが、最新のAIエージェントMuZero(ミューゼロ)は、見た目はシンプルながら戦略が複雑な囲碁、チェス、将棋といったゲームで達成しただけでなく、見た目に複雑なAtari(アタリ)のゲームでもそれを実証した。
DeepMindの初期のAIの成功例は、少なくとも、有望な次の一手を示す膨大な決定木の中を、非常に効率的にナビゲートできるという一面が功を奏していた。囲碁やチェスでの決定木は、駒の動かし方や、この手を打つと次に何がどうなるかといった、非常に厳格な法則によって規定されている。
囲碁の世界チャンピオンを下したAIのAlphaGo(アルファゴ)は、ゲームのルールを理解し、しっかり頭に(というかメモリーに)刻みつつ、人同士の対局や人と自身との対局を研究して、最良の手や戦略を編みだしていた。その後継者であるAiphaGo Zero(アルファゴ・ゼロ)は、人間のデータは使わず、自己対局だけでそれをやってのけた。AiphaZero(アルファゼロ)は、2018年にそれと同じことを囲碁、チェス、将棋でも行い、単一でこれらすべてのゲームに熟達したAIモデルとなった。
しかしこれらのケースは、あらかじめAIにゲームの明確で不動のルールを教え込み、ルールに基づくフレームワークを構築して、そこから戦略を組み立てている。こう考えてほしい。ポーンはクイーンに成れることを教わっていれば、最初からそれを想定した計画を立てることができる。しかし、自分でそれを発見しなければならないとなれば、戦略はまったく違ったものになる。
この最新研究に関する同社のブログ記事にも書かれているが、AIに事前にルールを教えてしまうと、「複雑すぎて単純な法則に落とし込めない現実世界の雑多な問題に対応できなくなる」という。
だが、同社の最新型であるMuZeroは、前述のゲームがプレイできる上に、Atariのいろいろゲームもプレイできる。もちろん、ルールの説明書は一切与えられずにだ。この最新モデルは、Atariのゲームを、ごく基本的なルールすら教わることなく、どれも自分自身の体験(人のデータは使用しない)からプレイ方法を学ぶ。
ルールから最良のシナリオを描き出す代わりに(なぜなら不可能だからだ)、MuZeroはゲーム環境のあらゆる側面を取り上げ、観察して、それが重要か否かを判別する。何百万ものゲームを通して、それはルールの他にも、ポジションの総合的な価値、先へ進む際の基本方針、自身の行動の評価方法などを後から学ぶ。
特に自身の行動の評価能力は、自身の失敗から学ぶようになっている。前に戻り、別のアプローチでやり直してみることで、ポジションや方針の評価能力を磨いていく。
DeepMindが開発したAtariの57本のゲームに優れたモデルAgent57(エージェント57)を覚えておいでだろうか。MuZeroはそのAIの最大の利点を受け継ぎ、AlphaZeroの最も優れた部分と合体させた。MuZeroは、ゲーム環境全体をモデル化せず、意志決定に影響をおよぼす部分にだけ集中するという点で、そしてAlphaGoから受け継いだ、純粋に自身の試行と現場で得た知識だけに依存したルールのモデル化に立脚しているという点で、以前のものとは違っている。
ゲームの世界を理解することで、MuZeroは、Atariのゲームの多くがそうであるように、部分的にランダムで見た目に複雑な世界であったとしても、効率的に行動計画が立てられるようになる。そしてそれがAIを、あらゆる詳細事項を事前に教えられなくとも周囲の世界を理解し、安全に知的に現実世界と関わりが持てる存在へと導く(とはいえ、「人を傷つけてはいけない」などいくつかのルールは厳格に教えておく必要はあるが)。研究者の1人がBBCに語ったところによると、チームは現在、MuZeroがビデオ圧縮を改善できるかを見極める実験に着手しているという。明らかに、「Ms. Pac-Man(ミズ・パックマン)」とはまったく違う課題だ。
MuZeroの詳細は、12月23日にNature誌で発表されている。
関連記事:DeepMindのAgent57 AIエージェントがATARIの57本のゲームで人間に勝利
カテゴリー:人工知能・AI
タグ:DeepMind、ゲーム、Atari
画像クレジット:DeepMind
[原文へ]
(翻訳:金井哲夫)