ポーカーで勝つにはカードの捨てる、捨てないのタイミング、勝負から引くタイミングが重要だ。これからは、コアダンプのことも考える必要があるだろう。カーネギーメロン大学の研究者が開発した最新のAIシステムはそれらのテクニックを活用している。このAIは、「世界ベストのプロポーカープレイヤー」の4人Dong Kim、Jimmy Chou、Daniel McAulay、Jason Lesに勝利した。人のプレイヤーと20日間にわたり12万回、ピッツバーグのカジノで開催された「Heads-up No-Limit Texas Hold’em」で試合を行った。
このAIは「Libratus」という名前だ。Rivers Casinoで4人のプロとの対決に勝利し、最終的に176万6250ドルのチップを獲得した。プレイヤーは常時対戦していて、1日の最後に戦略を練った。当初、AIはポーカーの遊び方を知らなかった。研究者は、AIにランダムに色々試すよう指示し、何億回の試行錯誤の末、ポーカーの勝ち方を学んでいった。人のプレイヤーは、毎日夜の10時まで11時間AIと対戦し、それを20日間繰り返した。
「最高峰のAIによる不完全な情報から戦略的な理由付けをする能力は、人類のそれを超えた」とAIの共同クリエイターでコンピューターサイエンスの教授であるTuomas Sandholmは話す。
AIは賞金を得ないが、人の方はパフォーマンスに応じて20万ドルの賞金を分けた。コンピューターに必要なのは、1.35ペタフロップスで処理するPittsburgh Supercomputing CenterのBridge 846ノード・スーパーコンピューターのうちの600コンピュートノードと電力だけだ。プロプレイヤーの一人、McAulay氏は「Libratusは思っていた以上に手強い相手でした」と話す。「ポーカーの強い上位プレイヤーと対戦するたびに学ぶことがあります」。
プレイヤーはAIの弱点を探るために協力した。AIも同様に自身の弱点を研究した。また、はったりをかける方法も学んだ。
「コンピューターは、はったりをかける方法を覚えなければポーカーで勝つことはできません」とカーネギーメロン大学コンピューターサイエンス学部の学部長Frank Pfenningは話す。「それができるAIを開発することは科学的に大きな進展で、応用できるアプリケーションが無数に広がります。例えば、新車を買いたい時、スマホがあなたの代わりに最良の価格を交渉できるようになったらどうでしょう。それはほんの一例にすぎません」。
これはAIの一歩前進を示し、「情報が不完全だったり、相手が正しい情報を提示しない状況に幅広く応用することができます」という。
また、AIは前日の対戦で失敗した部分を省み、日々戦略を「修正」できる。
「毎日の対戦が終わった後、メタアルゴリズムが、プロプレイヤーの見つけた戦略の穴を解析し、Libratusはそれを次の戦略に反映しました」とSandholmは言う。「弱点の優先順位をつけ、上位3つに関してスーパーコンピューターでそれを埋める戦略のアルゴリズムを練ります。これは過去のポーカーの学習法とは違います。通常、研究者は対戦相手の弱点を突くアルゴリズムを開発していました。ここでは自分の戦略の弱点を埋めて、アルゴリズムを改善しています」。
Libratusの研究は、交渉の自動化の研究、さらには生物学や工学における複雑な課題にも活用することができる。最終的に、AIは4人のプロポーカープレイヤー相手ではなく、不完全な情報が多くある複雑な問題を解くように訓練することに応用できる。
「カーネギーメロン大学は、チェス世界チャンピオンに勝ったチェスコンピューターの開発、そしてAIでJeopardy!のトッププレイヤーに勝ったWatsonの開発に大きく寄与しました」と Pfenningは言う。「世界最高峰のプレイヤーを超えるポーカープログラムの進化を見れてわくわくしています。これら一つ一つの達成が、「知性」を理解するにあたり大きなマイルストーンを象徴しています」。
[原文へ]
(翻訳:Nozomi Okuma /Website)