カーネギーメロン大学のAIは不完全情報ゲームに挑戦、ポーカーの最強のプロたちに勝つ

今日(米国時間12/18)発行されたScience誌上の研究論文によると、カーネギーメロン大学コンピューターサイエンス部の研究者たちが開発したAI Libratusが、もっとも難しいポーカーとされる無制限テキサスホールデム(No-limit Texas Hold’em)で、最強のプロたちに勝った。この形のポーカーはとくに2000年代の初期から中期にかけてのバブル期に、全国的に流行った。

このニュース(?)が重要なのは、無制限テキサスホールデムが“不完全情報ゲーム”と呼ばれているからだ。それは、ゲームプレイのすべての要素に関するすべての情報が、終始すべてのプレーヤーにわかっていない(==未知の情報が必ずある)、という意味だ。それは囲碁やチェスなどのゲームとは対照的で、これらのゲームでは盤上のピースとそれらの位置がゲーム情報のすべてなので、両方の対戦者に完全にわかっている。

CMUのチームは今年の1月にLibratusとその初期の成功について詳しいペーパーを発表しているが、今日の完全な科学論文では、その後の進歩を説明し、このきわめて人間的なゲームでどうやって人間に勝てたかを詳しく述べている。

Libratusがとくにおもしろいのは、ポーカーではブラフ(はったり)が勝負の鍵を握っているからだ。いつどんなブラフをかませるかで、プロとアマの違いがわかる。そしてブラフは、それぞれのブラフに明確な意味がないから、不完全情報の典型だ。ブラフの意味は、客観的な情報ではなく、予想や推測という人間の主観に依存している。

しかもポーカーは、多くの手(hands, 持ち札)を経過することによって成立し、最終的に勝つためには途中でわざと負けることもある。これもやはり、コンピューターには苦手(にがて)な複雑性だ。

プロの賭博師たちvs.Libratusの勝負には20日間を要し、手数の総数は12万手、賭け金総額は20万ドルに達した。Libratusが最強のプロたちを打ち負かしたテクニックは、研究者たちの言葉によると、必ずしもポーカーでしか役に立たないテクニックではなく、一般的にそのほかの不完全情報ゲームにも応用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa