古代ギリシアの石板の解読をAIが助ける

機械学習とAIは、太陽系外惑星を見つけたり、写真のように本人そっくりの人間の画像を作ったりといった派手な業績が強調されがちだが、でも同じ技術が学術研究の意外なところでも利用されている。DeepMindが作ったAI systemは、壊れた石板の上に彫られている古代ギリシアの断片的なテキストを再現し、学者たちが理解できるようにした。

これらの粘土や石や金属に文字が彫られたのはおよそ2700年前で、今では歴史学や文学、人類学などにとって貴重な一次史料だ。板は当然文字で覆われているが、何千年という時間によって、割れたりひびが入ったりしているだけでなく、破片の一部がなくなっていることもある。

そのような欠落は、容易に補完できることもある。例えば「sp_der caught the fl_」と書いてあったら、誰でもそれが「spider caught the fly」（蜘蛛が蠅を捕らえた）だとわかるだろう。でも、なくなっている文字がもっと多くて、しかも古代の言語だったらどうか。欠落を補完するのは容易でない。

それをやる科学とアートを金石学（Epigraphy、碑文研究）と呼び、その言語に対する直観的な理解力によって文脈を捉える。つまり、残っている文字やテキストを手がかりにして、何が書かれていたかを推測する。でもそれは骨の折れる難しい仕事だ。その仕事は、大学院生たちがやらされることが多い。かわいそうに。

今回彼らを助けてくれたのが、DeepMindの研究者たちが作った Pythia（ピューティアー）というシステムだ。それは、デルファイの神託に従って太陽神アポロの言葉を人びとのために翻訳したとされる、女性神官の名前だ。

チームは最初、古代ギリシア語の碑文の世界最大のコレクションを、機械学習のシステムが理解できるテキストに変換するパイプラインを作るという前例のない困難な作業に取り組んだ。それができればあとは、文字の並びを正確に推測するアルゴリズムを作るだけだ。上であなたが、蜘蛛（Spider）と蠅（Fly）を推測したように。

院生たちがやる場合と同じくPythiaにも、本物のテキストを一部意図的に削ったものが渡される。学生たちは約57%の精度でテキストを正しく推測する。1つの断片に対して何度も繰り返す時間のかかる作業だが57%は悪くない。これに対しPythiaの正解率は30%だった。

ただしPythiaの場合は、近似度が高い上位20の答の中に正解がある率が73%だった。それほどすごいとは言えない成績だが、20の答の中に正解が必ずあることは人間がやっても難しい。

greek process

Pythiaのシステムは、その仕事を完全に自分だけでやるわけではない。また、その必要もない。それは、人間がやったことを手がかりにする。そしてそれらに基づいて、石板の欠落部分を推測するための訓練を行う。つまり人間をリプレースするのではなく、人間の能力を補強する。

Pythiaの答は、最初は正しくないことが多い。でもそれは、難しい欠落と悪戦苦闘している人間にいいヒントや手がかりを与える。人間の認知労働力を軽減することによってそれは、テキスト復元努力のスピードと精度を上げるだろう。

Pythiaを記述している研究論文はここで読める。彼らが作ったソフトウェアの一部は、GitHubのリポジトリにある。

画像クレジット: DEA/ARCHIVIO J. LANGE/Contributor/Getty Images

[原文へ]

（翻訳：iwatani、a.k.a. hiwa）

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。 TechCrunch Japan の投稿をすべて表示