古代ギリシャ語の研究者にとって、頼りとする原文が数千年前のものという古さゆえに、修復不可能なほど損傷しているというようなことはよくある。DeepMind(ディープマインド)が開発した機械学習モデル「Ithaca(イサカ)」が、歴史家にとって新しい強力なツールになるかもしれない。失われた単語や文章の位置と書かれた年代を驚くほど正確に推測する。AIの珍しい応用例だが、その有用性が技術分野以外でも発揮されることを証明している。
不完全な古文書は、劣化した物質に関するさまざまな分野の専門家が関わる問題だ。原文は石、粘土、パピルスに刻まれている。アッカド語、古代ギリシャ語、リニアA言語で、食料品店の請求書から英雄の旅まで、あらゆることが書かれている。いずれの文書にも共通するのは、数千年の間に蓄積された損傷だ。
文字が磨り減ったり、ちぎれたりしてできた空白は「欠落」と呼ばれ、短いものでは1文字、長いものでは1章、あるいは1つの物語全体が欠落していることもある。欠落を埋めるのは簡単でも不可能でもないが、その間のどこからか始めなければならない。ここでIthacaの出番となる。
Ithaca(オデュッセウスの故郷の島から名づけられた)は、古代ギリシャの膨大なテキストで訓練されており、不足している単語やフレーズが何であるかだけでなく、それがどのくらい古いものか、どこで書かれたかも推定できる。ただ、それだけで叙事詩の全巻を埋めることはできない。これは、この種のテキストを扱う人たちのためのツールであり、解決策ではない。
「Nature(ネイチャー)」誌に掲載された論文では、ペリクシア時代のアテネの勅令を例にとって、その有効性を実証した。紀元前445年に書かれたと考えられているこの勅令は、Ithacaのテキスト分析によれば、実際には紀元前420年前後のものであり、より新しい証拠と一致している。大したことには聞こえないかもしれないが、もし権利章典が実際には20年後に書かれたとしたらと想像してほしい。
テキストそのものについては、専門家による1回目の結果は、正解が約25%だった。決して優秀とは言えない。もちろん、テキストの復元は午後のお遊びではなく、長期的なプロジェクトであることは言うまでもない。しかし、人間とIthacaの組み合わせでは、すぐに72%の精度を達成することができた。これは他のケースでもよく見られることだ。究極的には人間の精度の方が高いものの、行き詰まりを素早く排除したり、出発点を示唆したりして、プロセスを加速できる。医療データの場合、AIがすぐに気づくような異常を人間は見落としがちだが、最終的に詳細に気づき、正しい答えを見つけるのは人間の専門知識だ。
Ithacaは、手元に欠落の多い古代ギリシャ語のテキストがあれば、このサイトで簡易版を試せる。また、そこで提示されている複数の例から1つを使って、空白がどのように埋められるのかを見ることもできる。長い文章や、10文字以上欠けている場合は、このColabノートブックで試してみてほしい。コードはGitHubのこのページで公開されている。
古代ギリシャ語はIthacaがはっきりと結果を出せる分野だが、チームはすでに他の言語についても懸命に取り組んでいる。アッカド語、デモティック語、ヘブライ語、マヤ語はすべてリストに載っており、今後さらに増えると期待される。
「Ithacaは、人文科学における自然言語処理と機械学習の貢献の可能性を示しています」と、このプロジェクトに携わったアテネ大学のIon Androutsopoulos(イオン・アンドラウトソプロス)教授は話す。「この可能性をさらに実証するためにIthacaのようなプロジェクトがもっと必要ですが、それだけでなく、人文科学とAI手法の両方をよく理解している将来の研究者を育てる適切なコースや教材も求められます」。
画像クレジット:Image Credits: Wikimedia Commons under a CC BY 2.0 license.
[原文へ]
(文:Devin Coldewey、翻訳:Nariko Mizoguchi)