AmazonのAlexa AIチームは、ややこしい質問の扱いを大幅に向上させる新しいトレーニング方法を開発した。チームリーダーのAbdalghani Abujabal氏は、ブログでこの新しい方法を詳しく紹介している。通常は競合する2つの方法、テキストベースの検索とカスタムで構築されるナレッジグラフを組み合わせたものだという。
Abujabal氏は「ノーランの映画でオスカーはとったがゴールデングローブを逃がしたものは?」という質問を例として挙げている。この質問に答えるには多くのことが必要だ。「ノーラン」が映画監督のクリストファー・ノーランだと特定し、彼が監督した映画を見つけた上で(結果のリストを作るにはノーランが「監督」という役割であることも推測する必要がある)、オスカーを獲得した作品リストAとゴールデングローブを獲得した作品リストBをクロスリファレンスで調べて、リストAにあってリストBにない作品をつきとめる。
このような難しい質問に適切に答えるために、この方法ではまずできるだけ網羅的なデータセットを集める。最初はノイズの多い(すなわち、不要なデータばかりの)大量のデータセットだが、そこからアルゴリズムを使って自動でナレッジグラフを構築する。このアルゴリズムは研究チームが作ったオリジナルのもので、ゴミを取り除いて有力と考えられる結果にたどり着くためのものだ。
Amazonが考え出したシステムは、表面上はわりあいにシンプルだ。というのも、2つのわりあいにシンプルな方法を組み合わせている。まず基本的なウェブ検索で、例えばGoogleに「ノーランの映画でオスカーはとったがゴールデングローブを逃がしたものは?」と入力したのと同様に、質問の全文を使ってウェブをクロールし結果を見つける(実際の研究では複数のウェブエンジンが使われている)。次にランク付けされた上位10ぺージを調べ、識別された名前と文法ユニットに分解する。
こうして得られた結果のデータセットに加え、Alexa AIは文の構造の中で手がかりを探してフラグを立て、上位のテキストのうち「ノーランが監督したインセプション」というような重要な文に重みづけをし、それ以外の文は軽くする。こうしてアドホックのナレッジグラフが構築され、この中を評価して「コーナーストーン」(よりどころ)が特定される。コーナーストーンは基本的には、検索されたもともとの文字列に含まれるいくつかの語とよく似ている。これを取り出し、質問に対する実際の答えの出典として中間にある情報を見るのではなく、コーナーストーンにフォーカスする。
アルゴリズムは、残ったデータを最終的に重みづけしてソートし「インセプション」と正しい答えを返す。Amazonのチームは、テキスト検索だけにフォーカスする、あるいはカスタムのナレッジグラフを単独で構築する複雑な最先端のアプローチよりも、実はこの方法は優れていることを発見した。チームはこのアプローチをさらに改良できると考えている。難しいトリビアで議論が白熱したときに、スマートスピーカーに聞けば解決できようになるかもしれない。Alexaユーザーにとっては楽しみだ。
[原文へ]
(翻訳:Kaori Koyama)