アクセシビリティに向けた新たな取り組みの一環として、Googleは5月のGoogle I/OでProject Euphonia(プロジェクト・ユーホニア)を発表した。これは標準的ではない発声を行う人や、障害を持つ人の発話を理解する音声認識を開発しようとする試みである。同社は、この新しい機能を可能にしてくれるAIの一部を説明する投稿とその論文を公開した。
問題を理解することは簡単だ。筋萎縮性側索硬化症(ALS)などの変性疾患によって生じる運動障害を持つ人の話し声は、単純に既存の自然言語処理システムでは理解されないのだ。
その様子は、自らも発話に問題を抱えるGoogleリサーチサイエンティストのDimitri Kanevsky(ディミトリ・カネフスキー)氏が、Googleのプロダクトの1つと対話しようとする以下のビデオの中に見ることができる(最後には関連する仕事であるParrotronの助けを借りている)。
研究チームはこのプロジェクトを次のように説明している。「ASR(自動音声認識)システムは、ほとんどの場合、『典型的な』音声を使ってトレーニングされています。つまり、発話障害や強いアクセントを持っていたりする少数派のグループは、同じような利便性を受けることができません。現在の最先端のASRモデルは、ALSによって中程度の発話障害しか持たない話者に対して高い単語エラー率(WER:Word Error Rates)を示し、実質上ASRに依存する技術の利用が不可能になっています」。
少なくとも、一部をトレーニングセットのせいにしていることは注目に値する。これは人間を識別したり、それどころか単に人間がいるか否かを判別するような他の場合でも、AIを高いエラー率へと導く可能性のある、暗黙的なバイアスの1つなのだ。肌の黒い人たちのような主要なグループを含めなかったというミスも、 癖をもった発話を行う人たちを含めなかったというミスも、どちらもより包括的なソースデータを使うことで解決を図ることができる。
Googleの研究者たちにとって、それはALSを持つ人たちから何十時間にもわたる音声を収集することを意味していた。だが、ご想像のとおり各人はそれぞれの状態によって異なった影響を受けているために病気の影響に対応することは、例えば単なる一般的ではないアクセントに対応することとは同じプロセスではない。
関連記事:Google I/Oはアクセシビリティ強化に全力、聴覚障害者にも電車でYouTubeを見るにも便利
標準的な音声認識モデルをベースラインとして使用し、いくつかの実験的なやり方で微調整して、新しい音声を使ってトレーニングを行った。これだけでWERが大幅に減少し、オリジナルのモデルに対して比較的少ない変更で対処することができたのだ。これが意味することは、新しい音声に対して調整する際にも、あまり強力な計算パワーを必要としないということである。
研究者は、特定の音素(「e」や「f」のような個別の音)に対してモデルの混乱が続くときに、2種類のエラーがあることに気がついた。1つ目は、意図されていた音素が認識されないため、単語も認識されないという事実があるということ。そして2つ目は、モデルは話し手が意図した音素を推測する必要があり、2つ以上の単語がほぼ同じように聞こえる場合は間違った音素を選択する可能性があるということだ。
特に2番目のエラーは、インテリジェントに処理できるエラーだ。例えば話者が「I’m going back inside the house」(家の中に戻ります)と言った際に、システムがbackの「b」とhouseの「h」を認識できなかったとしても、それが「I’m going tack inside the mouse」(ネズミの中を鋲で留める)と言うつもりだったという可能性は低いだろう。AIシステムは、人間の言語およびあなた自身の声または話している文脈に対する知識を利用して、ギャップをインテリジェントに埋めることができる。
しかし、そのためにはまだまだ研究が必要だ。現時点におけるチームの成果については、来月オーストリアで開催されるInterspeechカンファレンスで発表される予定の「Personalizing ASR for Dysarthric and Accented Speech with Limited Data」(限られたデータのもとで行う、構音障害とアクセントの強い発話に向けた自動音声認識のパーソナライズ)という論文で読むことができる。
[原文へ]
(翻訳:sako)