Google(グーグル)が、発話障がいがある人たちにコミュニケーション手段を提供するAndroidアプリの開発で、テスターなどの協力者を求めている。Project Relateと名づけられたプロジェクトおよびアプリは、音声の書き起こしと合成を提供し、言葉の理解をサポートする。
「Project Euphonia」がこのプロジェクトの始まりで、TechCrunchは2019年に発表されたときに取り上げ、その後の研究についても触れている。その研究開発努力のリーダーはGoogleの研究科学者Dimitri Kanevsky(ディミトリ・カネフスキー)氏で、彼自身も発話能力に障害があり、その体験者としての知識をAIを用いるソリューションに持ち込んだ。現在、このプロジェクトの主要パートナーでアプリのユーザーでもあるAubrie Lee(オーブリー・リー)氏はマーケティングのチームにも所属しておりアプリの命名者でもあるが、筋ジストロフィーのため自分の言葉を人やアプリに理解してもらうのが難しい。彼女の様子は動画で見ることができる。シンプルな事実として、AIによる音声認識は、人の発話を正しく理解できるようになるために大量の録音された発話を必要とするが、しかしそれらのデータは多くの場合、健常者の発話パターンに偏っている。訛りや変わったアクセントのある発話はAI用の教材として使われていないことが多いから、それらの理解もできない。発話障がいの人びとの喋りが含まれていることは、さらに稀だ。そこで、通常の音声認識デバイスを彼らは使えない。
第三国などで特殊なアクセントで喋られる英語の理解は最近改善されているが、しかし障害などで個人によって強烈なクルのある発話パターンを集めて分析するのはとても難しい。声は人によってみな違うが、脳卒中や重度傷害などで相当特殊なパターンになってしまった発話を機械学習のシステムに正しく理解させるのは困難だ。
関連記事:インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」
Project Relateの中核にあるのは、障がい者のための改良された音声書き起こしツールだ。その「Listen」ファンクションはユーザーの発話をテキストに変換する。それをどこかにペーストして、他の人が読むことができる。「Repeat」は、入力された発話を繰り返すが、2度目はやや聞き取りやすく加工されている。「Assistant」は書き起こしをGoogleアシスタントに転送して、音楽の再生や天気予報など単純なタスクをやらせる。
その能力を実現するためにGoogleはまず、できるかぎり多くのデータを集め、ボランティアによる100万以上の発話サンプルをデータベースに収めた。それらを使って、音声認識AIの基底的インテリジェンスとでも呼ぶべきものを訓練する。機械学習システムの例にもれず、これもまたデータは多ければ多いほど良いが、個々のユースケースに対応できるためには、特異なデータが多いほど良い。
Google ResearchのプロダクトマネージャーであるJulie Cattiau(ジュリー・カティアウ)氏は、TechCrunch宛のメールでこんな説明をしてくれた。
ターゲットのオーディエンスが必要とするものを事前に想定することを避けたかった。そのための最良の方法は、このプロダクトを利用すると思われる人たちと一緒になって作ることです。そうした人たちの最初の集団をテストに参加させることにより、アプリケーションが多くの人の日常生活の中でどのように役に立つかを、良く理解できました。どれほど正確であるべきか、どこを改良すべきかを理解してから、広範なオーディエンス向けに拡張しました」。
同社は、日常生活の中でこのアプリを試用してくれる、第一ラウンドのテスターを募集している。最初のステップではフレーズを集めて記録し、それを発話のモデルに組み入れて多様な発話パターンに対応する。このやり方なら自分の日常生活にも役に立ちそうだ、と思った方はボランティアに応募できる。あなたも、このアプリの改良に貢献できるだろう。
画像クレジット:incomible/iStock
[原文へ]
(文:Devin Coldewey、翻訳:Hiroshi Iwatani)