Google I/Oはアクセシビリティ強化に全力、聴覚障害者にも電車でYouTubeを見るにも便利

マウンテンビューの本社に隣接するアンフィシアターで開幕した今年のGoogle I/Oでは驚くほど長い時間がアクセシビリティの改善に関連する発表に振り向けられた。ライブキャプションなどの新機能はすべて発話とテキストを相互変換するテクノロジーの改善をベースとしている。

テクノロジーとして特に注目すべきなのはこうした音声ベースの自然言語処理の一部が、クラウドとデータをやり取りすることなく、デバイス上で直接実行できるようになった点だ。

Androidの新しいアクセシビリティ機能は聴覚などに障害を持ったユーザーの生活の質を大きく改善するはずだ。ライブトランスクリプションは音声による発話を認識してリアルタイムでテキストに起こす機能だ。また逆に音声合成によりテキストをリアルタイムで音声化することもできる。

音声入力機能はGoogleが以前から重点項目として挙げていた。機能として単純だがスピードと精度が高くなれば非常に役立つツールとなる。 現在でもAndroid上でアプリを起動しマイクのアイコンをタップすると音声を聞き取ってテキスト表示してくれる。

現在でもOne Miniなど音声入力、音声出力による機械通訳デバイスが利用できるようになっている。昨日のMicrosoftのBuildカンファレンスでもミーティングの内容をテキストに起こすアプリが発表されていた。こうした機能の必要性ははっきりしており、むしろなぜもっと早く実現しなかったのかというほうが興味ある問題だ。

実は自然言語認識システムはかなり以前から実用化されていたが、特定のユーザーが静かな環境かつ一定のボキャブラリーで話す内容の聞き取りにとどまっていた。これに対して不特定多数のユーザーが雑音の多い駅やカフェで友だちと自由に会話するのを認識するのは非常に困難な作業だった。リアルタイム通訳となれば当然複数のユーザーの話す内容を聞き取らねばならない。出力も自然な音声合成が必要となる。これらを商品として実用に耐えるレベルにまで改善するのは控え目に言ってもチャレンジだった。

今回のアップデートでは音声認識にさらに新しい機能が追加された。これはライブキャプションといい、上に述べた音声認識テクノロジーをビデオに適用してリアルタイムで字幕を表示できるものだ。ユーザーはYouTubeビデオを見ながら登場人物が何を言っているのかリアルタイムで字幕で見ることができる。これはビデオメッセージ、ボイス・メッセージにも利用できる。

この機能は聴覚にハンディキャップがある人々に便利なのは当然として、対象言語の聞き取り能力が不足しているが音声をテキスト化してもらえば判読できるという何千万人ものユーザーにとっても朗報だ。あるいは職場や交通機関内で音声をミュートしてビデオを見るときにも使える。ベッドでビデオを見ながら眠ってしまいそうなときも音を消して字幕にしてしまえれば好都合だ。リアルタイムで自然言語を認識しテキスト化する能力が使える場面はこれ以外にも無数に考えられる。

Gif showing a phone conversation being captioned live.

サンダー・ピチャイCEOによれば通話へのライブキャプションの適用は「まだ開発途上」ということだったが、「ライブリレー」というデモがステージで披露された。ユーザーが聴覚にハンディキャップがあるか、いろいろな理由でうまく発話できない場合、通常の音声通話はほとんど意味ないものとなる。しかしライブリレーが実用化すれば着信ないしマイクで入力された音声をライブでテキスト化して表示、あるいは送信できるようになる。

ライブキャプションはAndroid Qの機能として実装される。デバイスによって機能の一部に制限が生じる可能性はある。ライブテキスト化は現在でも利用できるが、まだベータ段階だ。ライブリレーは上述のように未公開だが、デモの完成度から判断すると公開される時期はそう遠くないはずだ。

【Japan編集部追記】ソースネクストから販売されているリアルタイム翻訳デバイス、ポケトークは複数の音声認識エンジンを利用しており、日本語/英語翻訳のエンジンはGoogle翻訳をカスタマイズして利用している。

原文へ

(翻訳:滑川海彦@Facebook