Google I/Oはアクセシビリティ強化に全力、聴覚障害者にも電車でYouTubeを見るにも便利

マウンテンビューの本社に隣接するアンフィシアターで開幕した今年のGoogle I/Oでは驚くほど長い時間がアクセシビリティの改善に関連する発表に振り向けられた。ライブキャプションなどの新機能はすべて発話とテキストを相互変換するテクノロジーの改善をベースとしている。

テクノロジーとして特に注目すべきなのはこうした音声ベースの自然言語処理の一部が、クラウドとデータをやり取りすることなく、デバイス上で直接実行できるようになった点だ。

Androidの新しいアクセシビリティ機能は聴覚などに障害を持ったユーザーの生活の質を大きく改善するはずだ。ライブトランスクリプションは音声による発話を認識してリアルタイムでテキストに起こす機能だ。また逆に音声合成によりテキストをリアルタイムで音声化することもできる。

音声入力機能はGoogleが以前から重点項目として挙げていた。機能として単純だがスピードと精度が高くなれば非常に役立つツールとなる。 現在でもAndroid上でアプリを起動しマイクのアイコンをタップすると音声を聞き取ってテキスト表示してくれる。

現在でもOne Miniなど音声入力、音声出力による機械通訳デバイスが利用できるようになっている。昨日のMicrosoftのBuildカンファレンスでもミーティングの内容をテキストに起こすアプリが発表されていた。こうした機能の必要性ははっきりしており、むしろなぜもっと早く実現しなかったのかというほうが興味ある問題だ。

実は自然言語認識システムはかなり以前から実用化されていたが、特定のユーザーが静かな環境かつ一定のボキャブラリーで話す内容の聞き取りにとどまっていた。これに対して不特定多数のユーザーが雑音の多い駅やカフェで友だちと自由に会話するのを認識するのは非常に困難な作業だった。リアルタイム通訳となれば当然複数のユーザーの話す内容を聞き取らねばならない。出力も自然な音声合成が必要となる。これらを商品として実用に耐えるレベルにまで改善するのは控え目に言ってもチャレンジだった。

今回のアップデートでは音声認識にさらに新しい機能が追加された。これはライブキャプションといい、上に述べた音声認識テクノロジーをビデオに適用してリアルタイムで字幕を表示できるものだ。ユーザーはYouTubeビデオを見ながら登場人物が何を言っているのかリアルタイムで字幕で見ることができる。これはビデオメッセージ、ボイス・メッセージにも利用できる。

この機能は聴覚にハンディキャップがある人々に便利なのは当然として、対象言語の聞き取り能力が不足しているが音声をテキスト化してもらえば判読できるという何千万人ものユーザーにとっても朗報だ。あるいは職場や交通機関内で音声をミュートしてビデオを見るときにも使える。ベッドでビデオを見ながら眠ってしまいそうなときも音を消して字幕にしてしまえれば好都合だ。リアルタイムで自然言語を認識しテキスト化する能力が使える場面はこれ以外にも無数に考えられる。

Gif showing a phone conversation being captioned live.

サンダー・ピチャイCEOによれば通話へのライブキャプションの適用は「まだ開発途上」ということだったが、「ライブリレー」というデモがステージで披露された。ユーザーが聴覚にハンディキャップがあるか、いろいろな理由でうまく発話できない場合、通常の音声通話はほとんど意味ないものとなる。しかしライブリレーが実用化すれば着信ないしマイクで入力された音声をライブでテキスト化して表示、あるいは送信できるようになる。

ライブキャプションはAndroid Qの機能として実装される。デバイスによって機能の一部に制限が生じる可能性はある。ライブテキスト化は現在でも利用できるが、まだベータ段階だ。ライブリレーは上述のように未公開だが、デモの完成度から判断すると公開される時期はそう遠くないはずだ。

【Japan編集部追記】ソースネクストから販売されているリアルタイム翻訳デバイス、ポケトークは複数の音声認識エンジンを利用しており、日本語/英語翻訳のエンジンはGoogle翻訳をカスタマイズして利用している。

原文へ

(翻訳:滑川海彦@Facebook

TimekettleのWT2は1対のイヤホンを使って、簡単な内容の会話をリアルタイムに翻訳してくれる

先月深圳(シンセン)で開催されたTechCrunchイベントで、私たちはWT2を試す機会があった。これはスタートアップTimeKettleによる、賢く野心的なデバイスだ。これは1対の無線式イヤホンだ。多言語会話に参加する双方が1つずつ耳に装着する。するとデバイスが話されたことを、お互いの言語に翻訳して聞かせる仕組みだ。本質的にはバベル魚(小説「銀河ヒッチハイクガイド」に登場する、万能翻訳を可能にする魚)だが、もちろんまだとても原始的なものだ。

デバイスは、小さな充電ケースに入れられている。そして、あなたの言語を知らない人と話したくなった時に、それらを取り出す。1つは自分の耳に、もう1つは相手の耳に装着する。ケースから取り出されると、それらは自動的にiOSアプリとペアリングされ、音声のモニタリングを開始する。

あなたが英語で話すと、少し遅れて、あなたの話し相手はそれを中国語(またはこの後追加されるどのような言語でも)で聞くことになる。相手は中国語で応答し、あなたはそれを英語で聞く。とてもシンプルだ。

もちろん、すでに似たようなことをしている翻訳アプリもあるが、このイヤホンを共有するという非常にシンプルな方法は、取り扱いの際の様々な面倒を省いてくれることを意味する。まるであなたの言語を話す人と話しているかのように話し、アイコンタクトや普通のジェスチャーでそれを補うことになる。

これがTimeKettleの創業者であるWells Tuが達成したかったものだ。彼と私は(英語と中国語を使って)コミュニケーションの複雑さや、ボディーランゲージの重要性について語り合った。もしWT2を一度も見たことも使ったこともない人たちを相手にするのなら、操作の簡便さもとても重要だ、と彼は言う。

  1. wt2_1.jpg

  2. wt2_2.jpg

  3. wt2_4.jpg

  4. wt2_3.jpg

現在、デバイスはまだプロトタイプに過ぎないが、デザインと利用されるチップセットはほぼ最終形に近いものだ。通常よりも大きめのBluetoothヘッドセットに期待できるもののように、それは私の耳にかなりよくフィットした。

翻訳の品質に関しては、過剰な期待を抱かない限りは良いものだった。複雑な話やイディオムには対応することはできない。とはいえそれでも多くの会話を行うことが可能だ。私が感じた問題は、主に遅延だ。アプリが仕事をしている間、私とWellsはお互いに黙って見つめ合いながら、数を3つカウントしていた。とはいえ、私が使用したバージョンは速度に関しての最適化を施されていないものだった。チームは現在それを改善するために必死で作業している。

「沢山の作業を行い、イヤホン、アプリ、サーバ間のデータ伝送プロセス全体を最適化して、遅延を1〜3秒へ短縮しようとしています」とWellsは語った。

会場での不安定なワイヤレス接続も悪い方向に働いていた。少なくとも、オフラインでの翻訳が十分に機能するようになるまでは、確実なデータ接続が必要だ。

WT2はまだ出荷可能なものではない、しかしWellsと私は、たとえ最初のバージョンが完璧なものでなくとも、誰かがそれをやらなければ、誰も何も成し遂げることはできない、という意見で一致した。この種のテクノロジーは将来的には普遍的なものになるだろう。しかし最初の段階では、珍しく、奇妙で、4分の3の時間位しか動作しなかったりするものだ。ランゲージバリアを乗りを越えてコミュニケーションを改善するという目標を達成するための、それぞれのステップに、私は惜しみない賞賛を送りたい。

WT2の詳細については、Webサイトで知ることができる。来月に開始される予定のKickstarterに注目しておいて欲しい。

[ 原文へ ]
(翻訳:Sako)