「音声」がチャットアプリの次の主戦場となる

voice-messaging-battlefield

チャットボットはいまいちだ。これからもっと良くなることは確かだ。しかし、次にチャット界で起きるイノベーションはより人が使いやすいものになるだろう。使いづらくなるのではない。十分な音声認識技術の発展、AIアシスタント、ワイヤレスヘッドフォンが広まれば、これらのテクノロジーは、私たちの最も基本的なコミュニケーションの形を最大限生かすことができるようになる。

私たちは近い内、メッセージアプリに耳を傾け、話しかけるようになるだろう。それはタイプしたり、読んだりするより便利になる。音声の時代が到来しようとしている。

なぜ今なのか?

手がふさがっている時や移動中、わざわざスマホのメニュー欄を操作したくない。運転中や仕事中、あるいは単にポケットからスマホや財布を取り出すのが面倒だと感じる時でも、音声ならすぐに使うことができる。

テック界の未来を占う Mary Mekkerも次に音声が来ると見ている。彼女はこれを「最も効率的なコンピューターへの入力形式」と呼ぶ。私たちは1分間でたった40ワードしかタイプすることはできないが、口頭なら150ワードほど話すことができる。音声インターフェイスが私たちの置かれている状況を理解できるようになれば、私たちの意図をより的確に推測できるようにもなるだろう。ホームスクリーンからいちいち操作することなく、音声ならすぐに欲しい機能を利用することができる。

mary-meeker-voice-interfaces

今後私たちが音声入力を使うことになる理由

「音声認識の正確性が95%から99%に上昇すれば、今の誰も使っていない状態から、常に誰もが使っている状態になるでしょう」とBaiduのチーフ・サイエンティストであるAndrew Ngは言う。AmazonのAlexaがコンシューマーと開発者の想像力を刺激するほど、音声アシスタントや検索での音声機能の利用は急増している。

facebook-voice-to-text

しかし、今のところチャットでの音声インターフェイスのアクセスは限定されている。AndroidとiOSのSiriは基本的な書き取りができるが、読み上げることに関しては多少問題もある。VoIPによる音声通話も伸びていて、全部で10億ユーザーを抱えるFacebook Messengerでは毎月3億人が、音声やビデオ通話を利用している。

しかしほとんどのアプリでは、チャットのプッシュ通知やメッセージを素早く読み上げたり、音声メッセージを書き起こしたり、メッセージスレッドごとに形式を変えたり、音声でチャットボットとやりとりするような機能はない。しかし、これは変わると私は確信している。

誰が声を上げるのか?

Facebookは音声と自然言語インターフェスのスタートアップWit.aiを2005年に買収したが、彼らのテクノロジーをテキストボット以外で活用することに関しては、まだ何も明らかにしていない。Facebookは、Wit.aiの技術を使って、ユーザーが音声クリップのメッセージを送信した時、それを自動でテキストに書き起こす機能を検証しているという。受信者は音声クリップを聞くのではなく、テキストを読むことができる。

先日、Facebook Messengerの責任者David Marcusは、「音声は私たちが今、積極的に開発している分野ではない」としつつも、「Messengerの機能やインタラクションを開発するほど、どこかの時点で音声変換や音声によるインターフェイスに取り掛かることになるのは明らかでしょう」と話した。

VentureBeatの報道によると、Facebookが所有するWhatsAppは、iOS 10のSiriと連携する機能を発表している。Siriに誰かに電話をかけたり、メッセージを送ったりするように依頼することができる機能だ。Messengerにも似た機能が実装されることが予想できる。

また、Facebookは人が人に向かって話す時と、人がコンピューターに向かって話す時の違いに関心を向けているという話もあり、これは実に興味深い。1年ほど前、Facebookが公表していないLanguage Technology Group(言語技術グループ)では、これについて模索していると情報筋から聞くことができた。

whatsapp-siri-02

SiriにWhatsAppでメッセージ送信を依頼できる。 画像はVentureBeatより。

コンピューターに向かって話す時、私たちはかしこまった声のトーン、言葉選び、抑揚で話す。友人と話す時は、スラングや崩した言葉を使い、話し方も早く、感情がこもっている。例えば、スマホには「Ok Google、近くにある4つ星評価のレストランを教えて」と言うだろうが、友人になら「どっか近くの美味しいお店知らない?」と聞くだろう。

Facebookが音声の書き起こしや文章の読み上げ機能を実装したり、人が友人と話す口調の分析したりするためには、別の音声認識エンジンを構築する必要があるかもしれない。

google-allo

Google Alloの音声チャットアプリ

一方、GoogleはAlloという音声ベースのメッセージアプリをローンチした。このアプリでは、音声クリップメッセージで素早い会話を楽しむことができる。またアプリから直接、GoogleのAIアシスタントと話すことも可能だ(訳注:日本版のAlloでは、Googleアシスタント機能をまだローンチしていない)。ディナーの予約を入れたり、道案内を依頼したりすることができる。それらを組み合わせることで、将来的にAlloは、ユーガー誰に何をメッセージしたいかを伝えて送信し、アシスタントの助けによってメッセージの受信者は、自分にとって最適な形でメッセージを受け取ることができるようになるだろう。

Googleはさらに、音声認識と自然言語インターフェイススタートアップのAPi.aiを買収したことを発表している。Googleはユーザーの声をより的確に認識し、文章の構造を理解して、人が話す言葉の意図を理解できるようになるだろう。

音声を頻繁に利用することで、FacebookやGoogleといった大手テクノロジー企業は人々の気分や感情を深く理解し、サービスをパーソナライズすることができるかもしれない。

音声認識やAIアシスタントが広まるほど、今後より多くのメッセージアプリが音声による指示を認識できるようになるだろう。開発者は例えばFacebook Messenger、Telegram、Slack向けに、ユーザーの声を理解して機能する独自のボット開発を進めることが予想される。

そして、それを利用するためにユーザーはスマホを起動させる必要もなくなる。

次世代のBluetoothヘッドフォンの台頭により、いつでも身に着けているマイクが使えるようになる。AppleのAirPodsは、十分にスマートでスタイリッシュであると人々に訴求し、私たちは長い時間ワイヤレスイヤフォンを着用している光景が一般的になる可能性を開いた。

AIアシスタントに命令したり、耳をタップしたりするだけで、メッセージを作成し送信することができるようになれば、音声入力機能は、チャットアプリにあると嬉しいスタンプやGIFと同列の機能から、どのチャットアプリにも必ずある主要機能へと位置づけが変わるかもしれない。そして、それは小さな画面を見つめる時間を減らし、人々がもう一度目を見開いて世界を自分の目で見て、体験する時代を連れてくるだろう。

[編集部記載:Google Alloについてローンチ後の内容に修正しています]

[原文へ]

(翻訳:Nozomi Okuma /Website

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。