音声 | SEO-LPO.net

Google Homeはキッチンで一層便利になった…より親切なレシピ機能に

Google HomeとAmazon Echoは、手が濡れたり汚れたりしていることの多いキッチンでとくに便利だ。でもこれまでは、Google Homeにレシピを尋ねると、それを嬉々として教えてくれるけど、しかしあなたがアメリカの大統領で世界最強の記憶力の持ち主でもなければ、話が終わったときに材料の半分以上を忘れているだろう。しかし今日（米国時間4/26）からは、Google Homeで500万のレシピにアクセスできるだけでなく、それらを一歩々々たどって、質問することもできる。

このように、Google Homeに料理を始めると告げ、各ステップを繰り返させ、次のステップに進む機能は、それだけでも便利だ。しかしそれだけでなく、ユーザーはBon AppetiteやThe New York Times、Food Networkなどのレシピにも検索でアクセスできる。

そして今回のアップデートでは、レシピを見つけるのも容易になった。画面のないデバイスで料理のレシピを検索するのはちょっとたいへん、とたぶん気づいたGoogleのチームは、スマートフォン上のGoogle AssistantやGoogle検索でレシピを見つけ、それをボタンをクリックするだけでGoogle Homeに送れるようにした。

Google Homeは、レシピに関する質問をすることもできるし（“ラードはどれだけ必要？”）、また間違いを正してくれる（例: 質問の中で素材の名前を間違えた場合）〔以上はすべて英語〕。またもちろん、料理中に音楽を流したり、タイマーをセットすることもできる

この新しい機能はすでに展開中で、来週中には全ユーザーに行き渡るだろう。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

Amazon Echoの優れた音声認識機能をそのほかのデバイスメーカーも利用できる

Amazonは、Echoの優秀な音声コマンド認識機能を支えている技術を、サードパーティのデバイスメーカーにも使わせる気だ。たとえばそれは、騒音の多い部屋でもユーザーの音声を拾えるためのマイクロフォンの配列や、起動語を認識するAmazon独自のソフトウェア、大きな開けっ放しの部屋でバックグラウンドノイズを減らし、エコーを相殺する技術、などだ。

技術の提供は開発キット（development kit）の形で行われるが、完全解禁ではない。利用の申し込みはWebサイトから行うが、審査に通った外部OEMが招待制のみでキットを使用できる。

Amazonはそのキットが“主なチップセットと互換性がある”、と言っているが、名前が挙げられているのはARM Cortex, Intel x86, Raspberry Pi, そして“その他”だ。そのねらいは、パートナーたちがもっと早く、自分たちのデバイスにAlexaの機能を実装できることだ。Amazonはすでに同社のAlexa Voice Services事業で、その姿勢を見せていた。

でも、音声をユーザーインタフェイスとするインターネット接続デバイスを作りたければ、ぜひ、このキットの使用を申し込むべきだ。今年のCESでは、至るところでAlexaが使われていたし、今後はさらにますます、支配的なプラットホームになるだろう。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

MatrixのVoiceボードがあればRaspberry Piで動くAlexaを作れる

Matrix Labsが、Raspberry Pi用の音声認識AIのクラウドファンディングに成功した。これがあれば誰でも、自分ちの地下室でAlexaを作れるだろう。Rodolfo SaccomanとBrian Sanchezが初めて作ったボード製品Creatorは、Raspberry Piの上部にフィットし（上図）、8つのマイクロフォン、温度センサー、紫外線センサー、圧力センサー、3Dの位置センサーなどがついている。しかし、もっとシンプルなVoiceは、直径3.14インチのボード上にオープンソースの音声認識プラットホームVOICE RECOGNITIONを搭載し、花びら状に配置した7つのMEMSマイクロフォンがXilinx Spartan6 FPGAと64 Mbit SDRAMに接続され、そして18個のRGBW LEDと64のGPIOを装備している。つまり、音声認識によるライトショーが可能だ。

99ドルのVoiceはもうすぐ発売だが、Creatorはここで買える。

同社はAzoic VenturesとRokk3r Labsから生まれ、これまでに580万ドルを調達した。99ドルの新製品は、オンラインでもうすぐ発売される（上述）。基本的にMatrixが目指しているのは、ロボットの自作キットだ。

Saccomanは曰く、“目標は人びとのアプリケーションや事業やアイデアを実現可能にするイネーブラー(enabler, 可能にするもの)をハードウェアで提供することだ。とくに、機械学習やコンピュータービジョン、人工知能などを初心者のデベロッパーでも簡単に利用・実装できるようにしたい”。

img_0586a.jpg
img_0587a.jpg
img_0588a.jpg
img_0590a.jpg
img_0593a.jpg
img_0594a.jpg
img_0596a.jpg
img_0597a.jpg

View Slideshow

Previous Next Exit

ご覧のようにVoiceとCreatorはRaspberry Piの上部にフィットして、相当高度な機能性を提供する。DIYファンが主なターゲットだが、完全にオープンソースなので製品のベースとしても気軽に使える。すばらしくクールなキットだから、将来の地球を征服するロボットがRaspberry Piで動いていたら、歓迎するね。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

Voysisは各業界の専門知識を事前に訓練された音声AIを使いやすいAPIで提供し、音声AIのTwilioを目指す

【抄訳】
音声による人工知能は、売上増や顧客体験の向上に寄与すると分かっていても、そのセットアップは容易ではない。そんな状況を変えようとするVoysisは、自然言語の入力を解析するAIプラットホームを提供し、eコマースやエンターテインメントなどさまざまな専門分野で効果的に音声入力を利用できるようにする。Voysis自身がSiriやAlexaになるのではなく、デベロッパーがユーザー企業のお店の優秀なアシスタントや、ビデオ店の頭の良い販売員を作る手助けをするのだ。

VoysisのファウンダーでCEOのPeter Cahillは次のように語る: “Voysisは完全な音声AIのプラットホーム〔それを構築するためのプラットホーム〕だ。それを利用すれば、企業やそのさまざまな事業部門が、顧客が音声やテキストでクェリできる独自の人工知能を、迅速に立ち上げることができる”。

つまり同社が目指すのは、浅くて汎用的な音声アシスタントではなくて、ユーザーが属する業界のドメインスペシフィックな（その分野固有の）知識を持った音声AIプラットホームだ。ユーザー企業やデベロッパーはそれを、同社が提供するAPIから利用し、セットアップ時間の短縮を図れる。音声AIを、ユーザー企業がそれをわざわざ訓練しなくても、単純に短時間でセットアップできることを、同社はあくまでも目指している。最初はとくに、eコマースの顧客対応インタフェイスの提供を目指しているが、今後はいろいろな業界や業態の業務知識や音声応答パターンを集積していくつもりだ。

【中略】

IBMのWatsonなどもドメインスペシフィックなAIを提供しようとしているが、PhDのCahillには大学の研究室でニューラルネットワークや音声認識と深くつき合った15年の履歴がある。Voysisは今回、 Polaris PartnersがリードするシリーズAのラウンドで800万ドルを調達したが、その主な用途は技術チームの増員（15名から倍の30名へ）と、ボストン支社の開設だ。ユーザー企業にとって、AIの訓練を自分でやらなくてよい、という敷居の低さも、Cahillの長年のAIに関するキャリアと相まって、同社の魅力になるだろう。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

Baiduが音声アシスタントのRaven Techを買収してAI色を一層強める

Baiduがこのほど、音声アシスタントを開発している中国のスタートアップRaven Techを買収して、AIへの進出をさらに一歩前進させた。Baiduは、Ravenの技術と製品と60名のスタッフすべてを買収したことを確認した。

Baiduは1か月前に、以前Microsoftにいた、AIのエキスパートとして著名なQi Luを雇用し、COOとGroup Presidentの座に据えた。Raven Techの買収額は公表されていないが、同社はMicrosoft Venture AcceleratorとY Combinatorの出身であり、DCM VenturesやZhenfundなどのVCから1800万ドルを調達している。

Raven TechのFlowは中国のSiriと言われつつ、ビジネスとしては離陸できなかった。Tech In Asiaの指摘によると、そのアプリは中国のApp Storeで700位よりも下を一貫して低迷、一方Siriは標準中国語をサポートし、またXiaomiやBaiduのような有力企業からもライバル製品が登場していた。

Baiduによると、この買収を機に同社はデジタルアシスタントDuerや、それと関連する拡張現実製品に特化した新たな事業部門を作る。Raven TechのCEO Cheng LuはBaiduのスマートホームデバイス部門を率い、また、“新製品開発に関してDuerのチームと協働する”。Cheng Luは、Qi Luの配下になる。

BaiduのAIおよび機械学習路線は、CourseraのファウンダーAndrew Ngがそのトップであり、彼はカリフォルニアにあるBaiduの研究部門の長でもある。先月Baiduはそこへ拡張現実の研究グループを加え、さらにこの研究部門にはディープラーニングとビッグデータの研究グループも前からある。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

MITが音声認識機能を低電力チップに収めることに成功、音声が聞こえたときだけ本体部が動き出す

MITが今日（米国時間2/13）、音声認識チップの開発を発表した。その発表によると、このチップを使うと各種応用製品の音声認識処理の部分の電力消費量が90〜99%節減される。音声技術は今やモバイル製品のほとんどに実装されており、中でもとくに、Siri, Alexa, Google Homeといった音声アシスタントアプリの人気がそのニーズを急増させている。このチップによりそれらの関連回路やソフトウェア部品が大幅に単純化されそうだ。

MITの開発チームは、IoT方面のユースケースをとくに強調している。音声対応を要するそれらのデバイスの電池寿命が、“数日”のレベルから一挙に“数か月”のレベルに向上することが期待される。教授のAnantha Chandrakasanはこう述べている:

ウェアラブルのアプリケーションやインテリジェントなデバイスにおいて、音声入力が自然なインタフェイスになるだろう。それらのデバイスは小型化が求められるから、タッチやキーボードなどとは違うインタフェイスが求められる。音声機能をクラウドではなくデバイス本体に埋め込む必要があるから、低電力消費は絶対的な条件である。

このチップには“音声活動を検出する(voice activity detection)”回路があり、音声と環境ノイズを区別する。そして自分に向けられた音声を認識したら、そのときにのみ、チップ上の音声認識ハードウェアに電源が入る。

チームの一員である院生のMichael Priceが、その音声検出の部分について、やや詳しく語ってくれた:

このチップの継続的な音声認識機能の部分は、隠れマルコフモデル(hidden Markov Models(HMMs))を使っている。それは、任意の長さの音声入力を文に書き起こす。その遷移モデルは、重み付き有限状態変換器(weighted finite-state transducer(WFST))だ。そしてアコースティックモデルはフィードフォワード型のニューラルネットワークだ。従来の、ソフトウェアによる音声認識でも、同様の一般的技術が使われている。

この認識システムのモデルを、オープンソースのツールキットKaldiを使って訓練した。訓練とテストには、複数の異なる音声データ集合を用いた。われわれがテストした最大の認識システムは、語彙が14万5000語で、リアルタイムのオペレーションで7.78mWを必要とした。最小のデジタル認識系（ゼロを”oh”で表す計11語）は172μWを要した。

このチップは、常時onの低電力モードで使われることを想定した設計になっている。音声を検知したときだけ本体部分が動き出すので、音声でコントロールするウェアラブルなどに向いている。一回の充電でスマホなどよりもはるかに長期間使える、という特性も重要だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

AmazonのTapスピーカーがタップしなくても音声でAlexaを起動できるようになった

AmazonのTapは、兄弟製品のEchoより音が良くて、昨年発表されたときも、スピーカー付きのAlexaデバイスというより、Alexa機能のあるBluetoothスピーカー、という位置づけだった。もうひとつの違いは名前に表れていて、音声機能を有効にするためにはユーザーがマイクロフォンをタップ(tap)するのだ。

ソフトウェアのネットからのアップデートは今日届いたが、実際にその物に触る必要性はなくなっている。タップ不要だ。Alexaの名前を呼ぶだけで、Alexa Appが応答し、ハンズフリー(hands-free, 手を使わない)で、Amazonのスマートアシスタントが起動するのだ。

アップデートは今すでに提供されているが、上で述べたように、アプリに対して名前を呼ぶ、というイントロがまず必要だ。従来どおりタップで使いたい人や、このインターネットに接続されたデバイスをずっと待ち受け状態にしておきたい人は、声を出してAlexaちゃんを呼ばなくてよい。

このアップデートによってEcho Spatial Perception(ESP)というものがインストールされる。ユーザーの近くにある、ほかのAmazon製品を見つけて、それと関連した応答をする、という機能だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

NokiaのMIKAは技術者や通信企業のオペレーターのためのデジタルアシスタント、一度断念したスマートフォンに再挑戦

Nokiaは同社の音声アシスタントに、とてもかわいい名前をつけた。MIKAちゃんだ。MIKAは、“Multi-purpose Intuitive Knowledge Assistant”（多目的で直感的な知識アシスタント）の頭字語で、ちょっと変わっているのは、一般消費者よりも技術者や通信企業のオペレーターなどが音声コマンドで情報にアクセスするために利用することだ。

そのシステムは同社の認識サービスが駆動し、“自動学習能力のある拡張インテリジェンスがさまざまな分野のツールやドキュメント、そしてデータソースへのアクセスを提供する”、ということだ。

つまりMIKAは、技術者の質問に、ほかのネットワークから引き出した経験に基づいて素早く答を提供する。SiriやAlexaとあまり違いはないが、スマート電球を点灯したり、ユーザーの地元の天気予報を調べたりではなくて、技術的な質問に答える。

この発表は、同社が数週間後に迫っているMobile World Congressの準備に追われているさなかに行われた。その世界最大のスマートフォン・ショウでは、昔愛されていたブランドの、スマートフォン分野への本格的な復帰が見られるだろう。同社はその事業を、一度、軽率にも捨ててしまったのだが。

もちろん、ブランドはNokiaでも会社はHMDだ。そしてNokiaの名は元Nokiaの社員たちが地元フィンランドに作った企業からライセンスされる。でもそれらのデバイスには、NokiaのアシスタントよりもGoogle　Assistantが似合うのではないかな。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

Amazon Echoの起動語がStar Trekのコンピューターみたいになった

AmazonのEchoスピーカーに、新しい起動語が加わった。これからは、大声で“Computer”と呼べば、音声アシスタントAlexaを起こせる。ユーザーが意図しない起動の可能性は確かに増えるが、でもStar Trekのファンで、最初のシリーズでもTNG(The Next Generation)でも、Enterprise号の乗組員たちが同機に搭載されているコンピューターに呼びかける様子をよく見ていた人たちには、嬉しいだろう。

ぼくも試してみたが、Amazonの広告に偽りはない。実はこの機能、かなり前からすでにあったらしい。意図せざる起動の機会が増えないかぎり、この呼び方を続けようと思うけど、今のところ問題はない。

非論理的な文でAlexaを困らせてやろうとしたが、だめだった。とても長いコードを聞かせてみたが、今のところぼくの家は破壊されていない。Scottyがタイムトラベルで2017年に戻ってきたとしても、オバカさんには見えないだろうし、再び鯨を救うかもしれない。

AlexaアプリのEchoの設定のところに、起動語の候補が4つあるから、その中から“Computer”を選べば、この機能が使える。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

BetaworksのVoicecampは音声アプリの開発ノウハウを教える特訓合宿、一社あたり$125Kの資金が与えられる

Betaworksのスタートアップスタジオが今日（米国時間1/12）、その二つめのアクセラレータキャンプ（集団育成事業、育成合宿）、ボイスキャンプ(voicecamp)を発表した。合唱団の特訓合宿のような名前だが、そうではない。

今年の初めに行われた最初のアクセラレータキャンプ事業はボットキャンプ(botcamp)と呼ばれ、チャットボットの人気の波に乗ろうとする企画だった。そして今回は、最近の新たな人気分野、音声(voice)駆動のアプリやシステムをテーマとするキャンプだ。

すでにAmazon Echo, Google Home, AppleのSiriなどは、市場に定着しつつあるが、Betaworksは、まだまだこれから新しいものが続々登場する、と想定している。

BetaworksのVP Pat Montagueはこう語る: “声は人間のコミュニケーションの中核に位置していて、だからこそ赤ちゃんのころから最初にそれが発達する。音声をベースとするコンピューター技術はコンピューターをより人間的にして、コンピューターの利用を人間との対話に近いものにする”。

この合宿の定員は8〜10社だ。一社が、シード前資金として12万5000ドルを受け取る（今後の増資もありうる）。期間は11週間で、場所はマンハッタンのMeatpacking DistrictにあるBetaworksの本社。

そしてbotcampのときと同じく、この分野のリーダーたちがメンターとしてつく。

“こんなの音声でなければできない！（音声だからこそできる）、というタイプのアイデアが出てくることが、いちばんの楽しみね”、だそうだ。なお、Amazon Echoは、買われた台数の約半分がキッチンに置かれているそうだ。キッチンは、手でコンピューターを操作したくない場所である。

voicecampの参加申し込みは、今日から受け付ける。その受付はここだ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

Alexaデバイスを誰でも気軽に開発できるためのキット（音声入力/認識の部分）をConexantが提供、数か月の開発期間が数週間に短縮

Amazonの音声アシスタントAlexaは、一般的な知名度と関心があるから、ハードウェアをAlexaをベースとして作るのは良い考えだが、それを上手にやるのは難しい。そこで、消費者電子製品業界のサプライヤーであるConexantは、その工程の最初の方を楽にするために、数メートル先からの音声を正しく認識させるための開発キットを作ろうとしている。その主要部分は、二つのマイクロフォンとRaspberry Piだけだ。

そのキット、Conexant AudioSmartには、同社の最新製品である音声入力プロセッサーが使われているから、音声認識の内蔵も可能だ。それはいわば、ハードウェアのいちばんベースの部分であり、その上にAlexaを利用する製品を作っていく。ハードウェアのメーカーは、音声を聞くとか認識するという部分を、自分で作らなくてもよい。

Amazonと協働したConexantは、これからAlexaデバイスを作ろうとするハードウェア企業の、開発の初めの方の時間をカットするためにこのキットを作った。これがなければ6か月あまりかかる開発期間が、わずか数週間に縮小した。Conexantはこのキットをベースとする部品等をデバイスのメーカーに売れるし、AmazonはAlexaを、同社の馬小屋にいるスピーカー(Echo等)を超えた広い世界に普及させられる、という格好のwin-win関係だ。

AmazonがAlexaを一般のガジェットメーカーに公開したのはまる一年前だが、まだAlexaをサポートするサードパーティ製のハードウェアはとても少ない。開発期間を容易にカットできる方法を提供すれば、やる気になり腰を上げるメーカーも増えて、これまでの冴えない歩みが一挙に変わるかもしれない。

Conexantのキットは299ドルだ（Raspberry Pi 3は別売）。Echoが199ドルだから、高いという気もするが、キットはあくまでもプロトタイピングのためのコンポーネント、と考えるべきだ。最終製品のコストにはならない。ハードウェアを完全にスクラッチから作ったり、独自のハードウェアを使って音声認識の部分を作ったりしていれば、もっと膨大な開発費用を要する。Conexantのハードウェアは、騒音のある部屋で音声コマンドを聞き分けられるようにセットアップできる。これも各メーカーが自分でやろうとしたら、たいへんだ。

Alexaデバイスの開発と生産過程を高速道路の走行にたとえると、このキットはそこに上がるための進入ランプの部分を提供する。高速に上がってしまえば、あとは早い。うまくいけば、Alexaの音声サービスが、いろんなガジェットやアクセサリに内蔵されて、広く普及していくだろう。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

デベロッパーは自分のアプリケーション/サービスの音声インタフェイスとしてGoogle HomeのAssistantを利用できる

Googleが今日（米国時間12/8）、（非公開プレビューの参加者だけでなく）すべてのデベロッパーが、自分のアプリケーションやサービスをGoogle Assistantに載せられる、と発表した。Google Home上の、Googleが“会話アクション”(conversation actions)と呼ぶこの新しい機能により、アプリケーションはAssistantを介して会話のやり取りができる。その会話のシナリオは、もちろんデベロッパーが自分のアプリケーションの機能として書く。その会話はたとえば、“やあGoogle、Elizaを呼び出してくれ”、で始まるかもしれない。

AssistantはGoogleのスマートフォンPixelやチャットアプリAlloでも使えるが、Googleの計画では、そういう“Assistantの出先”のようなインタフェイスにデベロッパーのアクションを持ち込めるのは、もうすこし先だ。どれだけ先かは、発表されていないけど。

デベロッパーが自分のアプリケーション/サービスによる“会話アクション”を作るのを助けるために、Googleはいろんなところとパートナーしている。それらは、API.AI, GupShup, DashBot, VoiceLabs, Assist, Notify.IO, Witlingo, Spoken Layerなどだ。一部のパートナーはすでに、自分のアプリケーションをGoogle Home上で有効化できる。それらの統合が実際に動き出すのは、来週からだ。

ユーザーはこれらの新しいアクションを単純なコマンドで起動でき、AmazonのAlexaのように最初にスキルを有効化するという手間がないから、デベロッパーが自分の音声起動型サービスをユーザーに提供するのも、簡単なようだ。ただし、どのアクションをGoogle Homeで有効化するかは、Googleが判断する。

同社によると、今後のリリースではさまざまな業種に対応して、もっと詳細な会話をサポートしたい、という（買い物やチケット/航空券予約などなど）。ただしその具体的な詳細は、現時点では未定だ。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

「音声」がチャットアプリの次の主戦場となる

チャットボットはいまいちだ。これからもっと良くなることは確かだ。しかし、次にチャット界で起きるイノベーションはより人が使いやすいものになるだろう。使いづらくなるのではない。十分な音声認識技術の発展、AIアシスタント、ワイヤレスヘッドフォンが広まれば、これらのテクノロジーは、私たちの最も基本的なコミュニケーションの形を最大限生かすことができるようになる。

私たちは近い内、メッセージアプリに耳を傾け、話しかけるようになるだろう。それはタイプしたり、読んだりするより便利になる。音声の時代が到来しようとしている。

なぜ今なのか？

手がふさがっている時や移動中、わざわざスマホのメニュー欄を操作したくない。運転中や仕事中、あるいは単にポケットからスマホや財布を取り出すのが面倒だと感じる時でも、音声ならすぐに使うことができる。

テック界の未来を占う Mary Mekkerも次に音声が来ると見ている。彼女はこれを「最も効率的なコンピューターへの入力形式」と呼ぶ。私たちは1分間でたった40ワードしかタイプすることはできないが、口頭なら150ワードほど話すことができる。音声インターフェイスが私たちの置かれている状況を理解できるようになれば、私たちの意図をより的確に推測できるようにもなるだろう。ホームスクリーンからいちいち操作することなく、音声ならすぐに欲しい機能を利用することができる。

mary-meeker-voice-interfaces

今後私たちが音声入力を使うことになる理由

「音声認識の正確性が95%から99%に上昇すれば、今の誰も使っていない状態から、常に誰もが使っている状態になるでしょう」とBaiduのチーフ・サイエンティストであるAndrew Ngは言う。AmazonのAlexaがコンシューマーと開発者の想像力を刺激するほど、音声アシスタントや検索での音声機能の利用は急増している。

しかし、今のところチャットでの音声インターフェイスのアクセスは限定されている。AndroidとiOSのSiriは基本的な書き取りができるが、読み上げることに関しては多少問題もある。VoIPによる音声通話も伸びていて、全部で10億ユーザーを抱えるFacebook Messengerでは毎月3億人が、音声やビデオ通話を利用している。

しかしほとんどのアプリでは、チャットのプッシュ通知やメッセージを素早く読み上げたり、音声メッセージを書き起こしたり、メッセージスレッドごとに形式を変えたり、音声でチャットボットとやりとりするような機能はない。しかし、これは変わると私は確信している。

誰が声を上げるのか？

Facebookは音声と自然言語インターフェスのスタートアップWit.aiを2005年に買収したが、彼らのテクノロジーをテキストボット以外で活用することに関しては、まだ何も明らかにしていない。Facebookは、Wit.aiの技術を使って、ユーザーが音声クリップのメッセージを送信した時、それを自動でテキストに書き起こす機能を検証しているという。受信者は音声クリップを聞くのではなく、テキストを読むことができる。

先日、Facebook Messengerの責任者David Marcusは、「音声は私たちが今、積極的に開発している分野ではない」としつつも、「Messengerの機能やインタラクションを開発するほど、どこかの時点で音声変換や音声によるインターフェイスに取り掛かることになるのは明らかでしょう」と話した。

VentureBeatの報道によると、Facebookが所有するWhatsAppは、iOS 10のSiriと連携する機能を発表している。Siriに誰かに電話をかけたり、メッセージを送ったりするように依頼することができる機能だ。Messengerにも似た機能が実装されることが予想できる。

また、Facebookは人が人に向かって話す時と、人がコンピューターに向かって話す時の違いに関心を向けているという話もあり、これは実に興味深い。1年ほど前、Facebookが公表していないLanguage Technology Group（言語技術グループ）では、これについて模索していると情報筋から聞くことができた。

SiriにWhatsAppでメッセージ送信を依頼できる。画像はVentureBeatより。

コンピューターに向かって話す時、私たちはかしこまった声のトーン、言葉選び、抑揚で話す。友人と話す時は、スラングや崩した言葉を使い、話し方も早く、感情がこもっている。例えば、スマホには「Ok Google、近くにある4つ星評価のレストランを教えて」と言うだろうが、友人になら「どっか近くの美味しいお店知らない？」と聞くだろう。

Facebookが音声の書き起こしや文章の読み上げ機能を実装したり、人が友人と話す口調の分析したりするためには、別の音声認識エンジンを構築する必要があるかもしれない。

google-allo

Google Alloの音声チャットアプリ

一方、GoogleはAlloという音声ベースのメッセージアプリをローンチした。このアプリでは、音声クリップメッセージで素早い会話を楽しむことができる。またアプリから直接、GoogleのAIアシスタントと話すことも可能だ（訳注：日本版のAlloでは、Googleアシスタント機能をまだローンチしていない）。ディナーの予約を入れたり、道案内を依頼したりすることができる。それらを組み合わせることで、将来的にAlloは、ユーガー誰に何をメッセージしたいかを伝えて送信し、アシスタントの助けによってメッセージの受信者は、自分にとって最適な形でメッセージを受け取ることができるようになるだろう。

Googleはさらに、音声認識と自然言語インターフェイススタートアップのAPi.aiを買収したことを発表している。Googleはユーザーの声をより的確に認識し、文章の構造を理解して、人が話す言葉の意図を理解できるようになるだろう。

音声を頻繁に利用することで、FacebookやGoogleといった大手テクノロジー企業は人々の気分や感情を深く理解し、サービスをパーソナライズすることができるかもしれない。

音声認識やAIアシスタントが広まるほど、今後より多くのメッセージアプリが音声による指示を認識できるようになるだろう。開発者は例えばFacebook Messenger、Telegram、Slack向けに、ユーザーの声を理解して機能する独自のボット開発を進めることが予想される。

そして、それを利用するためにユーザーはスマホを起動させる必要もなくなる。

次世代のBluetoothヘッドフォンの台頭により、いつでも身に着けているマイクが使えるようになる。AppleのAirPodsは、十分にスマートでスタイリッシュであると人々に訴求し、私たちは長い時間ワイヤレスイヤフォンを着用している光景が一般的になる可能性を開いた。

AIアシスタントに命令したり、耳をタップしたりするだけで、メッセージを作成し送信することができるようになれば、音声入力機能は、チャットアプリにあると嬉しいスタンプやGIFと同列の機能から、どのチャットアプリにも必ずある主要機能へと位置づけが変わるかもしれない。そして、それは小さな画面を見つめる時間を減らし、人々がもう一度目を見開いて世界を自分の目で見て、体験する時代を連れてくるだろう。

[編集部記載：Google Alloについてローンチ後の内容に修正しています]

[原文へ]

（翻訳：Nozomi Okuma /Website）

img_0586a.jpg

img_0587a.jpg

img_0588a.jpg

img_0590a.jpg

img_0593a.jpg

img_0594a.jpg

img_0596a.jpg

img_0597a.jpg

関連記事

なぜ今なのか？

誰が声を上げるのか？