音声認識 | SEO-LPO.net

人間が犯す言葉の聞き間違いをAIは正してくれるか？答はノーだ

昨日（きのう）（米国時間5/17）までの二日間、ヤニー/ローレル(yanny/laurel)論争に加わらなかった人は、本当に幸せ者だ。でも、それもそろそろ時間切れ。口コミで広まった合成音声がAIへの誇大な過信にぶつかり、そしてその結果は、この俗世のすべてがそうであるように、幻滅だった。

AIによる音声認識ソフトウェアを作っているSonixが、その曖昧な音の断片を、GoogleとAmazonとIBM Watsonと、そしてもちろん自社の、文字書き起こしツールに与えてみた。

GoogleとSonixは最初からうまくいった。ちなみに、正解は“laurel”だ。yannyではない。 Laurelだよ。

しかしAmazonは、そのロボット的な声に対して、何度やっても“year old”を出力した。IBMのWatsonは、驚いたことに、半分正解…“yeah role”と“laurel”をかわるがわる繰り返した。だからある意味では、Watson氏がいちばん人間的だ。

上: Amazon; 下: IBM。

SonixのCEO Jamie Sutherlandは、各社の機械学習モデルを実際に調べたわけではないから、その不均一な結果に対してコメントはできない、と言った。

“ご存知のように人間の声はとても複雑で、声量や抑揚、アクセント、周波数などがそれぞれ違う。おそらく各社が最適化のターゲットとしているユースケースが異なるから、結果も違うのだろう。音声認識のモデルをすべての声に対応させることは、難題だ”、と彼は言う。

無知な傍観者としてのぼくの推察は、声の周波数に対するプライオリティの取り方/与え方が、各モデルで違うのだろう。そんな気がするね。

明らかに欠陥がある人間の聴覚と認識能力に基づいて作られているシステムに、権威ある正しい判断を求めるのはそもそもおかしいのだが、でもだからこそ、おもしろい実験だった。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

Alexaのスキルのデベロッパーは8つの声を使い分けられるようになる（当面アメリカ英語のみ）

これからは、デベロッパーが作るAlexaの音声アプリは、Alexaの声でなくてもよい。Amazonは今日（米国時間5/16）からデベロッパーに、テキスト→音声変換サービスAmazon Pollyで使われている声の中から8つを無料で提供する。ただし当面はアメリカ英語だけで、Amazon PollyのWebサイトによると、女声5名、男声3名だ。

Amazon Pollyが最初に紹介されたのは2016年11月のAmazon re:Inventデベロッパーイベントで、その後着実に能力を高めている。このテキスト音声変換サービスは今では、ささやき声やスピーチマーク、音色の変化、ダイナミックレンジの圧縮、などの機能を提供しており、これらにより声がより自然に聞こえる。

今回Alexaデベロッパーに提供されるのはアメリカ英語だけだが、このスピーチエンジンは今では20あまりの言語をサポートしている:

Australian English	Nicole	Russell
Brazilian Portuguese	Vitória	Ricardo
Canadian French	Chantal
Danish	Naja	Mads
Dutch	Lotte	Ruben
French	Céline	Mathieu
German	Vicki	Hans
	Marlene
Icelandic	Dóra	Karl
Indian English	Raveena Aditi
Italian	Carla	Giorgio
Japanese	Mizuki	Takumi
Korean	Seoyeon
Norwegian	Liv
Polish	Ewa	Jacek
	Maja	Jan
Portuguese – Iberic	Inês	Cristiano
Romanian	Carmen
Russian	Tatyana	Maxim
Spanish – Castilian	Conchita	Enrique
Swedish	Astrid
Turkish	Filiz
UK English	Amy	Brian
	Emma
US English	Joanna	Matthew
	Salli	Justin
	Kendra	Joey
	Kimberly
	Ivy
US Spanish	Penélope	Miguel
Welsh	Gwyneth
Welsh English		Geraint

でも、複数の声が使えると、ゲームやお話などではAlexaがもっと楽しくなる。ほかにも、いろいろ、奇抜な使い方があるだろう。

今、自分が作るスキルで複数の声を使ってるデベロッパーは、mp3のファイルをアップロードするなど、面倒なことをいろいろしなければならない。

Amazon Pollyを使うなら、デベロッパーはStructured Speech Markup Language(SSML)という言語を使い、その“voice name”タグで声を指定する。指定するだけだから、自分でmp3を録音することに比べると、超楽である。

Amazonはこれまでも、Pollyの用途を広げようと努力してきた。最近ではWordPress用プラグインを提供し、テキストによるブログを簡単にポッドキャストに変身できるようにした。

もちろん今回のAlexaのスキルAPIへの提供も、その努力の一環だ。ライバルのGoogle Assistantとの競合、というねらいもある。

（Googleは先週のデベロッパーカンファレンスで、Wavenetが生成する6つの声を発表したが、その中には歌手のJohn Legendの声もある。その展開は今年後半からだが、たぶんAssistantのデベロッパーにもその声の利用を売り込む気だろう。）

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

音声認識とAIで会議のノートを取るVoiceraがモバイルの同業Wrappupを買収

Voiceraは、会議などで人間がノートを取ることを今後永遠に不要にしたいと考えている。同社のビジョンはAIによる音声認識システムが、ノートを取るだけでなく話者を認識し、会議の要点や行動案件を要約できることだ。今日（米国時間4/18）同社は、類似のスタートアップWrappupを買収したことを発表した。ここもAIによるノート取りアプリで、Voiceraのビジョンにぴったり符合している。

Wrappupのチームは直ちにVoiceraに加わる。買収価額などの条件は、公表されていない。

VoiceraのCEO Omar Tawakolも、声明文の中で、相性は良い、と見ている: “問題解決への両社のアプローチには、互いにシナジー効果がある。Wrappupはモバイルファーストで目の前の人が相手だから、会議電話が主体のVoiceraを補完する”。

Wrappupの長所は、モバイルのコンテキストでミーティングの重要箇所を見つけることだ。そのために同社は、新しいモバイルアプリのローンチを発表した。これら二つの企業の協働関係は前からあって、それがやっと今日、オフィシャルになったものと思われる。

写真提供: Voicera

WrappupのCEO Rami Salmanによると、Voiceraとの合体によって顧客にとってより魅力的で強力なソリューションが作られた、という。“両社の技術とAIのアルゴリズムが合わさると、ミーティングの重要箇所をより正確に見つけてまとめることができる。それが、どんな場所であっても”、と彼は声明で述べている。

Voiceraの音声認識ツールはEvaと呼ばれるクラウドサービスだ。それは、ミーティングのノートを取る作業を、人間から取り上げるために設計されている。同社は先月、e.ventures, Battery Ventures, GGV Capital, Greycroftなどの著名VCから、シリーズAで1350万ドルを調達した。同社はまた、GoogleのGVやMicrosoft Ventures, Salesforce Ventures, Workday Venturesなどエンタープライズ系のVCからも注目されており、ミーティングの痛点（ノート取り）に対する同社のソリューションが本物であることを伺わせる。

Wrappupは、2015年にドバイで創業された。これまで80万ドルを調達している。同社の製品は、CitrixのGoToMeeting, CiscoのWebEx, UberConference, Zoomなど既存のミーティングツールと併用できる。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

アイルランドのスタートアップSoapBox Labsは、子供のための音声認識技術を開発している

アイルランドのスタートアップであるSoapBox Labsは、自らが「世界で最も正確で使いやすい子供のための音声技術」と呼ぶ技術の開発に邁進している。その技術はサードパーティーのハードウェアならびにアプリ開発者たちに提供される予定だ。その応用範囲は、読みと言語発達を支援する教育アプリ、家庭内で子供の声で制御するIoT機器、スマートトイ、そしてAR/VR体験などに広がっている。

2013年にPatricia Scanlon博士（元ベル研究所の研究員で音声認識技術で約20年の経験を持つ）によって創業された、この若い会社は、現在 Amazon EchoやGoogle Homeなどに搭載されているような、大人のための音声認識技術は、子供たちのためにはあまり上手く動作しないという前提のもとに活動している。

これは子供たちが、より高い声と、異なる話し方のパターンを持っているからだ。決定的に重要なことは、大人と違って、幼い子供たちは話し方を機械に合わせようとしないということだ、大人たちは意識的あるいは無意識的に、音声UIといわゆるスマートアシスタントの使い勝手を向上させるために機械に合わせた話し方をしている。

電話での説明によれば、ScanlonとSoapBox Labsのチームがこの問題に取組始めたのは2013年で、そのときまでに理解していた音声技術の構築方法の多くを、捨て去る必要があったということだ。広範な研究フェーズを経て、「子供たちの発話の振舞は、大人のものと非常に異なる」ことが明らかになった。特に幼い子供の場合には顕著だった。大人の音声データを使って開発され、大人の振舞をモデル化した音声認識技術は、幼い子供に適用された場合に、あまり良い成績を出すことができない。

その代わりに、SoapBox Labsは独自の子供の音声データセット（数千時間に及ぶ子供たちの音声データで構成されている）を作成し、これをチームの持つ子供たちの声と振舞に関する知見と組み合わせた。この結果生まれたプラットフォームは、スタートアップの独自モデルとスコアリングアルゴリズムを活かすために深層学習（AI）技術を活用し、子供たちを対象にした遥かに優れた音声技術を提供している。

これは子供向け英語版音声認識APIとして、SoapBox Labsからサードパーティに向けてリリースされている。来月の初めにはより多くのパートナーシップが発表されるだろうということだ。

同社はまた更なる資金調達を発表した。210万ユーロに及ぶその資金はその音声認識プラットフォームに対して英語以外の言語サポートを加えるために用いられる予定だ。資金の内訳は、150万ユーロがEUからの助成金であり、残りの60万ユーロが既存の支援者からのものだ。これによりSoapBox Labsの総資金調達額は300万ユーロとなった。

子供のための音声認識技術についての議論の中で、Scanlonは私に、デバイスが話者が子供か大人かを識別して、裏側のデータセットとモデルをそれに合わせて切り替える状況があり得ると語った。これは、子供ための音声技術は、間違いなく開発は難しいものの、大人に対しては上手く働かないからだという。現時点では2つの分離した解が最適なのだ。

さらに、現在インタラクションをしている相手が、子供か大人かを知っているデバイスは、振舞やインタラクション上の許可を変えることができるだろう。とはいえ、それがいかに必要かは分かっていても、子供を管理されたくない場合もあるだろう。

［原文へ］
（翻訳：sako）

Alexaを支える技術Amazon Lexが開発者に開放された

Amazonの仮想アシスタントAlexaを支えているテクノロジーであるAmazon Lexが、今朝（米国時間20日）のロイターの記事によれば、プレビュー段階を終了したということだ。自然言語理解技術を自動音声認識技術を組み合わせたこのシステムが、最初に紹介されたのは11月にラスベガスで開催された、AmazonのAWS re:Invent会議のことだった。

その時Amazonは、例えばチャットボットのような会話型アプリケーションを作りたい開発者たちが、そのようにLexを使うことができるかを説明した。

例として同社がデモしたのは、ユーザーが声だけを使って飛行機の予約を行うことができるツールだった。

とはいえ、このシステムは、Facebook Messengerのような、今日見られる消費者向けメッセージングアプリ内の、チャットボットに使われることだけに縛られているわけではない（もちろんそうしたプラットフォームに統合することは可能だ）。実際にはLexは、モバイルや、ウェブや、SlackやTwilio SMSのようなMessengerを超えたその他のサービスの中で、音声やテキストチャットボットとしてどのようにも利用することが可能だ。

AmazonはLexが、ウェブやモバイルアプリケーションの中で、ユーザーに情報を提供したり、アプリケーションに能力を与えたり、様々な仕事を支援したり、さらにはロボットやドローンやおもちゃを制御するメカニズムを提供したりといった、様々な目的のために利用できることを示唆している。

とはいえ、メッセージング内のチャットボット、特にeコマースのボットは、Lexテクノロジーへの確かなエントリーポイントの1つである。不恰好なナビゲーションメニューをもち、ユーザーの問に対して限られた返答しか行うことができない現行のチャットボットに、消費者たちは不満を抱いている。これに対してLexは、音声をテキストに変換し、テキストの意図を認識して、より会話らしくすることができて、現在市場にあるものよりもさらに洗練されたボットを開発することを可能にする。

Amazonによって管理されるLexは、ボットの使用量が増えるに従って自動的にスケールアップする。つまり開発者たちはLexが処理したテキストと音声の量に従って支払いをするだけでよい。

Lexををより広い開発者コミュニティに解放するAmazonの戦略は、GoogleのAsisistantやAppleのSiriなどの、他社の音声技術に対しての競争優位性を確保するために役立つことだろう。本日のレポートには、AmazonがLexを組み込んだアプリから送られるテキストや録音を用いてLexを改善し、より多くの問い合わせを理解する能力に磨きをかけることを計画していることも書かれている。

このオープン性は、Alexaプラットフォームに対する、Amazonの大きな戦略であり続けている。例えば、Amazonは既に、開発者がAlexaをそれぞれのデバイス（スピーカーや、ベッドサイド時計など）に統合することを可能にするAlexa Voice Servicesをロールアウトしていた。

Amazonがオープンエコシステムを推進している分野は、Alexaのソフトウェアだけではない。同社は今月初めには、そのEchoスピーカーを支える技術を、サードパーティデバイスメーカーも利用できるようにすると発表した。これにはAlexaコマンドを聞き取るためのマイクロフォンアレイや、ウェイクワードを認識する独自ソフトウェア、バックグラウンドノイズの低減、そして大きな部屋の中での反響のキャンセルなどが含まれている。

これらをOEM企業に提供することで、他のメーカーたちも自身のスマート音声認識製品を構築することができる。たとえそれがAmazon自身のEchoスピーカーと競合するとしても。

Amazon Lexに興味のある開発者は、ここから始めることができる。

[ 原文へ ]
（翻訳：Sako）

ザッカーバーグが作ったホームAIのJarvisは、あなたの音楽の好みを学習する

2016年、マーク・ザッカーバーグは野心的な個人的プロジェクトを設定していた。照明の制御、訪問者の監視、家電の操作など、自宅での作業を自動化するための人工アシスタントを構築することだ。ザッカーバーグはFacebook上で、ある意味「想像していたものよりも簡単」だったと述べている – この記事を読んでいる人のそれなりの割合が、そんなことはAmazon Echoのような既存のデバイスでできるのだから驚くほどのことでもないと考えることだろう。

公平を期すために言うならば、ほとんどの（全員？）Echoオーナーは、自分自身のためのAlexaサービスを最初から構築したりはしないが、まさにそれこそがザッカーバーグのやったことだ。彼自身のパーソナルJarvisをPython、PHP、そしてObjective Cを使ってコーディングし、言語処理や音声認識、そして顔認識などを組み込んだ機械学習技術とりこんでいる（Jarvisはコミック「アイアンマン」に登場する人工知能キャラクター）。

FacebookのCEOはまた、Sonos、Spotify、Samsung TV、Crestronのスマートホーム照明システム、Nestのビデオカメラなどの、買ってきた状態では必ずしも相互に通信をすることが想定されていない沢山のコネクトデバイスを取り扱う必要があった。これらのデバイスをすべて接続したあと、ザッカーバーグはあたかも他の人に頼むように話す言葉で機器を制御できるようにするために、自然言語要求を翻訳する手段を構築する必要があった。さらに、これらの要求は文脈で理解されなければならなかった。たとえばザッカーバーグの妻でChan Zuckerberg Initiativeの共同議長であるプリシラ・チャンが「私のオフィスで」何かをするよう頼んだ場合、それは彼女の夫がまったく同じ要求をした場合とは違うアクションを引き起こさなければならない。

ザッカーバーグがJarvisにやってもらうことのできるより面白いことの1つは、まだ市場には存在していない機能だが、実際に音楽の彼の好みを認識し、わずかな入力で再生する適切なトラックを自動的に選択することだ。Jarvisは以前に演奏された音楽をチェックして選択を行う。またザッカーバーグがより具体的な指示をしたい場合は「何か明るい曲を再生」といったような一般的な用語を使用して雰囲気を変えるよう求めることもできる。このシステムはまた、チャンの好みを別途追跡し、彼女のためにも同じことをすることができる。

ザッカーバーグがJarvisとテキストでやりとりするFacebookメッセンジャーボットを構築したことも注目に値する。そして全体的には声を使うよりもテキストを使ったコミュニケーションの方が望ましいと述べている、これは主に家の中にいる他の人の邪魔にならないようにするためだ。

ザッカーバーグはプロジェクトのまとめとして「AIは私たちが想像しているよりもさらに近く、同時にさらに遠いものです」と書いている。こう書いた理由は主に、特定のドメイン機能では大きな進歩を遂げているものの、あるドメインでの学習結果を他のドメインの問題に適用しようとする際にはあまり上手くいかないからである。言い換えれば本当に有能な汎用AIはまだまだ遠い道のりだということだ。

それでもザッカーバーグは、彼が2016年にJarvisの構築に100時間前後を費やして、かなり有用なシステムを生み出したことに触れ、さらに彼の特定のセットアップに縛られないより多くのホームオートメーション機能を実現することができたときには、最終的にはシステムを公開するかもしれないと述べている。彼はまた、これが新しい将来のFacebook製品の基礎を証明する可能性があるとも述べている。とはいえこれはちょっと生意気な態度だろう、なにしろFacebookの技術者たちが少なくともある種のAlexa型の競合相手をいろいろ研究しているのはほぼ確実なのだから。もし彼らがそうしていないとしたら、それは相当に近視眼的だ。

そして、悲しいことにロバート・ダウニー・Jrへの言及もなかった。

[ 原文へ ]
（翻訳：Sako）

Amazon AIがローンチ、Alexaのような音声アプリが開発可能に

Amazonは本日、ラスベガスで開催している開発者イベントre:InventでAmazon AIプラットフォームのローンチを発表した。Amazonが何年もかけて開発した機械学習の知性を社外の開発者でも利用できるようにする。最初の段階では3つのツールを提供するが、今後新たなツールを追加していく計画だという。

Amazonは機械学習の取り組みについてあまり発表してこなかったが、この分野において多くの知見があるとAmazon Web ServiceのCEO、Andy Jassyは強調する。「長くAIに取り組んできました。私たちのビジネスにはAI専任の人員が何千人もいます」という。

Amazon AIのツールの1つは画像認識サービス「Rekognition」だ。GoogleやMicrosoftなどが提供するサービスと同じように画像に写る物を特定することができる。Amazonのツールでは、画像に写っている犬の犬種まで認識できるとAmazonは主張する。ただ、他の競合サービスでもたいてい同じことができることは明記しておきたい。Amazonのサービスはとてもコスト効率が良いとJassyは説明しているが、実際の価格帯をまだ発表していない。

2つ目は Amazon Pollyで、これはテキストを音声に変換するサービスだ。裏では機械学習の知性を多く活用しているという。人が話しているかのような音声が作成できるとJassyは話す。「Pollyは、音声生成でこれまで課題だった部分を解決します。例えば、『live』の言葉の発音は文章によって異なります。『I live（リブ） in Seattle』と『Live（ライブ） from New York』のようにです。Pollyは同形異義語を認識して、スペルが同じでも発音が違うことを知っています」。

Pollyは男性と女性の47の音声を備え、24言語に対応している。

3つ目のサービス「Lex」で、これが一番重要な新サービスだろう。基本的にはAmazonが手がけるAlexaを動かしているテクノロジーと同じとJassyは言う。複数回のやりとりを要するコミュニケーションにも対応する会話型アプリケーションをこれで開発することができる。開発者はLex Consoleから会話を設計し、サンプルの会話文でボットを訓練することができる。

「 Amazon Lexを使用してチャットボット、あるいはユーザーと生き生きとしたインタラクションを持つウェブやモバイルアプリを制作することが可能になります」とAmazonは本日の発表で伝えた。「ボットは情報を提供したり、アプリを動かしたり、作業を効率化したり、さらに他のロボット、ドローンやおもちゃの操作するのにも活用することができます」。

本日のキーノートでAmazonは、声の指示だけで航空券を予約する様子を見せた（なぜか航空券の予約がこういったサービスの定番のデモになっている）。LexはLambdaや他のAWSのサービスと深く連携し、また他の法人向け連携サービスにも対応している。他にもFacebook Messenger、Slack、Twilioとも連携可能で、これによりAmazonの端末にとどまらず、基本的に他のどのデバイスでもこれらのサービスを使ってアプリを開発することができる。

[原文へ]

（翻訳：Nozomi Okuma /Website）

Amazon Alexaは2016の大統領選挙戦に関する事実確認もすることができる

友人たちと大統領選挙に関して議論した際に、ヒートアップしてしまったことはないだろうか？グッドニュースだ：いまやAlexaは2016年の選挙に関して、候補者の主張そのものに対する事実確認（fact check）をすることができる。対象にはクリントンとトランプの発言だけではなく、コメントの内容がチェックされた、他の候補者や政治家のものも含まれている。

この事実確認機能は、新しいスキルによって可能になっている ‐ Amazonの仮想アシスタントのパワーを強化する沢山のアドオン、音声駆動アプリの1つなのだ。この仮想アシスタントは、Amazon Echoスピーカーや、Fire TV、その他のデバイスに搭載されている。

この新しい「 Share the Facts（事実を共有する）」スキルは、Duke Reporters’ Lab（デュークレポーター研究所：スタンフォード大の1部門）によってもたらされた。同研究所は質問に答えるために、信用のおける既存の事実確認サイトを利用している。例えばWashington Post’s Fact Checker、FactCheck.org、そしてPolitiFactなどが含まれる。

インストール後、スキルを利用するには以下のように言えば良い：「Alexa, ask the fact-checkers…（Alexa、事実確認をお願い…）」そしてあなたの質問を続ける。

同スキルは、討論、キャンペーン広告、その他のインタビュー中で行われた主張を確認することに利用可能だ。

以下に示すのがAlexaに対して訊ねることのできる質問の例だ：

“Alexa, ask the fact-checkers did Donald Trump oppose the war in Iraq?”（Alexa、事実確認をお願い。ドナルド・トランプはイラク戦争に反対したの？）
“Alexa, ask the fact-checkers was Hillary Clinton right that her email practices were allowed?”（Alexa、事実確認をお願い。ヒラリー・クリントンが主張した、電子メールの使い方は許可されていたという事実は正しかったの？）
“Alexa, ask the fact-checkers is it true that 300,000 Floridians have lost their health insurance because of Obamacare?”（Alexa、事実確認をお願い。30万人ものフロリダの住民がオバマケアのせいで健康保険を失ったというのは本当なの？）

このShare the Factsプロジェクトからスピンオフしたスキルは、自然音声認識を利用して質問を分析し、プロによって選別を受けた約2000のチェックデータベースから答を引き出してくる。その結果は、タイムリーで、かつパートナーの事実確認サービスの間でもっとも高い同意が得らているものとなるように、調整されている。

これは、AmazonのAlexaが、大統領キャンペーン中にユーザーを支援してきた唯一の方法ではない。アマゾン自身も最近、特に新しいスキルの追加なしに、ディベートの開催と他の選挙について直接質問することのできる、新しい機能を公開した。

例えば、Alexaは有権者に対して、いつディベートがテレビで放映されるかをこれまで答えることができていたし、だれが調査で優位であるかを答えることもできる、そしてこの先はある候補者がどの州で勝ったのかといった質問にも答えられるようになる。

最後の質問は、選挙に関するリアルタイムの情報を伝えるために、Election Day（今年は11月8日）以降にAlexaが答えられるようになる音声コマンドの1つだ。また、誰が優勢なのか、人口の何パーセント票を候補者は得たのか、全体として誰が勝ちつつあるのか、特定の州で勝つと予想されているのは誰か、ある州で集まった票の数は何票か、特定の地域での選挙結果はどうか、あるいは単に「選挙結果は？」と訊ねることもできる。

既に、ユーザーたちは現在進行中の選挙戦とディベートに関する答を求めて、Alexaに向かい始めている。Amazonによれば、例えば水曜日に行われた最後のディベートの間に、「hombre」（スペイン語：「奴」「野郎」といった意味の俗語）に関連した問い合わせが40倍に増えたと言っている。

そして、ユーザーが最も沢山訊ねた2つの質問は、多かった順に次のようなものだ：「Alexa、ディベートの開始時間は？」そして「Alexa、議論に勝ったのは誰？」。

Amazon introduces Amazon Alexa, Echo and the All-New Echo Dot at a product launch in London

Amazonはまた、Alexaのユーザーたちが2016年の選挙に関連して、これまでに何百万もの質問をしていると語った。それらの質問のうちの数十万が、データベースの中身に格納されたものに関係したものだった。そして、ヒラリークリントンに関するものに比べて、ドナルド・トランプに関する質問の数が倍だったことを、Amazonは指摘した。

これはあくまでも個人的な意見だが、Alexaはどちらの陣営の味方もしていない。例えば彼女（Alexa）は、最後のディベートに関しては、どちらも新しい票の増減はなかったようだと答えるだけで、どちらが勝利したのかについては答えない。

一方、どちらに投票するつもりなのかと聞かれたときには – これまでに1万3000回以上聞かれているそうだが – Alexaこのように明るく答えるだけだ：

「雲の中には投票所はありません – 信じて下さいね、私見たんですよ。ここには1と0しかないんです」。

[ 原文へ ]
（翻訳：Sako）

楽曲認識アプリのShazam、10億ダウンロードでようやく黒字化

モバイルおよびデスクトップ用の音声検索・楽曲認識アプリ「Shazam」のダウンロード数が先ごろ10億件に達したと、Billboardが米国時間の9月29日に報じた。

ロンドンに拠点を置くShazam Entertainment Ltd.は、ついにようやく黒字に転じたことも発表した。これはデジタル形式での音楽売上に対するコミッションと音楽ストリーミングサイトへのトラフィック誘導による収入に加えて、新たに注力していた広告収入の成果とみられる。

ShazamのCEOがWall Street Journalに語ったところでは、同社は現在もSpotify、Apple Musicなどのストリーミングサービスに毎日100万クリックを誘導し、トラフィックおよび購入があった場合のコンバージョン報酬を受け取っているという。しかし今では広告収入が他の収入源を上回っているとの話だ。

Shazamの広告は、アプリユーザーがデバイス上などで楽曲やTV番組などのメディアをスキャンしている最中に表示される。広告の種類はほとんどの場合、音楽とは関係のない内容だ。

TechCrunchでも報じたように、Shazamは昨年初頭に3000万ドルを資金調達し、その時点で同社評価額は10億ドルを上回った。

Shazamは他のアプリ開発元やソーシャルメディアプラットフォームとのパートナーシップによって、既存ユーザーのエンゲージメントを深め、新規ユーザーも継続的に獲得して行きたいとしている。

Shazamが設立してから約15年の間に、競争はさらに激しくなっている。競合相手はSoundHound、MusixMatchのようなiOS/Androidアプリから、Google、Facebook、Amazonなどの音声認識テクノロジーにまで及ぶ。

たとえばAmazonのEchoでは、ユーザーが「この曲は何？」「このアーティストは誰？」などの質問をすれば、Spotifyなどの連携ストリーミングメディアサービスで再生中の楽曲を特定できたりする。

［原文へ］

（翻訳：Ayako Teranishi / website）

Amazonの新しいFire TV Stickはクアッドコア搭載、Alexa対応のリモコンも付属

ゆっくりと、しかし着実に、Amazonは音声認識AIソフトウェア「Alexa」の機能を、数ある自社製ハードウェア製品に組み入れつつある。数週間前、Amazonはこの音声アシスタント機能を米国で提供中のTVストリーミング向けハードウェアソリューションに導入すると発表した。ここでいうハードウェアには上位機種のFire TVから、より小型でドングルベースのFire TV Stickなどが含まれる。

Fire TV Stickの新たに発表されたバージョンでは音声認識機能が組み込まれ、「Fire TV Stick with Alexa Voice Remote」という、さらに長くなった新名称での発売となる。このちょっと呼びづらい新バージョンの販売価格は前バージョンから据え置きの40ドルで、音声認識対応のリモコン（以前は単体で30ドルした）が付属している。リモコンからは音声コマンドでアプリの起動、プログラム検索、チャンネル選択などを操作できる。

視聴中のコンテンツがフルにAmazon対応の場合には、Alexa経由で早送りや早戻しも可能だ。またAmazon Echoベースの機能にも対応しているので、ユーザーは天気予報、宅配メニュー、ニュース、映画の上映時間などもソファーでくつろいだまま確認できる。

今回はドングルのハードウェアにもアップグレードが施され、搭載プロセッサはデュアルコアからクアッドコアになった。ソフトウェアのアップデートも年内に予定されており、新デザインのFire UIが登場するという。

米国時間の9月28日から開始した新型Fire TV Stickのプレオーダーは、10月20日に出荷予定となっている。10月末のハロウィン前にTV Stickをゲットしたユーザーには、Sling TV、Hulu、Amazon Videoの65ドル分のコンテンツ無料視聴もプレゼントされるそうだ。

〔編集部〕ちなみにプレオーダー受付開始から1日経った米国時間の9月29日現在、Amazon.comでのFire TV Stickのプレオーダーはすでに「現在在庫切れです」となっている。

［原文へ］

（翻訳：Ayako Teranishi / website）

AppleがSiri経由の音声制御に対応したiOS 10向けアプリの一部を公表

Appleは、近々リリース予定のiOS 10に含まれる、Siri経由の音声制御に対応したアプリの一部を本日（米国時間8月31日）発表した。先日のWWDCで発表された通り、新たなiOSにおける最大の変更点のひとつこそ、ユーザーが声を使ってアプリとやり取りができるようになるということだ。近いうちにiOSユーザーは、テキストメッセージの読み書きや写真の検索、Uberといったアプリでの車の手配、ワークアウトアプリの一時停止、友人への支払、サードパーティーのVoIPアプリを使っての電話など、たくさんのことをSiriにお願いできるようになる。

既にSiriは、TwitterやYelpといったサードパーティーアプリの一部機能に対応しているものの、今後Appleは、ユーザーがもっと広範囲にアプリと”会話”できるようにしようとしているのだ。

SiriKit

ユーザーとアプリの”会話”は、SiriKitを使うことで可能になる。これはiOS 10ディベロッパー向けの新たなツールキットで、彼らはSiriKitを利用して、自分たちが開発しているアプリとバーチャルアシスタントのSiriが連携できるようなエクステンションを作成することができる。

つまり、Siriが音声認識や自然言語処理といったユーザーとのやり取りを担当し、エクステンション経由でアプリから必要な情報を受け取ることで、ユーザーのリクエストを処理できるようになるのだ。

Sirikit-wwdc

6月のWWDCでAppleは、WeChatやWhatsApp、Slack、Uber、Lyft、Didi、EyeEm、Pinterest、Runtastic、RunKeeper、Venmo、Number26、Skype、Viberといった具体的なアプリを例に挙げつつ、Siriとの連携がどのように行われるかについての詳細を説明していた。結果的に、ステージ上で具体的なアプリの名前を挙げることで、新たな音声機能に対応した最初のアプリ群を示唆していたことになる。

上記のリストに含まれるアプリの多くが、iOS 10リリースまでにSiri経由の音声制御に対応予定だ。

そのほかにもAppleは、Skype、LinkedIn、Square Cash、Monzo、Vogue Runway、Looklive、The Roll、PikazoについてSiriとの機能統合が行われると発表した。

Screen Shot 2016-08-31 at 7.12.38 PM

さらに本日から、Appleはブログでシリーズ記事の公開を開始し、今後登場予定のSiri対応アプリやその機能に関する情報を掲載していく予定だ。

今回の動きは、ディベロッパー向けの情報をWWDCで発表し、秋のiPhone関連イベントに合わせて新たなiOSを公開するというAppleのいつものパターンからは乖離している。

しかし、もしかしたら今回の発表にはエンドユーザーの教育という側面があるのかもしれない。または、Appleが、Amazon Alexaといった人気音声アシスタントプラットフォームの存在を、最近になってちょっとした脅威に感じているのかもしれない。

というのも、Alexaは、Uberドライバーへの電話、ニュースや天気予報の確認、ピザの注文、ワークアウト管理、ゲームといった機能を既に備えているのだ。

しかし、Appleの強みは、Siriが既にデバイス上にインストールされており、ユーザーはアポイントの登録や予定の確認といった、簡単なタスクをSiriにお願いするのに慣れているということだ。それを考慮すると、Uberを使った車の手配や電話をかけるというタスクが次のステップとなるのは当然だ。

Siriを使った車の手配

iOS 10の登場で、UberやLyft、中国のDidi Chuxing（同社はAppleの投資先でもある）、ヨーロッパのmyTaxiといった配車アプリは、新機能を大いに活用することができるだろう。Siri経由でこれらのアプリを利用する際に面白いのが、堅苦しい音声コマンドを事前に学ぶ必要がないということだ。

サンプルコマンドの一部には、「ヘイSiri、空港まで行くのにDidiを呼んで」や、「ヘイSiri、myTaxiにParliament Squareまでのタクシーを呼ぶようにお願いして」などが含まれている。

Siri Uber 2 (1)

Uberのように複数のサービスが用意されているアプリに車の手配をお願いする際は、「サンフランシスコ国際空港までのUberを呼んで」といった感じで声をかけた後に、希望のサービスを選択することができる。ユーザーの声を聞いたアプリが、料金見積もりや到着予定時間のほかに、UberPOOL、Uber Xなど利用可能なサービスをディスプレイ上に表示するのだ。

一旦ユーザーとドライバーが接続されれば、車やドライバーの情報に加え、UberがMapKitを採用しているおかげで、Apple Maps上でリアルタイムに車の動きを確認することができる。

「私たちは、パートナー企業と強力して、世界中でユーザーの生活にUberをさらに溶けこませることができるような方法を常に模索しています」とUberでシニアプロダクトマネージャーを務めるRahul Bijorは説明する。

また、彼はUberがSiriKitを実装するのに数ヶ月を要したと語っている。

「私たちにとっての大きな課題は、Appleの新機能を最大限活用するためにどのような変更をアプリに加えるかということ、さらにはユーザーにとって最適なSiriの活用方法をみつけだすことでした」とBijorは言う。

多くのディベロッパーも彼の言う課題にこれから数ヶ月間苦労することになるだろう。Siriとの機能統合はもちろんのこと、アプリのユーザーにとって1番良い形でSiriの機能を活用していくというのは簡単ではない。

Siri経由のVoIPアプリを使った電話の発信

Appleはさらに、CiscoのSparkのような音声制御に対応したアプリをオフィスでどのように利用できるかということにも触れている。新バージョンのSparkでは、Siri経由で連絡先の検索や電話の発信ができるようになる。「ヘイSiri、SparkでLuisaにビデオ通話して」といった具合に。

SiriKitとCallKitが同時に働くことで連絡先情報をSparkに伝達し、電話をかけることができるのだ。Sparkへの機能実装の上手い点が、もしもSpark上に連絡先が登録されていなくても、iOSに登録された連絡先まで検索して電話をかけることができるということだ。

spark-video-call

「Sparkは、モバイルユーザー向けに特別に開発されており、あちこち動き回るユーザーがどこにいても連絡がとれることに重点が置かれているため、Siriとの連携はすんなり馴染みました」とSparkのiOSリードディベロッパーであるRiley Marshは説明する。「私たちは、ユーザーが声をかけるだけで通話をはじめることができ、さらには私用・社用を問わず全ての連絡先へ、別スクリーンに移動することなくアクセスできるような形での実装を目指していました」

Vonage Essentialsという、今度発表されるSiriと連携した別のアプリでも、Sparkと同じように電話をかけることができる。さらにVonageによれば、将来的には企業のバックエンドシステムに登録されている情報さえSiri経由でアクセスできるようになるという。

「例えば、SiriKitをVonageアプリのメッセージ/テキスト機能と連携させることで、ハンズフリーでメッセージの送受信ができるようになります」とVonageモバイル開発部門のヴァイスプレジデントであるSagi Dudaiは話す。「iOS 10とVonageのもっと高度な融合が進めば、Siriのコマンドを使った音声・メッセージ機能を顧客管理ソフトなどのビジネスワークフローと統合できるようになるでしょう」

Essentials Siri 2

Dudaiはさらに、Vonageのような音声アプリに関し、これまでのiOSに比べてiOS 10ではユーザーエクスペリエンスが向上すると付け加えた。以前は、受信時にプッシュ通知が利用されており、ユーザーはスクリーンロックを解除しないと通話することが出来なかった。その一方で、ネイティブアプリに電話がかかってくると、VoIPアプリ経由の通話は保留状態になってしまっていた。

「こういった不便はiOS 10のCallKitで全て解消され、VoIP電話もネイティブアプリでの電話と何らかわりなく利用できるようになります」とDudaiは続ける。

「ネイティブ電話アプリと同じ機能やユーザーエクスペリエンスが提供できるようになれば、旧来のキャリアーを利用して音声通話やテキストの送受信を行う必要がなくなってきます。Appleは、VoIPがモバイル通信のスタンダードとなる上での最後の障壁を取り去ったんです」

apple-app-store-ios

アプリの新しい使い方

音声対応アプリは、App Storeエコシステムが成長に伴う痛みを感じているところに到来しようとしている。25個のカテゴリーに分類された、200万種以上の膨大な数のアプリのせいで、目的に適うアプリをみつけるのが段々難しくなってきている。ユーザーは、単純に新しいアプリの情報にさらされておらず、新たなアプリをダウンローをしてもすぐにそのサービスが終了してしまうことがよくあるのだ。

同時に、Appleのディベロッパーコミュニティも成長を続けている。今では世界中に1300万人ものディベロッパーが存在し、彼らは2008年から累計で500億ドルもの売上を記録している。しかし、インディディベロッパーにとって、自分たちのアプリの存在をユーザーに知ってもらい、さらには実際に使ってもらうということがこれまでにないほど難しくなってきている。

音声対応アプリはこの状況を変える力を持っているかもしれない。目的のアプリを起動するために、Spotlightで検索したり、デバイス上のスクリーンを何度も手でスワイプする代わりに、話かけるだけで良いとなれば、エンドユーザーがアプリにアクセスしやすくなり、結果的にアプリの利用率が高まる可能性がある。さらに、さまざまな設定や操作ボタンの位置を探し出すことなく、話かけるだけでアプリをコントロールできることで、各アプリの操作方法も簡単になっていくかもしれない。

［原文へ］

（翻訳：Atsushi Yukutake/ Twitter）

Ok, Googleは便利だ―命令リストを見て使いこなそう！

音声認識は便利だ。なんといっても人間はしゃべる動物なので直感的だ。

とはいっても現在の音声認識にはまだそれほど直感的でない部分がある。前回は間違いなく正しい返事をしてくれたのに今回はうまくいかない。これは大抵の場合、使用したキーワードが前回と違っていたり、必要なキーワードを抜かしていたりするのが原因だ。

顔のの見えない相手―AndroidのOk, GoogleやAppleのSiriをうまく使うのは最初は気骨が折れる。インターフェイスに認識可能なテキストを網羅するとそうとうの量になる。それにインターフェイスは常に認識可能な語彙を増やしている。

残念ながらたいていのユーザーは（つまり私だが…）よく使うフレーズを3つほど暗記して、そればかり使うという結果になりがちだ。

読者もそうだろうか？　それならいろいろ便利なサイトがある。

たとえばOk-Google.ioというサイトはその名のとおり、Ok, Googleで始めることができるコマンドのリストを大量に収集している。この中にはGoogleがまだAndroidの標準機能として組み込んでいないようなものもある。ナビゲーションも簡単だし、ブックマークしておくと便利だ。またGoogle Nowの利用法もわかる。

〔日本版〕上のサイトは音声コマンドのリストとしては非常に便利でジャンルも豊富だが英語版。Ok, GoogleはAndroid、iOSとも日本語に対応している。利用にはGoogleアプリのインストールは必須だが、Google Nowアプリのインストールは必須ではない。インストールしてあれば適用範囲が広がる。Google公式ヘルプによる使い方の説明はこちら。設定が正しければデバイスに「オーケーグーグル」と呼びかけるとシステム音が鳴り、この記事のトップ画像のような赤いマイクのアイコンが表示されて待ち受け状態となる。

利用法の一例：「Googleマップを起動」、「7月10日の東京の天気は？」、「いちばん近いコンビニは？」、「1ドルは何円？」、「6フィートは何メートル？」など。すぐに回答できる質問には音声で回答される。「xxさんに電話」の場合は（候補が一箇所の場合）デバイスはただちに電話をかける。

「アラーム設定」、「スケジュール作成」、「メール作成」などいくつかのステップが必要な場合、音声アシスタントが日時、場所、本文など必要事項の入力を促す。「xxxxとメモ」と話した場合は「アプリの選択」を促される（Gmail、Keepなど）。アプリのインストール状況やiOSとAndroidとで多少操作が異なる場合がある（ここに挙げた例はAndroidで試している）。

[原文へ]

（翻訳：滑川海彦@Facebook Google+）

ついに、Siriがサードパーティに公開される

期待されていた通り、今年のWWDCでは音声認識アシスタント「Siri」に注がれた惜しみない愛情を見ることができた。たった今、AppleはSiriの音声認識機能をサードパーティの開発者にも公開すると発表した。これにより、サードパーティが開発したアプリを「Hey Siri…」と話しかけて利用することができる。

Siriを通じたYelpの利用や、Twitterのコンテンツを検索する機能をはじめ、これまでにもSiriとサードパーティ・アプリケーションが統合された事例はあった。しかし、Siriが公開され、サードパーティのアプリケーションと連動することで、その利便性が格段に増す可能性がある。

新しいSiriがもつ可能性を示すため、WWDCのステージではSiriを使って「5分遅れそうだ」というメッセージをWeChatで送信するという例が示された。「これからのiOS 10には強力なAPIが存在します」とAppleの上級副社長であるCraig Federighiは語る。「iOS 10において、Siriはこれまでにない程の働きをするのです」。

iOS 10のユーザーがSiriを通じて利用できる可能性のあるアプリとして、彼はSlackやWhatsAppなど日常でよく使われるアプリを例に挙げた。他にも、Uber、Lyft、Didiを利用した乗車予約や（最近、AppleはDidiの出資者となった）、EyeEmなどを利用した写真の検索、RuntasticやRunkeeperにおいてワークアウトを中断したり再開する機能、Number26やVenmoなどを利用した友人への送金機能、SkypeやViperを利用したVoIP通話機能などもその例だ。

Federighiは「Siriはクルマとの相性も抜群です」と付け加え、ステージ上のデモンストレーションではCarPlayの名前を挙げた。

家庭用スピーカーのAmazon Echoに搭載された、Alexaの音声アシスタント・テクノロジーが外部に公開されてからしばらく経つ。同社は1年前に外部の開発者向けのAPIを発表し、去年の8月には最初のサードパーティー・アプリが公開された。

それ以降、Eコマース界の巨人はAlexaの開発者ツールを構築しつづけてきた。膨大な量のiOSデバイスをもつAppleに比べ、Amazonは自社のハードウェアへの関心を高めるために外部の開発者のチカラが必要だったのだろう（Echoには爆発的な販売実績がまだない）。

とは言うものの、Appleが2011年にSiriを発表して以降、それが持つ音声認識テクノロジーを公開せず、外部アプリとの統合を制限してきたことが、Siriの有益性や用途をも制限してきたことには間違いない。その一方で、AmazonのAlexaを利用したUberの乗車予約はすでに実現されているのだ。

つい先月、Siriの開発者であり、Appleによって自身の会社が買収された1年半後に同社を去ったDag Kittlausは、TechCrunch Disrupt NewYorkで次世代の音声アシスタント・テクノロジー「Viv」を発表した。彼は、将来的にVivをすべてのデバイスやアプリケーションを制御するコントロールパネルにするという野望をもっている。

Googleも同様に、データマイニングとAIを組み合わせることによって同社のバーチャル・アシスタント・テクノロジーの利便性を向上させる努力を続けている。ソーシャル・プラットフォームの巨大企業であるFacebookも、独自のAIアシスタントの開発に心血を注いでいる。Siriを進化させなければならないというプレッシャーがAppleに重くのしかかっていたことは明らかだ。

元アナリストであり、現在はA16zで勤務するBenedict Evansは、今年初めに発行されたEメール・ニュースレターでUberとAlexaの統合について以下のようにコメントした。「ごく普通のWebが、近いうちに復活することはないだろう」。

バーチャル・アシスタントという分野において、他社との差別化のためにAppleが注力していたのが、ユーザーのプライバシー保護だ。昨年のWWDCで、同社はProactiveと呼ばれるSiriのアップデートを発表した。これはGoogle Now風の予測機能であり、連絡先に保存されていない番号から電話がかかってきた時に、それが誰からの電話なのかを予測する機能などがその例だ。それに伴うデータ処理はクラウド上ではなく、ローカルで行われていると思われる。

Siriがサードパーティーの開発者に公開された今、Appleがどのようにユーザーのプライバシーを守っていくのかは、まだ明らかにされていない。

今日のWWDCでは、Apple TVで利用できるSiriの拡張機能も発表された。Siriに話しかけることで、YouTubeの動画を検索し、鑑賞できる機能などがその一例だ。

それに加えて、新しく命名された「macOS」にもSiriが搭載されることが明らかになった。従来の機能に加えて、音声でメッセージを送ったり、ファイルを見つけたりすることが可能だ。

[原文]

（翻訳：木村拓哉 /Website /Twitter /Facebook）