マイクロソフトがWord用の音声文字起こしサービスを提供開始

Microsoft(マイクロソフト)は米国時間8月25日、Microsoft 365の利用者全般に向けた新しい音声文字起こしサービス「Transcribe in Word(トランスクライブ・イン・ワード)」を開始(Microsoftブログ)したことを発表した。現在、この機能は、Word(ワード)のオンライン版で使用できる。他のプラットフォーム用のものは、後日追加される。さらに、新しい音声認識機能もWordに追加された。例えば、文章のフォーマット調整や編集が声でできるようになる。

その名前が示すとおり、この新機能は会話を文字に変換してくれる。その場で話した会話にも、録音にも対応し、聞き取った文章はそのままWord上で編集が可能だ。これにより、MicrosoftはOtter(オター)などのスタートアップやGoogle(グーグル)のレコーダーアプリと競合することになるが、どれにも一長一短がある。

画像クレジット:Microsoft

Transcribe in Wordを使うためには、メニューバーの「Dictate」ボタンをクリックし、続けて「Transcribe」をクリックするだけだ。後は、そこで交わされる会話が録音される。例えばスピーカーフォンやノートパソコンのマイクから直接録音できるが、別の方法で録音してからファイルを読み込ませることも可能だ。対応ファイル形式はmp3、wav、m4a、mp4となっている。

マイクロソフトのNatural User Interface & Incubation部門の主席グループPMマネージャーであるDan Parish(ダン・パリシュ)氏は本日の発表に先立つ記者会見で、例えば電話の音声を生で録音するとき、インタビュー中にバックグラウンドで書き起こしが行われると話していた。彼らは、その場で書き起こした文章は、あえて表示させないように決めたという。ユーザーへの調査で、表示させると気が散ると指摘されたからだ。正直にいって、私はOtterやレコーダーがその場で書き起こしてくれるのを見るのが好きなのだが、そんな人間は私だけなのだろう。

他社サービスと同様に、Transcribe in Wordでも書き起こされた文章の段落をクリックすると、いろいろな速度で読み上げさせることができる。自動書き起こしには聞き取りミスが付きものであるため、これは必須機能だ。しかしながら残念なことに、Transcribe in Wordでは個々の単語はクリックできない。

今のところ、このサービス最大の制約は、オフラインで録音した音声ファイルを読み込む際に、長さが300分に限定される点だ。追加料金を払ってこれを延長することもできない。私は、月あたり5時間以上のインタビューを書き起こすことも少なくない。それを考えるとこの上限は低すぎる。Otterなどは、最も安いプランでも6000分の容量がある。Otterは最大が4時間。それに対してマイクロソフトは読み込むファイルサイズも200MBに制限している。ただし、生で録音する場合は制限がない。

もう1つ私が気づいたのは、誤って録音中のWordのタブを閉じてしまうと、録音が中止されるという問題だ。しかも再開方法がどこにも見つからない。

また、読み込んだ音声ファイルの書き起こしにもかなり時間がかかる。録音した会話と、ほぼ同じぐらいの時間になる。だが、結果は極めて良好だ。競合サービスよりも優れていることも多い。さらにTranscribe for Wordは、会話中に話し手が変わったときに区別する能力にも長けている。ただしプライバシー保護の関係上、いつも同じ人間が録音する場合でも、いちいち自分の名前を登録する必要がある。

OneNote(ワンノート)などにも、同じような機能があったらいいと思う。マイクロソフトはいずれ、同社のメモアプリにもこの機能を追加するだろうと私は考えている。私には、そちらのほうが使い慣れているのだ。

画像クレジット:Microsoft

Wordの新しい音声認識機能は、例えば「最後の文章を太字に」といったコマンドを出したり、「パーセンテージのマーク」や「アンパサント」というように声で記号を入力することが可能になる(Wordでそんなノリの文章を書いている人の場合は「笑った顔」なども入力できる)。

音声の書き起こしはそれほど必要ないという人もいるだろうが、この新機能には、同社のサブスクリプションサービスに新しいプレミアムな機能を追加することで、無料プランのユーザーを有料プランに誘うための役割もある。有料プランのユーザーにより多くの機能を提供しているMicrosoft Editor(エディター)やこの書き起こしサービス、またはExcel(エクセル)やPowerPoint(パワーポイント)に新たに搭載されたAI機能などのツールが、有料プランにユーザーを乗り換えさせる役に立たなかったとしたら、むしろ驚きだ。特に今は、利用者のためにOffice 365をMicrosoft 365に統合したところだ。その結果、Grammarly(グラマリー)とOtter(オター)を個別に契約するほうが、Microsoft 356よりもかなり高額になっている。

画像クレジット:Jeenah Moon/Bloomberg via Getty Images / Getty Images

原文へ
(翻訳:金井哲夫)

ショートムービーから著作権音源を自動検出する技術を擁する中国のACRCloud

TikTokをはじめとするショートムービーアプリの台頭には、音楽が中心的な役割を果たしている。この人気の高まりの中で果実を収穫しようとしているのは、ショートムービープラットフォームばかりではない。音楽の著作権を持つ人たちも、ユーザーが作ったちょっとしたショートムービーに使われている無数の音楽から、利益を引き出そうとしている。

著作権のある音楽を検出するには、レコードレーベルであれパブリッシャーであれ、音響指紋と呼ばれる技術に頼らざるを得ない。現在、そのツールで先駆者的な存在は現在はApple(アップル)が所有するShazam(シャザム)だ。

北京とデュッセルドルフに拠点を置く創設5年目のスタートアップであるACRCloud(エイシーアールクラウド)は、Audible Magic(オーディブル・マジック)やNielsen(ニールセン)が所有するGracenote(グレースノート)(Nielsen記事)などと競合しながら、このサービスを提供している。同社は、数百万曲を収納する参照データベースを使い、ターゲットとする曲の「指紋」またはID(決め手となるテンポや音調などの特徴)を素早く照合できる。

音響指紋、つまり音声信号のデジタル概要(画像クレジット:ACRCloud

ACRCloudは、提携関係が秘密であるため社名は明かせないものの、数社の西側の最大手クラスの音楽レーベルによる著作権の使用状況の監視を手伝っている。レコードレーベルは、ACRCloudの自動コンテンツ認識(Automated Content Rcognition、ACR)アルゴリズムを利用して、ラジオやテレビの番組で流される曲、YouTubeやTikTokなどのプラットフォームでユーザーが作ったコンテンツで使われている曲、またはどのようなサービスであれ、著作権者に代償を支払うべきものを監視している。

知的財産を監視するのは、パブリッシャーやレーベルばかりではない。コンプライアンス遵守の目的で、放送局やUGC(ユーザー作成コンテンツ)サービスもまた、自身のチャンネルで流される曲の監視を積極的に行っている。

生まれたばかりのショートムービー業界では、大手レーベルは天文学的な額の一律料金をUGCプラットフォームに課すのが普通になっていると、ACRCloudの共同創設者Tony Li(トニー・リー)氏は話す。そしてその料金は、実際の利用のコストに比べて不釣り合に高額だという。その経費の削減しようと中国の大手ショートムービーアプリ企業数社は、最近になって、ACRCloudの音響指紋アルゴリズムを利用してユーザーが動画に使った曲を記録するようになってきた。

その一方で、小規模な著作権所有者やレーベルは、使われている音楽に著作権があるか否かを自動的に判別するシステムを持たないため、著作権料を徴収できずにいる。

そこで役に立つのがコンテンツ識別だ。「UGCプラットフォームは、音響指紋サービスを使って著作権料報告書を作成すれば、UGCプラットフォームにも著作権所有者にも、音楽の利用状況が透明化されます」とリー氏はTechCrunchに話した。

UGCサービスは、盗用が発覚すれば莫大な罰金を課せられる。今年の初め、音楽パブリッシャーとソングライターのグループは、著作権侵害でTikTokを訴えると恐れがあると報じられた(Financial Times記事)。TikTokの親会社ByteDance(バイトダンス)が音楽のライセンシングを強化(Billboardの記事)し、ビッグレーベルに依存しないで済むよう独自のアーティストの開拓に乗り出したと聞いても別段驚くにあたらない。

もうひとつ、よく知られている音響指紋の市場事例に音楽認識がある。Shazamが先陣を切って開発した技術だ。2012年から2014年までリー氏はそこで働き、中国進出を手伝っている。Huawei(ファーウェイ)、Xiaomi(シャオミ)、Vivo(ビボ)などのスマートフォンメーカーは、ACRCloudの音楽認識技術をデバイスに組み込んでいる。

リー氏はずっと音声技術の世界にいた。中国のShazamで少しだけ働いていた以外にも、彼はファーウェイのアフリカ市場での着信音事業に携わっていたことがある。リー氏は、これまで、ACRCloudのために外部の資金を調達したことがなく、従業員はわずか10人と常に少数精鋭のチームをまとめている。
画像クレジット:ACRCloud

[原文へ]

(翻訳:金井哲夫)

マイクロソフトやアマゾンが音声認識チップの新興メーカーSyntiantに出資

Microsoft(マイクロソフト)のベンチャーキャピタルであるM12が南カリフォルニアのアーバインに本拠を置く音声認識のチップメーカーであるSyntiantの資金調達ラウンドをリードした。参加した投資家には著名なベンチャーキャピタルが多数含まれている。Syntiantは音声認識の半導体の新興メーカーだ。

SyntiantのCEOであるKurt Busch(カート・ブッシュ)氏は「我々は機械学習を利用した専用プロセッサーを作っている。最初に出荷したのはバッテリー駆動で常時動作するデバイス向けの音声認識チップだ」と述べた。

ブッシュ氏によれば、こうしたチップのデザインには従来とは異なるアプローチが必要だという。伝統的なコンピューティングはロジック処理を中心とするが。深層学習ではメモリアクセスが重要となる。また伝統的なチップのデザインはメモリへの並列的アクセスにあまり向いていない。

またブッシュ氏によれば、Syntiantの新しいチップは従来の製品に比べて二桁以上効率性が高い。これは深層学習学習に特化したデータフローアーキテクチャを採用しているためだという。

この効率性の高さがマイクロソフトのM12を含む多数の有力ベンチャーファンドの関心を引くことになった。今回のラウンド参加したベンチャーキャピタルにはAmazonのAlexa Fund、Applied MaterialsのApplied Ventures、Intel Capital、Motorola Solutions Venture Capital、Robert Bosch Venture Capitalなどが含まれる。

今回の投資家には米国のテクノロジー産業を代表するチップメーカーやソフトウェアの開発企業が含まれている。これらの大企業が力を結集して南カリフォルニアの新興チップメーカーを支援することになったわけだ。

画像クレジット:Bryce Durbin / TechCrunch

AmazonのAlexa FundのディレクターであるPaul Bernard(ポール・バーナード)氏は次のように述べている。

Syntiantは音声テクノロジーを利用してイノベーションを推進していこうとする企業の努力に理想的にマッチする。同社のテクノロジーはAlexa、特にバッテリー駆動のデバイスでのAlexaのアプリケーションをさらに進化させるために膨大な可能性を秘めている。Amazonは音声認識テクノロジーのデバイスと環境を整備するために今後Syntiantとの提携を強化していく。

Syntiantがリリースした最初の製品は1.4×1.8ミリのマイクロチップで消費電力は140マイクロワットだ。このチップはアプリケーションによってはボタン電池1個で1年以上作動するという。

一方、Applied MaterialsのApplied VenturesのプリンシパルであるMichael Stewart(マイケル・スチュワート)氏は次のように述べている。

Syntiantのニューラルネットワークを利用したメモリー処理はApplied Materialsの中心的テクノロジーに極めて適合する。これはメモリー製品において根本的な飛躍をもたらし、デバイスのパフォーマンスを高め、新素材を利用したチップの可能性を広げる。またニューラル意思決定プロセスを利用したチップは非常に低消費電力であり、この種のチップのマーケットを大きく拡大する可能性がある。音声とビデオに対するニーズが大きく高まっている現在、同社の製品はソリューションは非常に有望だ。

現在Syntiantの製品をプロダクトに組み込もうとしている顧客は80社ある。十数社はすでに具体的なデザイン段階にありスマートフォン、スマートスピーカーのリモートコントロール、補聴器、スマートモニターなどのデバイスに音声認識チップを統合する計画だ。Syntiantは音声認識チップの最初のバージョンを既に100万個出荷している。

Syntiantのブッシュ氏は「今年中に会社の規模を10倍にする計画だ」と述べた。

Syntiantのチップセットはデバイスの起動、各種の命令の認識に対応している。ブッシュ氏によれば同社のチップセットはユーザーが自分の声に合わせて認識精度を改良したり独自のコマンドを設定したりすることができるという。

SyntiantはAtlantic Bridge、 Miramar aAlpha Edisonといった欧米のベンチャーキャピタルの支援を受けて2017年10月に資金調達ラウンドを成功させている。ブッシュ氏によれば同社は現在までに総額で6500万ドル(約68億7000万円)の資金を調達している。

Microsoft M12の投資を機に同社のSamir Kumar(サミル・クマル)氏がSyntiantの取締役に就任した。クマル氏は「Syntiantのアーキテクチャは現代のコンピューテーションを特徴づける並列処理と深層学習ネットワークによく適合しており、人工知能やIoT の分野でブレークスルーをもたらす可能性があると考えている」と述べている。

画像:Getty Images

原文へ
(翻訳:滑川海彦@Facebook

アップルとカーネギーメロン大学が聞いて学ぶシステムを公開、よりスマートな家電開発目指す

Apple(アップル)とカーネギーメロン大学のHuman-Computer Interaction Institute(ヒューマン・コンピューター・インタラクション研究所)の研究者で作るチームが、周囲の音を聞いて学ぶ埋め込み型AIのためのシステムを披露した。トレーニング用のデータを事前に準備したり、学習プロセスを監督する大きな負担をユーザーにかけたりする必要がない。全体的なゴールは、スマート家電がもっと簡単に文脈や状況の把握をできるようにして、応用の幅を広げることだ。

彼らがListen Learner(聞いて学ぶ者)と名付けたこのシステムは、マイク付きのスピーカーなどのスマート家電の音響行動認識能力を用いて、その周囲で発生している出来事を、自己教師あり学習と、1回だけユーザーが介在して行われるラベリングから解釈する。このラベリングは、たとえばスピーカーがクラスタリングに値するだけの時間聞いている音について、「今の音はなんですか?」と質問するといった形で行われる。

一般的な事前トレーニングを行ったモデルもループに加えることで、システムは初めて聞く音に対して、その音響クラスターが意味する内容を推測できるようにもなる。そのためユーザーが答えるべき内容を絞り込むことが可能だ。たとえば、システムの「今のは蛇口ですか?」という質問に、近くにいる人が「はい」または「いいえ」と答えるだけで済む。

認識を高めるための質問は、研究者たちが「境界線上のケース」と呼ぶ音をシステムに理解させる役にも立つ。それまでクラスタリングされそうになったものの、まだ個別のイベントとして意味づけされていない音などだ。たとえば、ドアが閉まる音に対して、食器棚の扉が閉まる音はそれにあたる。今後は、システムに二者択一の推測方法を教えて、推測を行ってからユーザーに聞いて確認をとるようにもできるだろう。

彼らは、キッチンを舞台にそのコンセプトを説明する下のデモ動画を制作した。

研究論文の中で彼らは、スマート家電は家庭やオフィスに広く普及し始めているが「文脈を把握する能力」に欠ける傾向があると指摘している。「周囲で起きていることに対する理解が最低限」しかなく、従って「本当に有用なコンピューター体験を実現させる可能性」が限定されるという。

音響行動認識自体は新しいものではないが、研究者たちは、それが既存の展開方式、つまり、ユーザーの手間に頼った膨大なトレーニングで精度を高める方法、または事前のトレーニングによって一般的な分類を与えておき「箱から出してすぐに使える」ようにする(しかしユーザー固有の環境に関するデータがないために制度は落ちることになる)方法を改善できるかどうかを確かめたいと考えている。

そのためListen Learnerは、現在、データ構築のためにユーザーに大きな負担をかけずに実用性(精度)を高めるまでの発展途上にある。この自己学習型システムは、時間をかけて音響行動分類器を自動生成してゆく。研究チームは、スマートスピーカーと同じように動作する概念実証用のプロトタイプを製作し、人間によるインプットを求めさせた。

「アルゴリズムは、既知のサンプルをインタラクティブにクラスタリングすることで、ひとつのアンサンブルモデルを学び、その後、結果として作られたクラスターを割り当てることにより分類器をトレーニングする」と彼らは論文で解説している。「これにより、アンサンブルモデルが活性化したときに、ユーザーの1回限りの介入でそれを部分的にラベリングができるようになる」。

音響イベントは、マイクの入力レベルが過去1分間の平均よりも標準偏差が1.5高いときにトリガーされる適応閾値を使ってセグメント化される。

「我々は、閾値化スキームをさらに潤滑にするためにヒステリシス技法(デバウンス処理)を採用している」と論文は続く。さらにこう記している。「多くの環境では、持続的で特徴的な背景音(HVACなど)があるが、我々は演算効率を高める目的でそれらを(無音時と同様)無視した。入力サンプルは、環境音との類似性がきわめて高い場合には破棄されるが、セグメント化されたウィンドウに含まれる無音は削除されないことに注意していただきたい」

彼らが使用しているCNN(畳み込みニューラルネットワーク)音源モデルは、最初にYouTube-8Mデータセットでトレーニングを行っている。論文によると、それを業務用サウンドエフェクトのライブラリーで強化したという。

「深層ニューラルネットワークの埋め込みを使用するという選択は、入力データの学習済み低次元表現と見ることもできるが、それは流形仮説(高次元データが低次元多様体におおよそ沿っていること)と一致する。この低次元学習表現上でクラスタリングと分類を実行することで、我々のシステムは、新しい音源クラスの発見と認識がより簡単に行えるようになる」と彼らは書いている。

研究チームは、教師なしクラスタリング方式を使っていた。ウォード法として知られる凝縮型階層的クラスタリング(HAC)アルゴリズムを使い、低次元学習表現からクラス境界の位置を推論するためだ。

このシステムは、候補のクラスターが重複している場合があるため、「クラスのもっとも優れた表現を見つけ出すためのデータ分類のあらゆる可能性」を評価する。

「我々のスラスタリング・アルゴリズムは、全クラスター内分散を最小限にすることで、データをクラスターに分離している。また、クラスターの分類可能性に基づきクラスターの評価を試みる。クラスタリングの段階を終えると、教師なしの1クラス・サポートベクターマシン(SVM)アルゴリズムを使い、新規に関知した音源の境界線の判断を学習させる。各候補クラスターごとに、1クラスSVMはクラスターのデータポイントに基づきトレーニングされ、そのF値はデータプール内のすべてのサンプルと共に処理される」という。

「従来のクラスタリング・アルゴリズムは、クラスターの割り当てを提供することで入力データを説明しようとするものだが、これ単独では未知のサンプルの区別は行えない。従って、このシステムの推論能力が円滑に利用できるよう、ひとつ前の段階で生成された1クラスSVMを使ってアンサンブルモデルを構築する。我々は、閾値θを超えるF値を持つ最初の分類器を選択しアンサンブルに加えることで、アンサンブルモデルを構築するインタラクティブな手順を導入した。分類器が追加されると、それをデータプール上で実行し、認識されたサンプルをマークする。そしてクラスター分類ループを、1)プール内のすべてのサンプルがマークされる、または2)ループからはそれ以上の分類器が生成されなくなるまで繰り返す」。

プライバシー保護は?

マイクがオンになり環境データを処理する頻度に関連して、論文では、こうした音声を聞き取るシステムで懸念されるプライバシーの問題にも触れている。機器の中ですべてをローカルに処理できるとは限らないからだと彼らは言う。

「音響を利用した行動認識のアプローチは、分類精度の向上や学習能力の漸進的向上といった恩恵をもたらす一方、音声データ、とりわけ会話の内容をキャプチャーし転送することにはプライバシーの問題が浮上する」と彼らは書いている。「理想的な実装の形は、すべてのデータが、それを捉えた機器から外に出さないようにすることだ(ただしローカルでトレーニングを行うとなれば膨大な演算能力が必要となる)。または、ローカルに保存されているモデルクラスにユーザーが特定できない匿名ラベリングを行った上でクラウドで処理する代替方法もある」。

論文の全文はこちら

[原文へ]

(翻訳:金井哲夫)

会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達

会議や商談、インタビュー、記者発表などにおける会話や音声をテキストに変換したいと思った場合、ICレコーダーやスマホのボイスレコーダーアプリなどを使って録音し、人力で文字起こしをすることが多いのではないだろうか。

一方でエピックベースが手がける「Smart書記」は、AI音声認識技術を用いてマイクが拾った音声をリアルタイムに自動で文字に起こす。ユーザーはその内容を基に編集を加えるだけでいいので、ゼロから文字起こしをしていた時に比べて手間が少ない。

Smart書記は電子書籍の流通事業などを手がけるメディアドゥの新規事業として2018年6月にスタート。無料のトライアル利用も含めて累計で800社以上に活用されてきた。今後の成長を見据えた上でメディアドゥから切り出すことを決め、現在はカーブアウトする形で2020年1月に設立されたエピックベースが運営を担っている。

そのエピックベースは3月12日、メディアドゥからの独立とともに、メディアドゥホールディングス、Coral Capital、三木寛文氏、宮田昇始氏(SmartHR代表取締役)、内藤研介氏(SmartHR取締役副社長)より総額8500万円の資金調達を実施したことを明らかにした。

音声データをリアルタイムでテキストに変換

Smart書記はマイクから集音した音声をAIによる音声認識技術によって自動で文字に起こしてくれるSaaS型のプロダクトだ。大きく「収録・文字起こし」「編集」「出力」の3つの機能を通じて、会議の議事録や講演録などを作成する際のユーザーの文字起こし業務を支援する。

まずユーザーはICレコーダーなどで録音する代わりに、Smart書記を開き音声を吹き込む。たとえば会見であれば発表者が装着したワイヤレスピンマイクを通じてバックヤードのPCで音声を取得する、会議であれば参加者が自分のPCにピンマイクを指して収録する、取材や商談であればスマホやタブレット(Smart書記のiOSアプリ)を机に置いて会話をする、そんなイメージだ。

そうやって音声を入力していくと、“発言ごとに細かく区切った状態で”リアルタイムにどんどんテキスト化されていく。この細かく区切るというのが1つの特徴で、これによって各パートごとにテキストを編集することはもちろん、後から確認したいと思った時にその部分だけをピンポイントで再生することもできる。

会議など複数人の会話を文字に起こしたい場合、各々がマイクをつけた状態で収録すれば発言者の名前(音声入力した人の名前)が自動で入力され、誰がどの発言をしたのかがわかるのも使いやすいポイントだ。テキスト化する際には、辞書登録を行うことで誤り語句を自動的に訂正語句へと置き換えてくれる「訂正学習機能」や会話を自動翻訳してくれる「同時翻訳機能」も役に立つ。

そのほかにもセクションを分けたり補足のコメントを追加したりする機能、重要な箇所をハイライトするマーカー機能などを搭載。テキストデータはExcel、Word、テキストファイル形式でダウンロードできる。

料金体系は月額10万円からの定額制。文字起こしをした時間の合計時間が200時間を超える場合には、1時間あたり500円の追加料金がかかる仕組みだ。

エンタープライズや自治体を中心に活用進む

もともとSmart書記はメディアドゥと徳島県が2017年10月から6ヶ月に渡って行った実証実験を機に生まれたプロダクトだ。

これは県知事による記者会見の議事録を作成する際、AIを活用して文字起こしとテキストの要約を効率化することを目的として実施したもの。開発前の段階ではAI要約の方のニーズが強かったそうだが、実際にやってみると文字起こしの方により大きな効果があったという。その後展示会に出してみても反響が良かったため、2018年6月に自動文字起こしサービスとして正式にリリースした。

たとえば徳島県庁の事例では議事録作成までにかかっていた工数を約10時間から約2時間にまで減らすことができたそう。知事の発言をWebサイト上で公開するまでのスピードも、約4日ほどかかっていたところが即日になった。

エピックベース代表取締役の松田崇義氏によると導入企業の約8割がエンタープライズや自治体関係とのこと。会議の議事録作成が義務化されていたり、会見の内容をテキストで発表したりするなど文字起こしのニーズが高く、なおかつその頻度も多い大企業・自治体からは特にニーズが高い。多い時には1日で10件前後の問い合わせもあるそうだ。

この「音声データを手間なくテキストにしたい」というニーズは国内外で共通するものだろう。国内では音声認識技術を手がけるアドバンストメディアなど複数社が文字起こしシステムを展開しているほか、海外でも1月にNTTドコモが協業を発表したOtter.aiなど複数のプレイヤーが存在する。

現在Smart書記では音声認識と翻訳の技術についてはGoogleのAPIを活用。一方で同じエンジンを使っていても「どれだけクリアな音声を入れるかによって精度はかなり変わってくる」ので、その質を高めるための運用サポートや、編集のしやすさを中心としたプロダクダクトの使い勝手の改善に力を入れてきた。

同時翻訳機能を使えば、文字起こししたテキストの下に自分が設定した言語へ翻訳した内容が一緒に表示される

「精度はもちろん高い方がいいが、100%の精度を求められているというよりも、80〜90%くらいで運用負荷が少なく確実に文字起こしの業務効率化に繋がるサービスが必要とされている。実際に導入検討頂く際にはある程度の精度を担保しているという前提で、運用の負荷が1つめのポイント、その次に情報セキュリティの観点も入ってくる。同じ領域のサービス自体はいくつかあるものの、これらの要件を満たしたものはまだ少ない」(松田氏)

音声データをビジネスシーンで有効活用できる基盤に

今回調達した資金は主にプロダクト開発やサポート体制を強化するための人材採用に用いる。まずは文字起こしの作業負担削減を支援するプロダクトとしてアップデートをしつつ、そこで取得した音声データをビジネスの現場でもっと有効活用できるような基盤を整えていく計画だ。

「2000年前半にブロードバンドやWindowsが本格的に普及した結果、PCを使って仕事をする人が増えた。そして2010年前半にはスマホやタブレットが登場し、チャットやクラウドサービスがビジネスの現場で広がった。これまでテクノロジーやネットワーク回線の進化がビジネスシーンにも大きな影響をあたえてきたが、今後キモになるのは『音声』。音声を取得するための高品質なデバイスや5Gの登場によって、ここからまたビジネスが変わると考えている」

「まずは目の前にある『文字起こしの作業負担を軽減したい』という顧客の課題をしっかり解決する。その上で音声データが溜まってきたフェーズでは、たとえば音声ファイルを検索して移動中などにすぐ聞けるようにするなど、ビジネスの現場で音声を活用できる基盤を作っていく。企業が音声という資産をSmart書記に蓄積していくことで、もっと有効活用できるようにしていきたい」(松田氏)

エピックベース代表の松田氏はSmart書記ローンチ時からのメンバーではなく、2019年7月よりメディアドゥに加わり事業部長として同サービスの成長を牽引してきた。

もともとは新卒入社した楽天を経てデジタルガレージに転職し、スタートアップへの投資やアクセラレータプログラム「Open Network Lab(オンラボ)」の運営を担当。その後参画したフーモアでは取締役COOも務めた人物だ。

ちなみに今回のラウンドにはSmartHRの宮田氏や内藤氏も個人投資家として参加しているが、彼らとはオンラボ時代からの縁(同社はオンラボの卒業生)もあり、“エンジェル投資”という形で一緒にチャレンジすることになったという。

音声アシスタントの聞き取り精度を大幅に向上させるAudioTelligenceの「音の自動焦点」機能

ケンブリッジ大学の資金援助で設立されたスタートアップAudioTelligence(オーディオテリジェンス)は、「音の自動焦点」機能でシリーズA投資850万ドル(約9億2000万円)を獲得した。

このラウンドはOctopus Ventures(オクトパス・ベンチャーズ)が主導し、以前の投資者であるCambridge Innovation Capital(ケンブリッジ・イノベーション・キャピタル)、Cambridge Enterprise(ケンブリッジ・エンターブライズ)、CEDAR Audio(シーダー・オーディオ)が参加している。

2017年、イギリスのケンブリッジに創設されたこの会社は、周囲の雑音を排除して、人や機械が言葉を正確に聞き取れるようにする「ブラインド信号源」のデータに基づく分離技術を開発した。

雑音の多い場所で音声アシスタントを使うときや、スマートスピーカー、スマートテレビ、セットトップボックスなどの音声認識の精度が、放送の音声と周囲の雑音とで低下してしまう場合など、この技術の商業的な応用範囲は非常に広い。

別の使用事例には、騒がしい場所で音が聞き分けにくくなる補聴器がある。同社はこの問題にも取り組んでいる。事実、この技術の開発を促したそもそもの動機は、いわゆる「カクテルパーティー効果」だ。創設者でCEOのKen Roberts(ケン・ロバーツ)氏は、先週、ビデオ通話で非常に騒がしいカフェでAudioTelligenceの技術をライブでデモンストレーションしてくれた際に、そう話していた。管理された状況でのデモだったからかもしれないが、効果は驚くほど大きかった。

またロバーツ氏は、AudioTelligenceは消費者向けハードウェアを独自に作ることはせず、ライセンス戦略を採用するとも話していた。先日、この技術の能力をCESでデモンストレーションしたところ、OEMやその他のメーカーが大きな興味を示していた(4日間で90社ほどのリードを獲得したようだ)。さらに名前は公表されていないが、あるホームアシスタント・プラットフォームでは、雑音の多い場所での文章の聞き取り能力が22パーセントから94パーセントに跳ね上がったという。

AudioTelligenceの雑音分離技術と既存のソリューションとの違いついて、ロバーツ氏は「適合する」マイクを必要としないため安く簡単に実装できること、そして使用前にユーザーがアルゴリズムを訓練しなくてよいことを挙げている。つまり同社によると、AudioTelligenceなら新しい環境の雑音と新しいユーザーの声をリアルタイムで認識し、同時にその「焦点」を調整するということだ。

おまけにこの技術は、ほぼ遅延なく高性能を発揮してくれる。補聴器を使う際に致命的な問題となる、話し手の口の動きと音声とのズレがほとんどない。

「私たちのソリューションには、補正や訓練の必要がありません」とロバーツ氏。「そのため、既存のデバイスでもソフトウェアを更新するだけで、AudioTelligenceにアップグレードできるのです」

AudioTelligenceでは、今回調達した資金を使って、さらなる「画期的」な製品の開発を行い、技術系企業との新たな提携関係を推進する予定だ。それに伴い、今後3年間で従業員数を3倍に増やすという。

[原文へ]
(翻訳:金井哲夫)

AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

AIを使った音声のテキスト変換アプリであり会議メモ担当者の友、Otter.ai(オッター・エーアイ)は、日本の大手モバイル通信業者であり新しいパートナーとなったNTTドコモから戦略的投資を受けた。この2つの企業は、共同でOtterを日本市場に送り込む計画を立てている。ドコモは、Otterを独自のAIベースの翻訳サービス子会社Mirai Translation(みらい翻訳)と統合して、正確な英語の書き起こしと、日本語への翻訳を行う予定だ。

この投資は、ドコモの100パーセント子会社であるNTTドコモ・ベンチャーズによるものだが、その額は公表されていない。しかし、この新規ラウンドは総額で1000万ドル(約10億900万円)になるとのこと。現在までにOtterは、NTTドコモ・ベンチャーズ、Fusion Fund、GGV Capital、Draper Dragon Fund、Duke University Innovation Fund、Harris Barton Asset Management、Slow Ventures、Horizons Venturesなどから2300万ドル(約25億円)を調達している。

Otterは、2018年、音声による会話の検索サービスを開始し、今では電子メールやテキストを簡単に検索できるまでになっている。OtterのCEOで創設者のSam Liang(サム・リアン)氏はGoogle、Facebook、Nuance、Yahoo! さらにスタンフォード大学、MIT、ケンブリッジ大学などとともに、会議やインタビュー、プレゼン、講義などで話された言葉を聞き取る専用の技術を開発してきた。これは、人と人の間で交わされる自然な会話での長めの文章をテキスト化するもので、現在使われているGoogleアシスタントやSiri、Alexaなどの音声アシスタントとは別種の技術だ。

この製品は、人の話をリアルタイムで音声をテキスト化する。テキスト化された文章は検索が可能で、話している人やキーワードも特定できる。録音した音声と一緒に写真もアップロードできる。

サービス開始以来、Otterはその製品を数百万のユーザーに広め、現在は企業向けのOtter fot Teamsサービスも提供している。

NTTドコモとの新たな提携関係では、グループで使える企業向けサービスの日本市場参入を目指すとリアン氏は話している。彼は、元Googleのアーキテクトで、位置情報アプリAlohar Mobileのスタートアップをアリババに売却した経歴を持つ。

「NTTドコモなどの大企業は、国際会議の必要性から英語でのコミュニケーションが可能な国際的な人材を多く抱えています」とリアン氏。「彼らはOtterを使えば、自動的に議事録がつけられるようになり、会議やコミュニケーションの効率化が図れます。[中略]目標は、Otterの英語自動議事録サービスを基本にして、コミュニケーションとコラボレーションの機能をさらに強化することです」

Otter.aiは、Zoom Video Communications(ズーム・ビデオ・コミュニケーションズ)やDropboxといったアメリカ企業とも同様の提携をしている。

今回の提携における成果のひとつとして、OtterのVoice Meeting Notes(音声議事録)が、日本のベルリッツ・コーポレーションの英会話教室で試験導入される。生徒はOtterを使って会話をテキスト化し、レッスンの復習ができる。テキストをクリックすれば、音声の再生もできる。さらにNTTドコモ、Otter.ai、ベルリッツは、英語教育にその協力関係を拡大し、英語学習をOtterでどれだけ効率化できるかを検証すると、話していた。

「日本市場は、高品質で詳細な議事録を求めており、OtterのAIを使った非常に正確な文書化機能は、言葉の壁を取り除き、日本企業のグローバル事業の効率性を高めます」と、NTTドコモのR&D戦略部長でイノベーション統括部長兼務、執行役員の大野友義氏は、今回の契約に関する声明の中で述べている。「Otter.aiとNTTドコモの翻訳サービスには、大きな市場機会があります」

NTTドコモはまた、東京ビッグサイトで1月23日と24日に開催されるDOCOMO Open House 2020で、Otterのデモンストレーションを行う。そこではOtterが英語をリアルタイムでテキスト化し、NTTドコモの機械翻訳技術を使って日本語化する。テキスト化された英語と翻訳された日本語が大きな画面に表示され、来場者が読めるようにする。

Otterのテキスト化機能は、周囲が騒がしかったり、話し手の声がくぐもっていたりするといった現実の現場では完璧性は失われるが、大きなイベント会場でも、音源から直接入力できる設備があれば精度は上がる(TechCrunchでも、TechCrunch DisruptでOtterのサービスを利用し音声をテキスト化したことがある)。

今回調達した資金は、技術者の増員と、音声認識、ダイアライゼーション、話者の識別、自動要約のためのAI技術の強化にも使われると、リアン氏はTechCrunchに話してくれた。さらに彼らは、業務用サービス、メディア、教育分野の企業顧客の獲得を加速する考えだ。

[原文へ]
(翻訳:金井哲夫)

自然言語理解APIを開発するヘルシンキの「Speechly」が2.4億円を調達

音声認識と「自然言語理解」の経験豊かな専門家チームを誇るヘルシンキのスタートアップ「Speechly」(スピーチリー)が、200万ユーロ(約2億4000万円)のシード資金を調達した。この資金で、開発者がプロダクトに音声UIを簡単に組み込めるようにしていく。

このラウンドはベルリンのCherry Venturesが主導し、Seedcamp、Quantum Angels、Joyance Partners、Social Starts、Tiny.vc、King.comにエグジットしたNonstop Gamesの共同創業者であるJuha Paananen(ジュハ・パーナネン)氏、Algoliaの創業者であるNicolas Dessaigne氏(ニコラス・デサイン)が参加した。Speechlyはこの資金を活用して、音声に関する専門家でなくても音声対応のアプリを作れるようにするためのAPIの開発をさらに進める。

Speechlyの共同創業者でCEOのOtto Söderlund(オットー・セーデルランド)氏はTechCrunchに対し、「ここ数年、音声の可能性は示されてきたが、キッチンタイマーをセットしたりSpotifyを再生したりする以上の真のブレイクスルーはまだ見られない。音声アシスタントプラットフォームが現在抱える根本的な問題は、ユーザーの複雑なリクエストやニーズに応えられないことだ」と語った。

セーデルランド氏によれば、Speechlyのソリューションは自然言語理解と音声認識を「革新的な方法」で組み合わせるもので、開発者は「極めて反応が早く、シームレスでマルチモーダルなユーザーエクスペリエンス」を作り、ユーザーが複雑な意図を表現したときに適切にガイドできるようになるという。

「友人にちょっと面倒なことを説明するのに、電話越しでは難しくても顔を合わせて話せばずっと簡単な場合がある。この違いは想像できるだろう」と同氏は語る。

Speechlyはこれを実現するために専用の音声認識技術を「イチから」設計し、既存のプロダクトよりずっと広範囲の音声関連ユーザーエクスペリエンスをサポートするという。

音声アプリが複雑な意図をもっと理解できるようにするだけではない。Speechlyは音声のビジネスケースに関する問題も解決しようとしている。同社は、アマゾンのAlexaやアップルのSiriといった現在の音声アシスタントプラットフォームは「他人のエコシステムの中で動作し」、貴重なユーザーデータを共有することを企業に対して強いていると主張する。

さらにSpeechlyは、現在のSDKとAPIは複雑すぎる、あるいは開発者はエンドユーザーのエクスペリエンスを十分に制御できないとも述べている。

さらにセーデルランド氏は次のように語った。「グーグル、アマゾン、マイクロソフト、アップルに加え、独自の音声言語理解(SLU)技術を開発している企業やスタートアップもいくつかある。我々も独自の技術を持っていて、独自のSLU技術を持っている企業が競合と考えている。しかし競合各社が主に提供しているプロダクトは、Siriがどんなものかを考えればわかるように、双方が順番に話す古典的な会話エージェントの比較的単純な延長線上にあるものだと我々は見ている。我々は音声UIの新しいビジョンを提供したい。それは、反応の良いマルチモーダルなフィードバックでユーザーをリアルタイムで「ガイド」し、もっと難しいタスクを解決するというものだ。我々のプロダクトで実現しようとしているこのビジョンは、ほかにはないと思う」。

[原文へ]

(翻訳:Kaori Koyama)

2020年はAI利用の対話型音声広告がブレーク、Instreamaticに注目

テクノロジー界ではAlexaとGoogle Homeデバイスが登場して音声時代が本格的にスタートしたと見られている。2020年には検索の半分がスマートアシスタントなどを利用した音声になると推定されている。若い世代ほど音声検索を使う、ある調査ではティーンエージャーの55%が毎日音声検索を利用していることを考えればこのトレンドは進行する一方だ。

TechchCrunchでは2年前に「2022年までに米国だけでもスマートアシスタントの普及は世帯の55%に達する」というレポートを紹介した。このことは音声によるオンラインショッピングのマーケットの爆発的に成長することを意味している。音声アシスタントとスマートスピーカーの普及は向こう数年で音声経由の消費額を20倍にすると予測されている。スマートデバイスは家庭だけでなく自動車にも搭載されるようになると見られており、これがさらに追い風になるだろう。

音楽からドラマ、映画、ポッドキャストまでデジタル・メディア全体がストリーミング化していることもあり、 オーディオは巨大なブルーオーシャンだ。しかしブランドはこのトレンドに追いつくために苦闘している。それはオーディオで収益化する方法を発見するのが困難なためだ。

こうした中、東欧の音楽ストリーミングのパイオニアであるZvukの共同創業者の1人は、世界中の音楽ストリーミングサービスがどれひとつとして黒字化を達成できていないことに着目した。ユーザーが有料のサブスクリプションへ移行する率は低すぎ、広告主もストリーミングのユーザー体験を悪化させ、現実の購入行動に結びつけるのが難しい音声広告にさほど期待していないからだ。

そこで元Zvukのチームは米国サンフランシスコでInstreamatic(インストリーマティック)をスタートさせた。このスタートアップはスユーザーがトリーミングに挿入される音声広告と音声で会話できる機能を提供する。AIを利用した音声レスポンス機能により音声広告がおなじみのAlexaのように反応するようになるのだ。

 

これまでの音声広告は、伝統的なテレビ、ラジオのCMと同様、一方通行でありデジタル化のメリットが生かせていなかった。しかし双方向AI広告によって消費者と自然に対話できるようになれば効果は大きいだろう。Instreamaticのようなテクノロジーを利用するブランド、パブリッシャーはユーザーの行動履歴から推測して関連性が高いと思われる音声広告を挿入し、エンゲージメントの内容を処理、分析することができる。

またユーザーからの反応を受け取ることができるため、ブランドの広告戦略のオプションが増える。たとえばユーザーが広告に対して「興味ない。この広告は聞きたくない」などのネガティブな反応を返してきたとき、ブランドはこのユーザーに対する広告挿入を一切ストップすることもできるし、コミュニケーション戦略を変更してまったく新しい広告、ないし別製品の広告を挿入してみることもできる。Instreamaticはユーザーの反応を理解し、その後の広告を事前に検討されたシナリオに沿ってカスタマイズすることが可能だ。

スマート音声広告のライバル、AdsWizzはユーザーが挿入された音声広告に興味を持った場合、スマートフォンを振って意思を伝えることができる。最近の調査によると、この場合の反応率は3.95%だった。

これに対してInstreamaticの音声対話方式は興味ない広告をスキップさせ、興味ある広告には詳細を尋ねるなどより自然なユーザー体験を与えることができる。調査によれば13.2%という高いエンゲージメント率を得られたという。

ビジネスモデルとしては、音声広告から売上が発生した場合、広告主はパブリッシャーに対して一定のコミッションを支払うというものだ。Instreamaticはパブリッシャーから売上に比例するライセンス料を得る。

Instreamaticは、現在インド最大の音楽ストリーミング・サービスであるGaanaとパートナー契約を結んでいる。GaanaはInstreamaticのテクノロジーをプラットフォームの一部に組み込む予定だ。Instreamaticは米国のオーディオストリーミングプラットフォームのTriton Digitalとも契約している。Instreamaticは今後、PandoraJacapps、 Airkast、SurferNETWORKなどのストリーミングサービス各社にテクノロジーを提供していく。

パートナーを通じて、同社は米国に1億2000万人、ヨーロッパに3000万人、アジアに1億5000万人のアクティブユーザーを持つという。

Instreamaticは現在サンフランシスコとロンドンにオフィスがあり、モスクワにエンジニアリング・チームを置いている。CEOで共同創業者のStas Tushinskiy(スタス・ツシンスキー)氏はInstreamaticを開設するために米国に移ってくる以前、ロシアにおけるデジタル音声広告のパイオニアだった。同社の共同創業者で国際ビジネス開発の責任者であるSimon Dunlop(サイモン・ダンロップ)氏は、Bookmateと呼ばれるサブスクリプションベースの読書プラットフォームの創業者であり Zvukの共同創業者でもある。

画像:Getty Images

原文へ

(翻訳:滑川海彦@Facebook

Pandoraが対話できる音声認識広告のテストを開始

音楽ストリーミングサービスを運営するPandora(パンドラ)は、リスナーの声に反応する新型広告のテストを開始した。この新しい広告では、質問の後に音が鳴り、リスナーは「イエス」と答えるよう促される。その後、広告は質問に即した製品やブランドの詳細を説明する。

この広告のテストに参加する最初の広告主には、Doritos(ドリトス)、Ashley HomeStores(アシュレイ・ホームストア)、Unilever(ユニリーバ)、Wendy’s(ウェンディーズ)、Turner Broadcasting(ターナー・ブロードキャスティング)、Comcast(コムキャスト)、Nestlé(ネスレ)などが名を連ねている。

広告はまず、どこの広告か、そしてそのように働くかを説明する。そして、簡単な短いメッセージの後に質問が伝えられ、リスナーの返答を待つ。

例えばウェンディーズの広告では、お腹が空いているかどうかをリスナーに尋ねる。「イエス」と答えると、何を食べたらよいか、お勧めのメニューを広告が教えてくれる。DiGiorno(ディジョーノ)のピザの広告では、ピザにまつわるジョークのオチを聞きたければ「イエス」と言ってほしいとリスナーにねだる。Ashley HomeStoresの広告は、良質な睡眠をとるコツを伝授する。などなどだ。

この新形式の広告は、Pandoraの音声技術を応用している。これは今年の初めにローンチされた同社のスマート音声アシスタントアプリであるVoice Mode(ボイス・モード)を支えている技術でもある。Voice Modeは、Pandoraのユーザーが手を使わずに声で音楽の操作ができるようにするためのものだが、この音声認識広告は、画面をタップしたり詳しい情報のリンクを開いたりすることなく、手を使わずにリスナーが広告に応対できることを目的にしている。

Pandoraでは、この種の広告は、リスナーの注意を強制的に惹引きつけることで説得力を高められると確信している。企業の広告主からすると、音声認識広告は、どれだけの人に広告がリーチできたかを直接計れる手段となる。従来の、クリックに対応しない言葉が流れるだけの広告では不可能だったことだ。

Pandoraは、このインタラクティブな音声認識広告のテストを、まずはサンフランシスコのアドテック企業であるInstreamatic(インストリーマティック)と行うと今年の4月に発表していた。そのとき、新形式広告のベータテストを第四四半期に行うと話していたが、そのとおりに実施されたわけだ。

この広告は、SiriやAlexaやGoogleアシスタントなどの音声アシスタントに話しかけることを一般の消費者が普通に感じられるようになった今の時期に登場した。Fire TVやAppleTVに話しかけて見たい番組を探したり、PandoraやSpotifyに好きな曲を流すよう声で依頼するといった、音声の命令に対応するサービスへの期待も高まっている。

しかし、インタラクティブな音声認識広告を消費者が喜ぶかどうかは、まだまだ未知数だ。Amazonですら、本来の使い心地が阻害されたと感じたユーザーが離反してしまうことを恐れて、Alexaプラットフォームでの音声認識広告制限している。Spotifyも今年、音声認識広告を行ったが限的的だ。

Pandoraの場合、ユーザーは質問に応じる必要がない。ユーザーが数秒間黙っていたり「ノー」と返事したときは、そのまま音楽の再生に戻るとのこと。

Pandoraは、この広告はPandoraアプリのごく一部のユーザーに米国時間12月12日から流されると話している。

[原文へ]

(翻訳:金井哲夫)

GoogleのAI音声認識の自動文字起こしがPixel 3/3aでも利用可能に

Pixel 4が発表された10月のGoogleのハードウェアイベントで強く印象に残ったデモが、AI音声認識を利用した自動文字起こしアプリだ。このRecorderアプリは最新のAIテクノロジーを利用してユーザーの音声を聞き取り、リアルタイムでテキストを生成するもので驚くほど誤りが少なかった。残念なことにこの時点ではRecorderは新しいPixel 4専用のアプリだった。

Android Policeが発見したところによれば、RecorderはPixel3/3aなど以前のPixelデバイスのユーザーにも利用可能になっているという。このアップデートは米国時間12月5日に行われたもようで、Sensor Towerも確認している。ただしGoogleからの告知がなかったため、ダウンロード数はまだ1000回以下だ。

voice recorder

GoogleではRecorderアプリを広い範囲で利用可能にするつもりだと以前から明らかにしていた。最近のRedditのスレッドで、Googleの担当者は「今後のアプリのアップデートでさらに広い範囲のPixelユーザーが利用できるようになる」と述べていた。ただし日時については明らかにしなかった。

ボイスレコーダーは無数に出回っているが、リアルタイムで文字起こしができるアプリは非常に少ない。Otter.aiのように文字起こしをサポートする場合でも、結果には間違いが多く意味が取りづらい文章になっていた。ただ正確性を欠くにせよ、長い録音で目的の箇所を検索するには文字起こし機能は便利だった。

Googleの10月のイベントのデモではRecorderアプリの文字起こし精度は従来のアプリとは比べて非常に高かった。もちろんこの時点ではまだ一般公開されていなかったわけで、異なる声質、訛り、背景雑音であっても精度を維持できるかどうかは不明だった。また発言者を区別してマーキングする機能がなかった。これは会議やインタビューなど発言者が複数となる録音では重要な機能だ。

そういう問題はあっても当初のテストは成功で、ウォールストリートジャーナルのJoanna Stern(ジョアンナ・スターン)氏のレビューは好意的だった。ただし話し方によって多少の問題があったようだ。他のレビューでもデザインに多少問題はあっても機能は強力だという評価が多かった。TechCrunchのPixel 4のフルレビューでも文字起こし機能がテストされており、Brian Heater(ブライアン・ヒーター)記者は高い点数を与えている。

pixel voice recorder

まだ多少の欠点はあるにせよ、Recorderがライバルに比べて大きく有利なのはオフラインで作動可能だというだ。録音、文字起こしはすべてデバイスのアプリ内で完結する。ユーザーが明示的に転送しない限りデバイスの外に内容が漏れることはない。これはセキュリティ上非常に重要な要素となるが、同時に飛行機の中や屋内で携帯網に接続できない状態でも利用できることを意味する。

また組み込まれている「高度な検索」機能を利用すると特定の単語、フレーズ、音を検索キーにできる他、録音中のどの箇所で発言されたのかも表示されるので再生したい場所に素早くジャンプできる。

Googleはリアルタイム音声認識、文字起こしの機能をこれまでさまざまな場所で利用してきた。例えば、Live CaptionはYouTubeの字幕生成機能に似ているが、ユーザーのAndroidデバイスに保存されたビデオやオーディオのファイルからリアルタイムで字幕を起こせるテクノロジーだ。

Recorderアプリは無料でGoogle Playからダウンロードできる。

我々はGoogleに「Pixel以外のAndroidデバイスでRecorderを利用できるようにする計画があるか?」と問い合わせているが、まだ回答がない。

【Japan編集部追記】アプリは上のリンクからPixel 3にインストールできる(Pixel 3のPlay Storeから検索しても表示されない)。インターフェイスは日本語化されており、録音も正常にできる。なお、自動文字起こしも英語では非常に高精度で実行されたが、日本語音声にはまだ対応していないようだ。

原文へ

(翻訳:滑川海彦@Facebook

GoogleがProject Euphoniaの包括的な音声認識を支えるAIの詳細を発表

アクセシビリティに向けた新たな取り組みの一環として、Googleは5月のGoogle I/OでProject Euphonia(プロジェクト・ユーホニア)を発表した。これは標準的ではない発声を行う人や、障害を持つ人の発話を理解する音声認識を開発しようとする試みである。同社は、この新しい機能を可能にしてくれるAIの一部を説明する投稿とその論文を公開した。

問題を理解することは簡単だ。筋萎縮性側索硬化症(ALS)などの変性疾患によって生じる運動障害を持つ人の話し声は、単純に既存の自然言語処理システムでは理解されないのだ。

その様子は、自らも発話に問題を抱えるGoogleリサーチサイエンティストのDimitri Kanevsky(ディミトリ・カネフスキー)氏が、Googleのプロダクトの1つと対話しようとする以下のビデオの中に見ることができる(最後には関連する仕事であるParrotronの助けを借りている)。

研究チームはこのプロジェクトを次のように説明している。「ASR(自動音声認識)システムは、ほとんどの場合、『典型的な』音声を使ってトレーニングされています。つまり、発話障害や強いアクセントを持っていたりする少数派のグループは、同じような利便性を受けることができません。現在の最先端のASRモデルは、ALSによって中程度の発話障害しか持たない話者に対して高い単語エラー率(WER:Word Error Rates)を示し、実質上ASRに依存する技術の利用が不可能になっています」。

少なくとも、一部をトレーニングセットのせいにしていることは注目に値する。これは人間を識別したり、それどころか単に人間がいるか否かを判別するような他の場合でも、AIを高いエラー率へと導く可能性のある、暗黙的なバイアスの1つなのだ。肌の黒い人たちのような主要なグループを含めなかったというミスも、 癖をもった発話を行う人たちを含めなかったというミスも、どちらもより包括的なソースデータを使うことで解決を図ることができる。

Googleの研究者たちにとって、それはALSを持つ人たちから何十時間にもわたる音声を収集することを意味していた。だが、ご想像のとおり各人はそれぞれの状態によって異なった影響を受けているために病気の影響に対応することは、例えば単なる一般的ではないアクセントに対応することとは同じプロセスではない。

関連記事:Google I/Oはアクセシビリティ強化に全力、聴覚障害者にも電車でYouTubeを見るにも便利

標準的な音声認識モデルをベースラインとして使用し、いくつかの実験的なやり方で微調整して、新しい音声を使ってトレーニングを行った。これだけでWERが大幅に減少し、オリジナルのモデルに対して比較的少ない変更で対処することができたのだ。これが意味することは、新しい音声に対して調整する際にも、あまり強力な計算パワーを必要としないということである。

研究者は、特定の音素(「e」や「f」のような個別の音)に対してモデルの混乱が続くときに、2種類のエラーがあることに気がついた。1つ目は、意図されていた音素が認識されないため、単語も認識されないという事実があるということ。そして2つ目は、モデルは話し手が意図した音素を推測する必要があり、2つ以上の単語がほぼ同じように聞こえる場合は間違った音素を選択する可能性があるということだ。

特に2番目のエラーは、インテリジェントに処理できるエラーだ。例えば話者が「I’m going back inside the house」(家の中に戻ります)と言った際に、システムがbackの「b」とhouseの「h」を認識できなかったとしても、それが「I’m going tack inside the mouse」(ネズミの中を鋲で留める)と言うつもりだったという可能性は低いだろう。AIシステムは、人間の言語およびあなた自身の声または話している文脈に対する知識を利用して、ギャップをインテリジェントに埋めることができる。

しかし、そのためにはまだまだ研究が必要だ。現時点におけるチームの成果については、来月オーストリアで開催されるInterspeechカンファレンスで発表される予定の「Personalizing ASR for Dysarthric and Accented Speech with Limited Data」(限られたデータのもとで行う、構音障害とアクセントの強い発話に向けた自動音声認識のパーソナライズ)という論文で読むことができる。

[原文へ]

(翻訳:sako)

GoogleのProject Euphoniaは発話障がい者の話し言葉の認識を目指す

発話障がいのある人は、AIを活用した音声認識テクノロジーを利用できない。Googleはこの課題に挑んでいる。

5月に開催されたGoogle I/Oで、GoogleはProject Euphoniaを公開した。これは発話障がいのある人などさまざまなタイプの話し言葉をAIによって認識できるようにしようというプロジェクトだ。

GoogleのCEO、Sundar Pichai(サンダー・ピチャイ)氏はGoogle I/Oで次のように語った。「発話障がいのある人や脳卒中の後遺症で発話に影響を受けている人、ALSの人たちをサポートしたいと考えている。Google ARの研究者たちが、一人ひとりに応じたコミュニケーションのモデルに関するアイデアを探っているところだ。そうしたモデルによりさまざまなタイプの話し言葉をもっと認識できるようになるし、AIは話し言葉でコミュニケーションをとることのできない人の助けにもなるだろう」。

Pichai氏は「現在は、発話障がいがあると音声認識のテクノロジーを利用できない。十分な量のデータセットを集めている人がいないからだ」と説明する。Project Euphoniaはこの領域に踏み込んでいく。

Googleは、非営利団体のALS Therapy Development InstituteやALS Residence Initiativeの協力を得て、ALSの神経変性疾患を発症している人の話し言葉を集めている。

「将来、こうした音声認識モデルをGoogle Assistantに取り入れられるよう、我々は懸命に取り組んでいる 」とPichai氏は語る。

しかしそれを実現するには、もっとたくさんのトレーニングデータが必要だ。Pichai氏は、発話が困難な人はここから音声のサンプルを提供してほしいと呼びかけている。

画像:Screenshot

[原文へ]

(翻訳:Kaori Koyama)

Google I/Oはアクセシビリティ強化に全力、聴覚障害者にも電車でYouTubeを見るにも便利

マウンテンビューの本社に隣接するアンフィシアターで開幕した今年のGoogle I/Oでは驚くほど長い時間がアクセシビリティの改善に関連する発表に振り向けられた。ライブキャプションなどの新機能はすべて発話とテキストを相互変換するテクノロジーの改善をベースとしている。

テクノロジーとして特に注目すべきなのはこうした音声ベースの自然言語処理の一部が、クラウドとデータをやり取りすることなく、デバイス上で直接実行できるようになった点だ。

Androidの新しいアクセシビリティ機能は聴覚などに障害を持ったユーザーの生活の質を大きく改善するはずだ。ライブトランスクリプションは音声による発話を認識してリアルタイムでテキストに起こす機能だ。また逆に音声合成によりテキストをリアルタイムで音声化することもできる。

音声入力機能はGoogleが以前から重点項目として挙げていた。機能として単純だがスピードと精度が高くなれば非常に役立つツールとなる。 現在でもAndroid上でアプリを起動しマイクのアイコンをタップすると音声を聞き取ってテキスト表示してくれる。

現在でもOne Miniなど音声入力、音声出力による機械通訳デバイスが利用できるようになっている。昨日のMicrosoftのBuildカンファレンスでもミーティングの内容をテキストに起こすアプリが発表されていた。こうした機能の必要性ははっきりしており、むしろなぜもっと早く実現しなかったのかというほうが興味ある問題だ。

実は自然言語認識システムはかなり以前から実用化されていたが、特定のユーザーが静かな環境かつ一定のボキャブラリーで話す内容の聞き取りにとどまっていた。これに対して不特定多数のユーザーが雑音の多い駅やカフェで友だちと自由に会話するのを認識するのは非常に困難な作業だった。リアルタイム通訳となれば当然複数のユーザーの話す内容を聞き取らねばならない。出力も自然な音声合成が必要となる。これらを商品として実用に耐えるレベルにまで改善するのは控え目に言ってもチャレンジだった。

今回のアップデートでは音声認識にさらに新しい機能が追加された。これはライブキャプションといい、上に述べた音声認識テクノロジーをビデオに適用してリアルタイムで字幕を表示できるものだ。ユーザーはYouTubeビデオを見ながら登場人物が何を言っているのかリアルタイムで字幕で見ることができる。これはビデオメッセージ、ボイス・メッセージにも利用できる。

この機能は聴覚にハンディキャップがある人々に便利なのは当然として、対象言語の聞き取り能力が不足しているが音声をテキスト化してもらえば判読できるという何千万人ものユーザーにとっても朗報だ。あるいは職場や交通機関内で音声をミュートしてビデオを見るときにも使える。ベッドでビデオを見ながら眠ってしまいそうなときも音を消して字幕にしてしまえれば好都合だ。リアルタイムで自然言語を認識しテキスト化する能力が使える場面はこれ以外にも無数に考えられる。

Gif showing a phone conversation being captioned live.

サンダー・ピチャイCEOによれば通話へのライブキャプションの適用は「まだ開発途上」ということだったが、「ライブリレー」というデモがステージで披露された。ユーザーが聴覚にハンディキャップがあるか、いろいろな理由でうまく発話できない場合、通常の音声通話はほとんど意味ないものとなる。しかしライブリレーが実用化すれば着信ないしマイクで入力された音声をライブでテキスト化して表示、あるいは送信できるようになる。

ライブキャプションはAndroid Qの機能として実装される。デバイスによって機能の一部に制限が生じる可能性はある。ライブテキスト化は現在でも利用できるが、まだベータ段階だ。ライブリレーは上述のように未公開だが、デモの完成度から判断すると公開される時期はそう遠くないはずだ。

【Japan編集部追記】ソースネクストから販売されているリアルタイム翻訳デバイス、ポケトークは複数の音声認識エンジンを利用しており、日本語/英語翻訳のエンジンはGoogle翻訳をカスタマイズして利用している。

原文へ

(翻訳:滑川海彦@Facebook

Googleの新音声認識はオフライン化されて高速に、Pixelで利用可能

音声認識は最近のスマートフォンの標準的機能だ。人工知能を利用した分析は驚くほど正確なこともあればひどい混乱に陥ることもある。しかし最大の問題は、Siri、Alexa、Googleアシスタントなどが返事を返してくるのが遅れることだ。Googleの最新の音声認識は完全にオフラインで動作するため遅延を完全に排除できる。ただし認識失敗はやはりときおり起きる。

遅延がなぜ起きるのかといえば、ユーザーの音声データはローカルデバイスからネットワークを通じてはるばる音声認識エンジンが存在するサーバーまで旅しなければならないからだ。データはそこで分析されてからユーザーに戻される。当然ながらこれには時間がかかる。応答を待つ時間はミリ秒単位ですむ場合もある。しかしまるまる数秒かかることあり、そうなればユーザーは苛立たしい思いをする。最悪の場合、経路の途中でデータの一部が行方不明になり、まるきり応答が返ってこないこともある。

それなら音声認識をローカルデバイス上で実行すればいいではないか?プロバイダーもそれが理想的な解決法だと考えている。しかし音声をミリ秒単位でテキストデータに変換する処理は膨大なコンピューティングパワーを食う。つまりマイクが拾うのは単なる「音」であって「発話」ではない。音声をテキスト化するためには言語と発話が行われたコンテキストに関する膨大な情報が必要だ。

もちろんローカルデバイス上で実行することはできる。しかしユーザーのデバイスの限られたリソースを考えるとクラウドに往復させるより速くはならなかった(しかもデバイスのバッテリーをひどく食う)。だがこれは急速に進歩を続けている分野であり、Googleはそれを可能にした。ただしPixelを持っている必要がある。

Googleの最新のテクノロジーについてはこちらの論文が詳しいが、簡単に要約すれば、Googleはこれまでの音声認識で蓄積された経験を生かして音声分析システムをスマートフォンで高速に作動するくらいいにコンパクト(正確には80MB)にまとめることに成功した。これによりユーザーはほとんd遅延を感じずに発話をテキスト化できるようになった。「their」と「there」などの同音異義表現も新しいシステムは発話終了を待たず、その場で判断できるという。

ただしテクノロジーには今のところ大きな制限がある。まずGoogleのPixelスマートフォン上のGboardアプリでしか作動しない。またサポートする言語は米英語に限られる。つまり実機によるベータテストに近い。Googleでは世界の各言語へのローカライゼーションの必要性を強調して次のように述べている。

ハードウェアコンポーネントの標準化とアルゴリズムの進歩という業界のトレンドを考えれば われわれが実現したテクノロジーが広く採用され、多くの言語、アプリが近くサポートされるようになるものと期待している。

しかし考えてみるとGoogleの他のアプリは大部分クラウド接続を必要とする。できた文書を共有したりメールで送信したりするのはもちろん、摂氏温度を華氏温度に換算するのでさえネットワーク接続が必要だ。接続状態が貧弱な場合オンラインでは音声認識が不可能な場合がある。またオフラインであればデータ伝送量を食わないですむ。こうした点は大進歩だ。

画像:Bryce Durbin/TechCrunch

原文へ

(翻訳:滑川海彦@Facebook Google+

ドメインを限定してより有能な音声対応AIを作ろうとするWluperがシードで$1.3Mを調達

音声アシスタントなどのシステムにその知識を与える、会話型AIを作っているロンドンのWluperが、130万ドルのシード資金を獲得した。ラウンドをリードしたのは“ディープ・テック”専門のVC IQ Capitalで、これにSeedcamp, Aster, Magic Ponyの協同ファウンダーZehan Wang博士らが参加した。

2016年に創業し、最初はJaguar Land RoverのInMotion Venturesが支援していたWluperの“会話型AI(conversational AI)”は、初めはナビゲーション製品を対象にしていた。同社のAI技術は自称“目標指向の対話(goal-driven dialogue)”と呼ばれ、目標を絞ることにより、従来よりも自然な会話でナビゲーションのさまざまなタスクを支援する。

それを可能にする‘秘密のソース’は、ナビのような音声アシスタントを支えるAIは特定の、狭い、専門的分野のエキスパートになった方が良い仕事ができる、というWluper独自の信念だ。

Wluperの協同ファウンダーHami Bahraynianはこう述べる: “AlexaやSiriのようなインテリジェントなアシスタントも、本当に良いなと感じるのは、それらがユーザーの意図を正しく理解しているときだけだ。しかし実際には、理解していない場合がほとんどだ。それは、音声認識そのものの欠陥ではない。それは、フォーカス(対象、主題、テーマの特定化)を欠いていることと、その種のシステムの共通的な欠陥である論理的判断能力(‘推理’)の欠如だ。彼らはみな、いろんなことをそこそこできるけれども、どれ一つ完全ではない”。

AIが“一般的な”会話能力を持つのは15年か20年以上先と思われるが、そこへ向かうための中途的な目標は、Bahraynianによると、目的を絞った“インテリジェント・エージェント”を作ることだ。

“われわれがやっているのは、まさにそれだ”、と彼は言う。“われわれは、ドメインエキスパート(特定分野の専門家)の会話型インテリジェンスを作っている。それは、一つのことしかできないし、理解しない。でも、たとえば、輸送に関することなら何もかも完璧に知っている”。

この分野特定により、WluperのAIは、ユーザーが言ってることに関する明確な…見当はずれでない…想定ができる。そのため、複雑な質問でも自然に理解する。ひとつのクエリに複数の意図が含まれている場合や、前の質問のフォローアップ質問も理解するので、“本当の”会話ができる、とBahraynianは言う。

さらにまたWluperは、NLPパイプラインの“理解能力”の次に来るべきものとして、マシンの“知識取得能力”に関してR&Dを継続している。会話型AIというパズルが完成するための重要な必須のピースがその能力だ、と同社は考えている。

“自然言語で尋ねられたユーザーのクエリを正しく理解したとしても、適切で有益な情報を正しい場所から取り出して提供することは、それよりもさらに難しい。現在多く使われているルールベースのアプローチでは、応用性がゼロなのでまったくスケールしない”、とBahraynianは付言する。

“この問題を解決するためにわれわれは、従来の手作り的な方法に別れを告げて、マシンの知識取得を最適化するための新しい方法を探している。もっと意味のある結果を返せるためには、定型データと非定型データとの正しいバランスを見つける必要がある”。

そしてWluperのシード資金は、エンジニアとリサーチサイエンティストの増員による、同社の研究開発能力の拡張に充てられる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Alexaをささやき声で使えるようになった、夜のムードを壊したくない人に向いている

先月シアトルで行われたAmazonのAlexaイベントで、EchoなどAlexaデバイスの‘ささやきモード’が紹介された。そのとき見たささやきのデモでは、“子守唄をかけて”とささやくと、AlexaがEchoなど音声アシスタントデバイスにそれを命じる。そして今日(米国時間10/18)、そのWhisper Modeが正式に使えるようになった。

ただし今その機能が使えるのは、アメリカのユーザーのみ、そしてアメリカ英語のみだ。

この機能は、もっぱら静かにしていたい夜の時間とか、床(とこ)についてから寝るまでの時間には便利だ。また、寝ている子どもを起こさずにAlexaに命令したいときも。また一般的に、静かな声で対話をしたい人は、一日中このモードを使うかもしれない。

Whisper Modeは、Alexaにもっと状況(コンテキスト)理解力を持たせようとするAmazonの努力の一環だ。たとえば“play Hunger Games”(Hunger Gamesをかけて)とコマンドしたら、それが画面のあるデバイスだったら映画を、そしてEchoスピーカーならオーディオブックを再生してほしいのだ。

また、Amazonの9月のイベントでは、Echoデバイスにスマートホーム機能を持たせる“Alexa Guard.”が紹介された。これは、音や煙や一酸化炭素を検出し、たとえばガラスが割れる音にも反応する。

Alexa GuardもWhisper Modeも共に、“long short-term memory,”(長・短期記憶)と呼ばれる機械学習ネットワークを利用する、とAlexaの研究開発トップRohit Prasadが説明してくれた。〔参考記事(‘LSTM’で検索を)〕

入ってくるオーディオシグナルは、小さな断片に分割され、long short-term memoryのネットワークがそれらを順に処理していく。同社は9月に、そう説明した。そのシステムは、それまでの断片に関する判断も参考にしながら、その新しい断片が囁(ささや)きであるかアラームであるかを判断する。このようにしてそれは、時間上に並ぶオーディオシグナルの各部分間の構造的(〜意味的)な関係を学習できる、とAmazonは言っている。

同社は先月、Alexaの音声対話が“context carryover”(コンテキストの繰越)と呼ばれるものによって、より自然になった、とも言った。たとえば、“今日は雨が降る?”と尋ねたあとに、“明日はどう?”と問うと、「雨降りについての質問」というコンテキストが次へ繰り越されて、正しく明日の雨について答えてくれる。

そして、最近同社が特許を取った技術を使うと、Alexaがユーザーの健康状態を判断して薬を売ろうとする。たとえば咳止めドロップとか。このシステムは、喜び、怒り、悲しみなどの感情も検出する、とAmazonのレポートは言っている。

あなたのAlexaデバイスにWhisper Modeが来ているか知るためには、それを有効にしてみること。

Whisperは、アカウントの設定で有効/無効にするから、Alexa AccountからメニューをたどるとWhispered Responsesに行き着く。あるいは音声で“Alexa, turn on whisper mode”(Alexa、ささやきモードを有効にして)、と言ってもよい。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google Cloudが音声↔テキストAPIを大幅アップデート、WaveNetでより自然な音声を

Google CloudのText-to-SpeechSpeech-to-Text APIが今日(米国時間8/29)、大量のアップデートを行い、サポートする言語を増やし、いろんなスピーカーからの自動生成音声を聴きやすくし、スピーカーの音声認識ツールを改良してテキスト書き起こしの精度を上げる、などの機能向上を導入した。

このアップデートにより、Cloud Text-to-Speech APIが一般的に可利用になった。

多くのデベロッパーにとっていちばん魅力的なのは、17の新しいWaveNetベースの音声が複数の新しい言語でローンチしたことだろう。WaveNetはGoogle自身の技術で、機械学習を使ってテキスト読み上げのオーディオファイルを作る。その結果、より自然に聞こえる音声になった。

このアップデートで、Text-to-Speech API(テキスト読み上げAPI)は今や14の言語とそれらの変種をサポートし、標準音声30とWaveNetの音声26を揃えている。

ここへ行くと、今回加わった新しい音声も含め、自分のテキストでGoogleのデモを試すことができる。

新しい機能の中では、オーディオプロフィールもおもしろい。これは、再生するメディアに合わせてオーディオファイルを最適化する機能だ。たとえば、スマートフォンのスピーカーとテレビの下にあるサウンドバーでは、音が違うだろう。オーディオプロフィールを使うと、音声を、電話の通話やヘッドフォンやスピーカーなどなどに合わせて最適化できる。

[元の音声と最適化の結果]

Speech-to-Text(書き起こしAPI)の方では、複数のスピーカーからの音声をより正しく書き起こせるようになった。機械学習を使っていろんなスピーカーを認識し、ひとつひとつの語にスピーカー番号のタグをつける(スピーカーの数は人間が指定する)。たとえばスピーカー2つのステレオファイルなら、それぞれの言葉の出どころを区別できるし、怒った顧客がカスタマーサポートに電話をしている音声なら、やはり各語の話者を識別できる。

複数言語のサポートも、新しい。検索には前からあったが、これからはそれをデベロッパーが利用できる。この書き起こしAPIに対しては、最大で4つの言語を指定できる。するとAPIは、今どの言語が喋られているかを、自動的に聞き分ける。

さらに、Speech-to-Text APIは、単語のレベルでの自信点を返す。すでに個々の談話レベルの自信点はあったが、今度からはデベロッパーは単語レベルのアプリ構築ができる。たとえば、“please set up a meeting with John for tomorrow at 2PM”(明日の午後2時にジョンとのミーティングをセットアップしてくれ)に対して‘John’や‘2PM’の自信度が低ければ、ユーザーにそれらを二度繰り返させるアプリを書けばよい。‘please’の自信度が低くても、それは重要でない単語だから、そのままでよい。Googleのチームは、そう説明している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

BMW、車載システムにAlexaを導入――音声だけでなくビジュアルも

BMWが数日中にAmazon Alexaのドライバー向けサポートを開始しようとしている。これまでBMWは、Alexaを筆頭にCortana、Google Assistantなどの音声アシスタントの導入計画について語っていたことから、このニュース自体は大きなサプライズというわけではない。しかし私は、車内でAlexaを使うとは一体どういうことなのかを実際に体験するため、ドイツ、オーストリア、アメリカ、イギリスでのオフィシャルローンチ(その他の地域でも近日中にローンチ予定)を前に、ミュンヘンへ飛んだ。

BMWでデジタル・プロダクト担当SVPを務めるDieter Mayは、今年の初めに、同社の車内デジタルアシスタントは、「カップホルダーに入ったEcho Dot」を凌駕するものでなければいけないと語っていた。つまり、デジタルアシスタントが車内での体験や車に搭載されているその他のテクノロジーと深く結びついていなければいけないということだ。先に結論を言うと、BMWは自分たちの考えをしっかりと形にできていた。それもかなりのレベルで。

おそらく私が一番衝撃を受けたのは、BMWのデジタルアシスタントとのコミュニケーションは音声インターフェースのみに留まらないという点だ。BMWはAlexaの視覚的なレスポンスにも対応するため、AmazonのAlexaチームと直接やりとりをしており、BMWのほとんどの新モデルに搭載されている、コンソール上部のタブレットのようなディスプレイを活用することで、BMWのデジタルアシスタントは単に質問の答えを読み上げるだけでなく、必要に応じて追加情報やグラフなどを表示できるようになっているのだ。そのためBMWのAlexaは、Echo DotよりもEcho Showを使っている感覚に近い(もちろんディスプレイ上で動画を見ることはできないが)。

私がデモを試したのは、Alexに対応するため特別に手を加えられたBMW X5(2015年製)で、例えば天気について尋ねたり、質問に対してウィキペディアの情報が返されたりすると、ディスプレイが自動的に起動するようになっていた。

素晴らしいのは、Alexa経由の情報にも、その他の車載システムと同じデザインが適用されているところだ。つまりAlexaが表示する天気予報は、BMW独自のConnectedDriveシステムが表示する天気予報とまったく同じ見た目をしているのだ。唯一の違いといえば、Alexaからの情報にはスクリーンの左上に「Alexa」という文字が表示されるくらいだった。

簡単に聞こえるかもしれないが、これを実現するためにBMWは相当Amazonと交渉を行ったはずだ。特にBMWのデジタルアシスタントのユニークなところである、2つ目のポイントに注目するとその意味がわかる。そのポイントとは、ユーザーが「話す」ボタンを押して質問を投げかけると(新しいモデルだとウェイクワードでもOK)、その質問がまずBMWのサーバーへと送られ、それからAmazonに送信されるという点だ。BMWは自分たちでデータをコントロールすることで、ユーザーのプライバシーを守りたいという考えから、このプロキシサーバを中間に置くことにしたのだという。そのため、Alexaからのレスポンスには、通常よりも少しだけ時間がかかるが、BMWチームはできる限りこのラグを短くできるよう努力を続けている上、デモを体験しているときは正直そこまで気にはならなかった。

担当チームによれば、彼らが最初に取りかかったのは、ユーザーのクエリを正しいサービスへと振り分ける仕組み作りだったという。すでに多くの車には、カーナビゲーションで目的地を設定するときなどのために、音声認識システムが搭載されている。しかしAlexaが搭載されると、ユーザーの「Alexa」という呼びかけに反応して、そのクエリをAlexaサーバーへとルートしなければいけない。また彼らは、いかにAlexaがBMWのシステムと深い部分で連携しているかを強調する。「私たちのシステムは、単にスマートフォンから情報をストリーミングしているわけでもなければ、周辺機器のように追加サービスとして上乗せされているわけでもない」と広報担当者は語る。

「ユーザーはBMWに期待する深いレベルでの統合を体験できる。そのために私たちは通信モジュール(SIMカードカード)をはじめとする、既存の車載システムを活用している」

Alexaのオープンなエコシステムの強みのひとつはスキルだ。もちろんすべてのスキルが車内で使うのに便利というわけではなく、中には運転中は邪魔に感じられるものもあることから、BMWのチームは車内で使えるスキルのリストを現在準備している。

BMWはAmazon以外にもMicrosoftと協業を進めており、BMWのクラウドサービスの多くはAzure上で管理されている。BMWによれば、AlexaとCortanaにはそれぞれの良さがあり、CortanaであればプロダクティビティやOffice 365との連携などがその利点なのだという。ということは近い将来、車内でAlexaとCortanaの両方できるようになるかもしれない。だからこそ、BMWは音声コマンドのルーティングの仕組みを築き、音声データを自分達でコントロールしようとしているのだろう。

さらにBMWは、ユーザーの利用状況に応じてこのデジタルアシスタントを改善していく予定だと言う。多くの機能はクラウド上で動いているため、アップデートは簡単で、チームは新機能をすばやく導入できるだろう――まるでソフトウェア企業のように。

原文へ

(翻訳:Atsushi Yukutake

ドラッグ&ドロップで簡単にAlexaのスキルを作れるStorylineが77万ドルを調達

Alexaに不満を感じたことは、ないですか? 冗談が通じないし、‘怖い話’をリクエストしても全然怖くない。そこで、会話のブロックをドラッグ&ドロップして積み上げ、誰もが簡単にAlexaのスキルを作れるサービスStorylineが、Boost VCがリードするラウンドで77万ドルを調達し、そのスキルビルダーのAPIをさらに充実させようとしている。

Alexaのような、複雑な音声認識ソフトウェアが動くスマートスピーカーとクリエイターの間には、“テクノロジー”という障壁がある。2017年にローンチしたStorylineが目指すのは、その障壁をなくすことだ。CEOで協同ファウンダーのVasili Shynkarenkaによると、チームとインタフェイスを拡充してGoogle HomeのようなAlexa以外のスマートスピーカーにも対応し、またそのインタフェイスには広告や他サービスへのリンクなど収益化の仕組みを導入したい、という。

Alexaとの対話をドラッグ&ドロップで組み立てられるStorylineのユーザーフレンドリーなインタフェイスは、「コマンド」と「応答」という対話的関係をまさに対話的に構築しカスタマイズできる。スキルやフラッシュブリーフィングを作るためのテンプレートも、いくつか用意されている。作ったスキルの音声認識やロジックを、ブラウザー上でテストできる。

これまで、12000名あまりのユーザーが、Alexa Skills Storeに2500のスキルを発表している。それは、このストアにあるスキルの6%に相当する。Alexa Skills Challenge: Kidsでグランプリを取った作品も、Storylineのインタフェイスを利用している。そして老舗のWebマガジンSlateも、Storylineを使っている。

Shynkarenkaによると、スマートフォンのアプリを作ることと、スマートスピーカーのスキルを作ることは、全然違う。

“Alexaを、スマートフォンやWebと同じようなソフトウェアプラットホームだと考える人が多いけど、そうではない”、と彼は言う。“Alexaで人気のスキルは、友だちとチャットできたり、ソーシャルネットワークを閲覧できるアプリではない。人気が高いのは、コンテンツのアプリだ。たとえば、夕食時に家族と楽しめる雑学クイズなんかだね”。

YouTubeにビデオのクリエイターが群がっているように、Shynkarenkaの構想ではStorylineが各種スマートスピーカー向けのコンテンツのホームになってほしい。同社にはすでに2500人のクリエイターのコミュニティがあり、コンテンツの制作や共有を楽しんでいる。

でも、テンプレートなどを使って簡単にスキルを作れるサービスは、ほかにもある。たとえばご本家のAmazonは、テンプレートからスキルを自作できるAmazon Blueprintsを、4月に立ち上げた。

スマートスピーカーも、それらのスキルの制作も、これからますます活発な世界になりそうだから、今のAlexaなどと違って、もっと完全にカスタマイズできる‘あなただけの’スマートスピーカーも、いずれ必ず登場するだろうね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa