グーグルがコンタクトセンターの音声技術をアップデート

昨年6月にGoogle(グーグル)は、企業が自社のコンタクトセンターをもっと有効利用できるためのAI製品「Contact Center AI」を発表した。Contact Center AIはGoogleのさまざまな機械学習ツールを使って仮想エージェントを作り、エージェントの仕事を助ける。米国時間7月24日に、同社はこのツールのアップデートをいくつかローンチし、その中には特に音声認識機能の改良がある。

Googleによると、同社の自動化音声認識サポートは精度がとても高く、市販製品を導入した顧客がよく不平を言うノイズの多い電話でも正しく解釈する。その精度をさらに上げるために今回のアップデートで、「Auto Speech Adaptation in Dialogflow」(Dialogflowにおける自動音声適応)という機能をローンチした。Dialogflowは、ユーザーが顧客との会話型製品を作るための機械学習を利用したツールだ。今回のこのアップデートで、音声認識ツールは会話のコンテキストを捉えることができ、精度は40%向上したとGoogleはコメントしている。

Speech Recognition Accuracy

また、電話用の新しい機械学習モデルにより、米国英語の場合、短い発言の理解度が従来より15%向上した。またそのほかのアップデートとして、書き起こしの精度向上、訓練プロセスを容易化、エンドレスのオーディオストリーミングに「Cloud Speech-to-Text API」が対応、などがある。後者はこれまで、5分という制限があった。

Googleは、これらのオーディオのMP3を提供しているから、ダウンロードしてCDに焼くといいかも。

dialogflow virtual agent.max 1100x1100[原文へ]

(翻訳:iwatani、a.k.a. hiwa

超音波を使えば、「音」を発せずに音声認識デバイスを騙すことができる

セキュリティ関連技術を研究する中国人研究者が、「音」を発せずに音声認識システムを作動させる方法を開発した。人間には聞こえず、しかしマイクでは検知できる高周波音を用いるのだ。このしくみを用いて、人間には音が聞こえない状況で、さまざまなコマンドを発することに成功したのだそうだ。メジャーな音声認識アシスタントのすべてを操作することができたとのこと。

今回の成果を発表したのは浙江大学の研究者たちで、超音波を用いてコミュニケートするイルカたちにならって、用いた仕組みを「DolphinAttack(PDF)」と呼んでいる。しくみをごく簡単に説明しておこう。

音を発せずに音声アシスタントを動かす仕組み

電子デバイスに搭載されるマイクは、音波によって変化する空気圧に反応する小さくて薄い皮膜を利用している。人間はふつう、20キロヘルツ以上の音を感知できないので、一般的なマイクでも20キロヘルツ以上の「音」に反応しない仕組みが搭載されている。その仕組みはローパスフィルタと呼ばれている。

このローパスフィルタ機能が理論通りに機能すれば、たしかに意図した周波数の音声のみに反応することになる。しかし現実には「ハーモニクス」というやっかいなものが存在する。たとえば400Hzの音は、200Hzあるいは800Hzを捉えるようになっているマイクにも捉えられてしまうのだ(正確な仕組みは端折って、効果についてのみ記している。詳細を知りたい方はWikipediaなどを参照してほしい)。ただし「ハーモニクス」は、もとの音声に比べるとかなり小さく響くようになるもので、通常はハーモニクスの存在がなにか問題を引き起こすようなことはない。

ただ、100Hzの音を拾うマイクに対し、何らかの事情で100Hzのを発することができない事情があったとしよう。この場合、音の大きさを大きくすれば、800Hzの音でマイクを反応させることができるのだ。100Hzの音を発したことをさとられずに、マイクのみに100Hzのハーモニクスを伝達することができるのだ。人間の耳には800Hzの音のみが伝わることとなる。

変調装置の仕組み

研究者たちも、大まかにいえば上に記した仕組みをもちいてマイクにのみ通じる音を発生させている。もちろん実際にはさまざまな複雑なプロセスを経るようになっている。そしていろいろと試してみたところでは、スマートフォン、スマートウォッチ、ホームハブなど、音声に反応するように設計されているデバイスのほとんどが、ハーモニクスに反応したとのことだ。

超音波(黒の音声信号)がハーモニクス(赤の信号)を発生させる様子。超音波の方はローパスフィルタによりカットされる。

最初は単なる超音波信号を発生させる実験を行なっていた。それがうまくいったので、次に500ヘルツないし1000ヘルツの音声信号を生成することにしたのだ。複雑な作業が必要になるものの、しかし基本的には同様の方法で音声信号の生成に成功したとのこと。作業が複雑になるといっても、特殊なハードウェアを必要とするわけではない。エレクトロニクスパーツを扱っている店で手に入る部品のみを用いて実現できる。

超音波から生じた音声は確かに機能し、たいていの音声認識プラットフォームで狙い通りに認識されたとのこと。

DolphinAttackで使う音は、人間には聞こえず、感知することすらできません。しかし音声認識を行うデバイスはこの「音声」に反応するのです。Siri、Google Now、Samsung S Voice、Huawei HiVoice、Cortana、およびAlexaなど、いずれのプラットフォームで動作することを確認しました。

超音波から生成した音声により、簡単なフレーズ(「OK、Google」)から、やや複雑なコマンド(「unlock the back door」―勝手口の鍵を開けて)などを認識させ動作させることができたとのこと。スマートフォンによって通じやすいフレーズや通じにくいものがあったり、超音波を発する距離によっても実験結果が左右されたとのこと。ただし、5フィート以上の距離から発した超音波ーハーモニクスに反応したデバイスはなかったとのことだ。

研究で使用した簡単な超音波ーハーモニクス発生システム。

距離に制限があるということのようだが、しかしそれでも脅威に感じる。感知できないコマンドが発せられ、それによって手元のデバイスが作動してしまうのだ(Wi-Fiにも似たようなリスクがないわけではない)。ただし、今のところは大騒ぎすることもないのかもしれない。

たとえば、音声コマンドによってデバイスを活動状態にする機能をオフにしておくだけで、大半のリスクを避けることができるようになる。音声コマンドを受け付けるのは、デバイスがアクティブな状態にあるときのみになるわけだ。

さらに、たとえスリープからの復帰を音声コマンドで行えるようにしていても、たいていのデバイスでは電話をかけたり、アプリケーションを実行したり、あるいはウェブにアクセスしたりする機能を制限している。天候を確認したり、近くのレストランを表示するようなことはできるが、悪意あるサイトへのアクセスなどはできないことが多い。

また、音声コマンドは数フィート以内の距離から発しなければならないというのが一般的だ。もちろん、知らない誰かがすぐ近くから超音波ーハーモニクス音声をもちいてコマンドを発行することはできるだろう。しかし突然スマートフォンがスリープから復帰して、「モスクワに送金しました」などといえば、ただちに適切な対応をすることができるのではなかろうか。

もちろん危険性がゼロでないのは事実だ。超音波を発することのできる、スピーカーを備えたIoTデバイスがEchoに話しかけて、家のロックやアラームを解除するような可能性だってあるわけだ。

直ちにさまざまなリスクに対応する必要があるというわけではないかもしれない。しかし、電子デバイスに対する攻撃を実行しようとするひとたちに、新たな可能性が開かれつつあるのは事実だ。そのリスクを公にし、日常的に利用するデバイスにて対抗手段を備えることが重要になりつつあるといえよう。

原文へ

(翻訳:Maeda, H

マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

ビールの冷蔵ショーケースのロックにGoogleの音声認識APIを仕込む…あるフレーズを言わないと開かない

 

一部の読者は、ぼくがカナダ出身であることを知っているだろう。その、多くの読者の北の方にある国が意識に上(のぼ)るのは、誰かがラッパーのDrakeやアイドルJustin Bieberの名前を挙げたときだけだろう。その我が国の建国記念日は7月1日、すなわち来週となっておりまして、いくつかのブランドが商機と狙っている。‘カナダビール’のメーカーMolsonもその一つで、でもその手口は、Googleのソフトウェアの力を借りたテクっぽいしろものだ。

その主役はGoogleの音声認識(Speech Recognition)APIで、ほかの通訳サービスでもよいと思うが、なにしろそのAPIは、冷蔵庫に最大で40種類の言語を認識させることができる。その究極の目標は、Molsonの長年のキャッチフレーズである”I am Canadian”を聴き取ることだ。

今回冷蔵庫が認識するのは、40か国語ではなくて6か国語だが、そのフレーズを聴き取った冷蔵庫はロックを外し、お客はMolson Canadianの缶を取り出せるようになる。その、言葉を聴き取る冷蔵庫を作ったのはデジタルスタジオThinkingBoxで、来週(==来月)トロントで行われるPan Amのゲームで初お目見えするらしい。

もちろんこれは、すみからすみまで、マーケティングのためのトリックだが、しかし良くできている。ぼくでさえ、ビデオを見ていて愛国心に駆られてしまった。ただし、Molson Canadianは今でもひどい味のビールだけどね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

音声認識で英語が学習できるブラウザ・ゲーム、Spell UpがGoogle Chrome Experimentで登場

Googleはベータ版一時的プロジェクトとして新たなサービスを提供するのが得意だが、今日(米国時間5/13)はChrome Experimentの一環としてSpell Upという英語学習アプリを公開した。これは音声認識と音声合成を用いてユーザーの英語の上達を助けるブラウザ・ベースのゲームだ。

初級から上級までさまざまなレベルが用意されており、ユーザーはどのレベルから始めることもできる。このゲームの主な目的は語彙力を高めることで、Spell Upという名前もそこから来ている。

ユーザーはブラウザが表示する単語を正しく発音しなければならない。表示された綴りから抜けているするアルファベットを推測したり、綴り変えから正しい単語を推測したりするモードもある。答えはすべてマイクに音声で入力する(私が試したところではこのアプリは英国英語の発音を好むようだ)。

このアプリははロンドンのGoogle Creative LabのXavier Barradeをリーダーとして開発された。最近のChromeの音声認識/合成テクノロジーの進歩が存分に利用されている。

昨年GoogleはChromeでWeb Speech APIを、今年はそれを利用した音声合成をそれぞれサポートした。これによってデベロッパーはユーザーが音声でデータを入力し、それに対してアプリが音声で応答するアプリを開発することができるようになった。Spell Upはこのテクノロジーを利用している。

つまりSpell Upは面白いゲームであり教育アプリであると同時に、音声認識、合成などブラウザ・ベースのテクノロジーがネーティブ・アプリの開発環境に負けず、大きく進歩していることを示すデモの役目も果たしている。またこのプロジェクトが若く、国際的なユーザー層をターゲットにしていることも興味深い。

Barradeによれば、Spell Upはゲームデザイナーと英語教育関係者の協力によって開発されたという。最近の教育アプリはデベロッパー、ゲームデザイナー、教育者の三者の連合が必須となっているようだ。このアプリは主としてデスクトップとAndroidのChrome向けに開発されており、iPhone、iPadで実行すると音声入力が無効になるのでユーザーは回答をキーボードからタイプしなければならない。

現在このアプリは英語だけが対象だが、他の言語にも拡張されれば、英語国における外国語教育にも大いに有益だろう。

Macのノートでしばらくプレイしてみたが、たいへん面白かった。ただし音声認識の反応はやや遅く、私が発音したアルファベットを完全に誤解したことも一度ならずあった。しかし私の子供は喜びそうだし、こういうアプリのためならいくらネットを使ってもらっても構わない。

下はGoogleによる紹介ビデオ。

[原文へ]

(翻訳:滑川海彦 Facebook Google+


Apple、音声認識のパイオニア、Novaurisを買収していた―プロダクトはSiriに組み込み済み

Appleは自動音声認識(ASR= Automatic Speech Recognition)テクノロジーのパイオニア企業の一つ、 Novauris Technologiesを買収していた。

Novaurisの買収が行われたのは昨年らしい。しかしその情報は一切公表されなかった。Novaurisチームは現在Appleの音声認識によるバーチャル・アシスタント、Siriの改良のために活動しているという。買収金額などの詳細は不明だ。

Novaurisは音声テープ起こしの有力企業であるイギリスのDragon Systemsの子会社、Dragon Systems R&D U.K. Ltd.から発展した会社だ。 創立は2002年で、CEOのYoon Kim、共同ファウンダーのMelvyn HuntJohn Bridle (Co-founder)が現在の経営陣だ。BridleはDragon、Nortel,、SRI (Appleが買収したSiriが誕生した場所だ)、Marconi、Aurixでの勤務経験がある。

アップデート: Appleは先ほどNovaurisの買収を確認した。

ただしTechCrunchの取材に対しては「Apple小規模なテクノロジー企業の買収を時折行っているが、通常その目的や将来計画については公表iしないものとしている」といういつものコメントが返ってきた。

またNovaurisのウェブサイトにもAppleによる買収は掲載されていない。しかしわれわれがイギリスのNovaurisのオフィスに電話すると共同ファウンダーのHuntが電話に出て「Appleです」と名乗った。HuntはAppleのために働いていることを認め、Novauris自体はすでに活動を止めていると述べた。

Novaurisは世界的に著名な企業ではないかもしれないが、共同ファウンダーは音声認識の専門家として国際的に知られている。

ライバルに対するNovaurisの優位性は、デバイス上のアプリとサーバ側のアプリの双方を開発していること、コアとなる音声認識エンジンを独自開発していることなどが挙げられる。言うまでもなくこれらはAppleにとって貴重な資産となる。AppleはSiriのテクノロジーを開発したNuanceの買収を試みたことがある。買収は実現しなかっtが、提携には成功した。この提携はよく知られていたものの、Nuanceが提携を公式に認めたのは昨年になってからだった。

Novaurisの音声認識プロダクトはすでにiOS、iPhoneにNovaSearch Compactとして組み込まれている。

Novaurisのウェブサイトによれば、提携先としてVerizon Wireless、Panasonic、Samsung、SingTel、Alpine,BMWなどが挙げられている。たとえばVerizonは2006年からBREWシリーズのデバイスに組み込まれたGet It Nowという音声認識検索”サービスに利用している。

2012年にはPanasonicと提携して“、さまざまな家電製品に音声認識機能をもたせるためのNovaLiteという組み込み用”モジュールを開発した。

Novaurisの音声認識プロダクトはアメリカ英語、イギリス英語を始めとしてシンガポール英語、ドイツ語、カナダ・フランス語、日本語、韓国語、フランス語、スペイン語、メキシコ・スペイン語、イタリア語、ポルトガル語、ブラジル・ポルトガル語、中国普通話など多数の言語をサポートしている

Novaurisのアプリはウェブ検索に加えてApp Store,内のナビゲーションと検索、楽曲や連絡相手などデイバイス内のコンテンツ検索ができる。、また翻訳にも利用できる。.

画像:Novauris

[原文へ]

(翻訳:滑川海彦 Facebook Google+