会話型アプリケーション開発のためのAIプラットホームをCiscoがオープンソース化

通信機器大手のCisco(シスコ)は米国時間5月9日、会話型のAIプラットホームのMindMeldをApache 2.0のライセンスにより、誰もが自由に利用できるように一般公開すると発表した。

MindMeldは、Ciscoが2017年に買収した会話型AIの企業だ。同社はその年の終わりごろに、その技術をCisco Spark Assistantに使用して、ミーティング用ハードウェアで音声コマンドが使えるようにした。当時それは、生まれたばかりの新しい技術だった。

現在、エンタープライズのいろんなユースケースに音声を持ち込む取り組みが至るところで行われており、CiscoはMindMeldのツールセットでデベロッパーにそのための方法を提供している。Ciscoで機械学習のチームを率いているKarthik Raghunathan氏が、ブログでこう書いている。「本日Ciscoは、MindMeld Conversational AI Platformをオープンソースにすることによって、会話型アプリケーションを構築するための総合的で実践的なツールでデベロッパーの能力を高めるための、大きな一歩を踏み出す」。

同時に同社は、デベロッパーにとってそのプラットホームが使いやすくなるための教本、Conversational AI Playbookをリリースする。このステップ・バイ・ステップのガイドブックによりデベロッパーは、会話駆動型アプリケーション開発の、第一歩を踏み出すことができる。Ciscoによると、デベロッパーに力をつけることが最大の目的とのこと。

しかしもちろん、Ciscoの外にいるデベロッパーがこのツールセットを使ってくれることが、同社の最大の関心だ。オープンソースにすれば、Ciscoの顧客やそのほかの企業にいるデベロッパーのコミュニティが、このツールを使ったり、試したり、改良したりしてくれるだろう。それによってプラットホームの開発が早くなり、より広範囲に行われるようになる。Ciscoのような大企業では、全社的な浸透も可能になるだろう。

もちろん、オープンソースにしたらいきなりコミュニティができるわけではない。しかし、音声対応のアプリケーションやシステム製品はその人気が急速に成長しているから、このプラットホームを試してみるデベロッパーが増えることは確実だ。どれだけの人に、より深い関心を持ってもらえるか、それは今後のCiscoの努力次第だ。

Ciscoはこのプラットホームのすべてを、同社のデベロッパーネットワークDevNet上で今日から提供開始する。

関連記事: 音声インターフェースがビジネス向けに進出中

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

人間が犯す言葉の聞き間違いをAIは正してくれるか?答はノーだ

昨日(きのう)(米国時間5/17)までの二日間、ヤニー/ローレル(yanny/laurel)論争に加わらなかった人は、本当に幸せ者だ。でも、それもそろそろ時間切れ。口コミで広まった合成音声がAIへの誇大な過信にぶつかり、そしてその結果は、この俗世のすべてがそうであるように、幻滅だった。

AIによる音声認識ソフトウェアを作っているSonixが、その曖昧な音の断片を、GoogleとAmazonとIBM Watsonと、そしてもちろん自社の、文字書き起こしツールに与えてみた

GoogleとSonixは最初からうまくいった。ちなみに、正解は“laurel”だ。yannyではない。 Laurelだよ。

しかしAmazonは、そのロボット的な声に対して、何度やっても“year old”を出力した。IBMのWatsonは、驚いたことに、半分正解…“yeah role”と“laurel”をかわるがわる繰り返した。だからある意味では、Watson氏がいちばん人間的だ。

上: Amazon; 下: IBM。

SonixのCEO Jamie Sutherlandは、各社の機械学習モデルを実際に調べたわけではないから、その不均一な結果に対してコメントはできない、と言った。

“ご存知のように人間の声はとても複雑で、声量や抑揚、アクセント、周波数などがそれぞれ違う。おそらく各社が最適化のターゲットとしているユースケースが異なるから、結果も違うのだろう。音声認識のモデルをすべての声に対応させることは、難題だ”、と彼は言う。

無知な傍観者としてのぼくの推察は、声の周波数に対するプライオリティの取り方/与え方が、各モデルで違うのだろう。そんな気がするね。

明らかに欠陥がある人間の聴覚と認識能力に基づいて作られているシステムに、権威ある正しい判断を求めるのはそもそもおかしいのだが、でもだからこそ、おもしろい実験だった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

音声認識とAIで会議のノートを取るVoiceraがモバイルの同業Wrappupを買収

Voiceraは、会議などで人間がノートを取ることを今後永遠に不要にしたいと考えている。同社のビジョンはAIによる音声認識システムが、ノートを取るだけでなく話者を認識し、会議の要点や行動案件を要約できることだ。今日(米国時間4/18)同社は、類似のスタートアップWrappupを買収したことを発表した。ここもAIによるノート取りアプリで、Voiceraのビジョンにぴったり符合している。

Wrappupのチームは直ちにVoiceraに加わる。買収価額などの条件は、公表されていない。

VoiceraのCEO Omar Tawakolも、声明文の中で、相性は良い、と見ている: “問題解決への両社のアプローチには、互いにシナジー効果がある。Wrappupはモバイルファーストで目の前の人が相手だから、会議電話が主体のVoiceraを補完する”。

Wrappupの長所は、モバイルのコンテキストでミーティングの重要箇所を見つけることだ。そのために同社は、新しいモバイルアプリのローンチを発表した。これら二つの企業の協働関係は前からあって、それがやっと今日、オフィシャルになったものと思われる。

写真提供: Voicera

WrappupのCEO Rami Salmanによると、Voiceraとの合体によって顧客にとってより魅力的で強力なソリューションが作られた、という。“両社の技術とAIのアルゴリズムが合わさると、ミーティングの重要箇所をより正確に見つけてまとめることができる。それが、どんな場所であっても”、と彼は声明で述べている。

Voiceraの音声認識ツールはEvaと呼ばれるクラウドサービスだ。それは、ミーティングのノートを取る作業を、人間から取り上げるために設計されている。同社は先月、e.ventures, Battery Ventures, GGV Capital, Greycroftなどの著名VCから、シリーズAで1350万ドルを調達した。同社はまた、GoogleのGVやMicrosoft Ventures, Salesforce Ventures, Workday Venturesなどエンタープライズ系のVCからも注目されており、ミーティングの痛点(ノート取り)に対する同社のソリューションが本物であることを伺わせる。

Wrappupは、2015年にドバイで創業された。これまで80万ドルを調達している。同社の製品は、CitrixのGoToMeeting, CiscoのWebEx, UberConference, Zoomなど既存のミーティングツールと併用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

超音波を使えば、「音」を発せずに音声認識デバイスを騙すことができる

セキュリティ関連技術を研究する中国人研究者が、「音」を発せずに音声認識システムを作動させる方法を開発した。人間には聞こえず、しかしマイクでは検知できる高周波音を用いるのだ。このしくみを用いて、人間には音が聞こえない状況で、さまざまなコマンドを発することに成功したのだそうだ。メジャーな音声認識アシスタントのすべてを操作することができたとのこと。

今回の成果を発表したのは浙江大学の研究者たちで、超音波を用いてコミュニケートするイルカたちにならって、用いた仕組みを「DolphinAttack(PDF)」と呼んでいる。しくみをごく簡単に説明しておこう。

音を発せずに音声アシスタントを動かす仕組み

電子デバイスに搭載されるマイクは、音波によって変化する空気圧に反応する小さくて薄い皮膜を利用している。人間はふつう、20キロヘルツ以上の音を感知できないので、一般的なマイクでも20キロヘルツ以上の「音」に反応しない仕組みが搭載されている。その仕組みはローパスフィルタと呼ばれている。

このローパスフィルタ機能が理論通りに機能すれば、たしかに意図した周波数の音声のみに反応することになる。しかし現実には「ハーモニクス」というやっかいなものが存在する。たとえば400Hzの音は、200Hzあるいは800Hzを捉えるようになっているマイクにも捉えられてしまうのだ(正確な仕組みは端折って、効果についてのみ記している。詳細を知りたい方はWikipediaなどを参照してほしい)。ただし「ハーモニクス」は、もとの音声に比べるとかなり小さく響くようになるもので、通常はハーモニクスの存在がなにか問題を引き起こすようなことはない。

ただ、100Hzの音を拾うマイクに対し、何らかの事情で100Hzのを発することができない事情があったとしよう。この場合、音の大きさを大きくすれば、800Hzの音でマイクを反応させることができるのだ。100Hzの音を発したことをさとられずに、マイクのみに100Hzのハーモニクスを伝達することができるのだ。人間の耳には800Hzの音のみが伝わることとなる。

変調装置の仕組み

研究者たちも、大まかにいえば上に記した仕組みをもちいてマイクにのみ通じる音を発生させている。もちろん実際にはさまざまな複雑なプロセスを経るようになっている。そしていろいろと試してみたところでは、スマートフォン、スマートウォッチ、ホームハブなど、音声に反応するように設計されているデバイスのほとんどが、ハーモニクスに反応したとのことだ。

超音波(黒の音声信号)がハーモニクス(赤の信号)を発生させる様子。超音波の方はローパスフィルタによりカットされる。

最初は単なる超音波信号を発生させる実験を行なっていた。それがうまくいったので、次に500ヘルツないし1000ヘルツの音声信号を生成することにしたのだ。複雑な作業が必要になるものの、しかし基本的には同様の方法で音声信号の生成に成功したとのこと。作業が複雑になるといっても、特殊なハードウェアを必要とするわけではない。エレクトロニクスパーツを扱っている店で手に入る部品のみを用いて実現できる。

超音波から生じた音声は確かに機能し、たいていの音声認識プラットフォームで狙い通りに認識されたとのこと。

DolphinAttackで使う音は、人間には聞こえず、感知することすらできません。しかし音声認識を行うデバイスはこの「音声」に反応するのです。Siri、Google Now、Samsung S Voice、Huawei HiVoice、Cortana、およびAlexaなど、いずれのプラットフォームで動作することを確認しました。

超音波から生成した音声により、簡単なフレーズ(「OK、Google」)から、やや複雑なコマンド(「unlock the back door」―勝手口の鍵を開けて)などを認識させ動作させることができたとのこと。スマートフォンによって通じやすいフレーズや通じにくいものがあったり、超音波を発する距離によっても実験結果が左右されたとのこと。ただし、5フィート以上の距離から発した超音波ーハーモニクスに反応したデバイスはなかったとのことだ。

研究で使用した簡単な超音波ーハーモニクス発生システム。

距離に制限があるということのようだが、しかしそれでも脅威に感じる。感知できないコマンドが発せられ、それによって手元のデバイスが作動してしまうのだ(Wi-Fiにも似たようなリスクがないわけではない)。ただし、今のところは大騒ぎすることもないのかもしれない。

たとえば、音声コマンドによってデバイスを活動状態にする機能をオフにしておくだけで、大半のリスクを避けることができるようになる。音声コマンドを受け付けるのは、デバイスがアクティブな状態にあるときのみになるわけだ。

さらに、たとえスリープからの復帰を音声コマンドで行えるようにしていても、たいていのデバイスでは電話をかけたり、アプリケーションを実行したり、あるいはウェブにアクセスしたりする機能を制限している。天候を確認したり、近くのレストランを表示するようなことはできるが、悪意あるサイトへのアクセスなどはできないことが多い。

また、音声コマンドは数フィート以内の距離から発しなければならないというのが一般的だ。もちろん、知らない誰かがすぐ近くから超音波ーハーモニクス音声をもちいてコマンドを発行することはできるだろう。しかし突然スマートフォンがスリープから復帰して、「モスクワに送金しました」などといえば、ただちに適切な対応をすることができるのではなかろうか。

もちろん危険性がゼロでないのは事実だ。超音波を発することのできる、スピーカーを備えたIoTデバイスがEchoに話しかけて、家のロックやアラームを解除するような可能性だってあるわけだ。

直ちにさまざまなリスクに対応する必要があるというわけではないかもしれない。しかし、電子デバイスに対する攻撃を実行しようとするひとたちに、新たな可能性が開かれつつあるのは事実だ。そのリスクを公にし、日常的に利用するデバイスにて対抗手段を備えることが重要になりつつあるといえよう。

原文へ

(翻訳:Maeda, H

MITが音声認識機能を低電力チップに収めることに成功、音声が聞こえたときだけ本体部が動き出す

google-voice-android

MITが今日(米国時間2/13)、音声認識チップの開発を発表した。その発表によると、このチップを使うと各種応用製品の音声認識処理の部分の電力消費量が90〜99%節減される。音声技術は今やモバイル製品のほとんどに実装されており、中でもとくに、Siri, Alexa, Google Homeといった音声アシスタントアプリの人気がそのニーズを急増させている。このチップによりそれらの関連回路やソフトウェア部品が大幅に単純化されそうだ。

MITの開発チームは、IoT方面のユースケースをとくに強調している。音声対応を要するそれらのデバイスの電池寿命が、“数日”のレベルから一挙に“数か月”のレベルに向上することが期待される。教授のAnantha Chandrakasanはこう述べている:

ウェアラブルのアプリケーションやインテリジェントなデバイスにおいて、音声入力が自然なインタフェイスになるだろう。それらのデバイスは小型化が求められるから、タッチやキーボードなどとは違うインタフェイスが求められる。音声機能をクラウドではなくデバイス本体に埋め込む必要があるから、低電力消費は絶対的な条件である。

このチップには“音声活動を検出する(voice activity detection)”回路があり、音声と環境ノイズを区別する。そして自分に向けられた音声を認識したら、そのときにのみ、チップ上の音声認識ハードウェアに電源が入る。

チームの一員である院生のMichael Priceが、その音声検出の部分について、やや詳しく語ってくれた:

このチップの継続的な音声認識機能の部分は、隠れマルコフモデル(hidden Markov Models(HMMs))を使っている。それは、任意の長さの音声入力を文に書き起こす。その遷移モデルは、重み付き有限状態変換器(weighted finite-state transducer(WFST))だ。そしてアコースティックモデルはフィードフォワード型のニューラルネットワークだ。従来の、ソフトウェアによる音声認識でも、同様の一般的技術が使われている。

この認識システムのモデルを、オープンソースのツールキットKaldiを使って訓練した。訓練とテストには、複数の異なる音声データ集合を用いた。われわれがテストした最大の認識システムは、語彙が14万5000語で、リアルタイムのオペレーションで7.78mWを必要とした。最小のデジタル認識系(ゼロを”oh”で表す計11語)は172μWを要した。

このチップは、常時onの低電力モードで使われることを想定した設計になっている。音声を検知したときだけ本体部分が動き出すので、音声でコントロールするウェアラブルなどに向いている。一回の充電でスマホなどよりもはるかに長期間使える、という特性も重要だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

KeyLemonは音声ユーザー認証のスタートアップ―ベンチャー資金調達に成功して事業拡大へ

スイスのスタートアップ、KeyLemonはIdiap Research Instituteのスピンオフで、ユーザー認証のための顔認識、音声認識テクノロジーを開発している。このほど同社はシリーズAのラウンドで150万ドルを調達したと発表した。

投資家は、スイスの世界的製薬会社、Debiopharm GroupのDebiopharm Investment、スイスの電話キャリヤ、SwisscomのSwisscom Venturesなど。

タブレット、スマートフォンには例外なくカメラとマイクが装備されている。これを利用してKeyLemonは顔、音声認識テクノロジーをさまざまなインターネット・サービスにおけるユーザーの身元確認、アクセス・コントロールに役立てようと努力している。

KeyLemonでは一例としてMOOC(Massive Open Online Courses=多人数公開オンライン講義)における学生の聴講承認、出席確認に利用できるとしている。エンドユーザーとの関係では、KeyLemonのテクノロジーはスマートフォンやタブレットなどのデバイスやチップのメーカー、ISPに提供される他、個別のアプリケーションへのエンベッド、オンライン教育その他大規模なクラウドサービスなどからの利用が見込まれている。

また一般ユーザー向けにフリーミアム版のMac版、Windows版のアプリも公開されている。

〔日本版〕 有料版は1995円から。サポートされる言語は英語、ドイツ語、フランス語、スペイン語、イタリア語、ブラジル・ポルトガル語。

[原文へ]

(翻訳:滑川海彦 Facebook Google+