人間が犯す言葉の聞き間違いをAIは正してくれるか?答はノーだ

昨日(きのう)(米国時間5/17)までの二日間、ヤニー/ローレル(yanny/laurel)論争に加わらなかった人は、本当に幸せ者だ。でも、それもそろそろ時間切れ。口コミで広まった合成音声がAIへの誇大な過信にぶつかり、そしてその結果は、この俗世のすべてがそうであるように、幻滅だった。

AIによる音声認識ソフトウェアを作っているSonixが、その曖昧な音の断片を、GoogleとAmazonとIBM Watsonと、そしてもちろん自社の、文字書き起こしツールに与えてみた

GoogleとSonixは最初からうまくいった。ちなみに、正解は“laurel”だ。yannyではない。 Laurelだよ。

しかしAmazonは、そのロボット的な声に対して、何度やっても“year old”を出力した。IBMのWatsonは、驚いたことに、半分正解…“yeah role”と“laurel”をかわるがわる繰り返した。だからある意味では、Watson氏がいちばん人間的だ。

上: Amazon; 下: IBM。

SonixのCEO Jamie Sutherlandは、各社の機械学習モデルを実際に調べたわけではないから、その不均一な結果に対してコメントはできない、と言った。

“ご存知のように人間の声はとても複雑で、声量や抑揚、アクセント、周波数などがそれぞれ違う。おそらく各社が最適化のターゲットとしているユースケースが異なるから、結果も違うのだろう。音声認識のモデルをすべての声に対応させることは、難題だ”、と彼は言う。

無知な傍観者としてのぼくの推察は、声の周波数に対するプライオリティの取り方/与え方が、各モデルで違うのだろう。そんな気がするね。

明らかに欠陥がある人間の聴覚と認識能力に基づいて作られているシステムに、権威ある正しい判断を求めるのはそもそもおかしいのだが、でもだからこそ、おもしろい実験だった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。