昨日(きのう)(米国時間5/17)までの二日間、ヤニー/ローレル(yanny/laurel)論争に加わらなかった人は、本当に幸せ者だ。でも、それもそろそろ時間切れ。口コミで広まった合成音声がAIへの誇大な過信にぶつかり、そしてその結果は、この俗世のすべてがそうであるように、幻滅だった。
AIによる音声認識ソフトウェアを作っているSonixが、その曖昧な音の断片を、GoogleとAmazonとIBM Watsonと、そしてもちろん自社の、文字書き起こしツールに与えてみた。
GoogleとSonixは最初からうまくいった。ちなみに、正解は“laurel”だ。yannyではない。 Laurelだよ。
しかしAmazonは、そのロボット的な声に対して、何度やっても“year old”を出力した。IBMのWatsonは、驚いたことに、半分正解…“yeah role”と“laurel”をかわるがわる繰り返した。だからある意味では、Watson氏がいちばん人間的だ。
SonixのCEO Jamie Sutherlandは、各社の機械学習モデルを実際に調べたわけではないから、その不均一な結果に対してコメントはできない、と言った。
“ご存知のように人間の声はとても複雑で、声量や抑揚、アクセント、周波数などがそれぞれ違う。おそらく各社が最適化のターゲットとしているユースケースが異なるから、結果も違うのだろう。音声認識のモデルをすべての声に対応させることは、難題だ”、と彼は言う。
無知な傍観者としてのぼくの推察は、声の周波数に対するプライオリティの取り方/与え方が、各モデルで違うのだろう。そんな気がするね。
明らかに欠陥がある人間の聴覚と認識能力に基づいて作られているシステムに、権威ある正しい判断を求めるのはそもそもおかしいのだが、でもだからこそ、おもしろい実験だった。