マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。