Microsoftの音声認識システムが人間と肩を並べ始めた

米国時間8月20日、MIcrosoftはその会話型音声認識システムが、これまでで最も低い5.1%のエラーレートに達したことを発表した。この記録は、Microsoft Artificial Intelligence and Researchの研究者グループが昨年達成した5.9%のエラー率を下回るもので、テキストを数回聞き返すことができるプロのトランスクライバーたちと同等の正確さだ。

両研究は、Switchboardコーパスの録音を認識することで行われた。これは1990年代初頭から、音声認識システムをテストするために研究者たちが使用してきた、約2400件の通話のコレクションだ。今回の新しい研究は、Microsoft AI and Researchの研究者グループによって、人間のトランスクライバーのグループと同程度の正確性を達成することを目標として行われた。人間のグループは自身が聞いているものを複数回聞き直すことができ、会話の文脈を知った上で、他のトランスクライバーたちと協力することも可能だった。

全体として、今回の研究では昨年のものに比べて、ニューラルネットベースの音響モデルと言語モデルを改善することにより、エラーレートを約12%下げることに成功した。特に、その音声認識ソフトに会話全体を利用させ、そのことによってトランスクリプションを文脈に適合させ、次にどのような言葉やフレーズが来るかを、人間がするように予測させるようにした。

Microsoftの音声認識システムは、Cortana、Presentation Translator、そしてMicrosoft Cognitive Servicesなどのサービスで使用されている。

[ 原文へ ]
(翻訳:Sako)

FEATURED IMAGE: BLOOMBERG/CONTRIBUTOR/GETTY IMAGES

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。