インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」

ここ数年、スマートスピーカーや運転支援モードの普及に伴って、音声認識は便利なものから重要なものへと変化してきたが、誰の声でも同じようにきちんと認識できるわけではない。Speechmatics(スピーチマティック)は、最も包括的で正確なモデルを持っていると主張する。特に一般的な米国のアクセント以外のスピーチに関しては、Amazon(アマゾン)やGoogle(グーグル)などを凌駕しているという。


同社は、2019年にスタンフォード大学で行われた「Racial Disparities on Speech Recognition(音声認識における人種格差)」と題した研究の内容から精度の問題関心が向いたと説明している。たとえばAmazon、Apple(アップル)、Google、IBM、Microsoft(マイクロソフト)の音声エンジンは「人種による大きな格差が見られている。たとえば平均ワードエラー率(WER)をみると、白人話者に対しては0.19であったのに対し、黒人の話者の場合は0.35だった」とある。つまりイマイチってことだ!

この差の原因は、システムの学習に使用したデータセットに多様性がないことが一因であると考えられる。結局、データの中に黒人の話者が少なければ、モデルはそのようなスピーチパターンを学習することができない。これは、他のアクセントや方言を使う話者についても同じことがいえる。英国はいうまでもなく、米国にはさまざまなアクセントがあるので「すべての人たち」のためのサービスを提供すると主張する企業は、そのことを認識する必要がある。

ともあれ英国のSpeechmaticsは、その最新モデルでアクセント違いの英語を正確に聞き取ることを最優先にしており、他のモデルを圧倒できると主張している。スタンフォード大学の研究で使用されたのと同じデータセット(ただし、最新バージョンの音声ソフトウェアを使用)に基づいて「Speechmaticsは、アフリカ系米国人の声に対して、Googleの68.7%およびAmazonの68.6%と比較して、82.8%という総合的な正確性を達成できた」と同社はプレスリリースに記している

同社によれば、この成功は、音声認識モデルの作成に比較的新しいアプローチを採用したことによるものだという。従来、機械学習システムにはラベル付きのデータが提供されていた。これは、音声ファイルにメタデータやテキストファイルが付随したものだ、通常はそうした付随データの書き起こしは人間が行いチェックもしている。猫の検出アルゴリズムでは、画像とともに、どの画像に猫が写っているか、どこに猫が写っているかなどのデータが付随する。これが教師あり学習で、用意された2つの形式のデータの相関関係をモデルが学習する。

Speechmaticsはデータセット、学習効率、計算能力の向上にともない、近年注目されている自己教師あり学習を採用している。同学習法は、ラベル付きのデータに加えて、ラベルのない生のデータを大量に使用し、より少ないガイダンスで独自の音声「理解」力を構築していく。

関連記事:「常識」獲得に向け少しずつ進化するコンピュータービジョン、フェイスブックの最新研究

今回のモデルでは、基本的な理解力を得るために約3万時間のラベル付きデータで学習が行われた後、YouTubeやポッドキャストなどのコンテンツから得られた110万時間の公開音声が投入された。こうした収集方法は多少グレーゾーンだ、なぜなら他者の商用音声認識エンジンのトレーニングに自分のポッドキャストが使われることには、誰も明確に同意はしていないからだ。しかし、OpenAI(オープンAI)のGPT-3の訓練に「インターネット全体」が使われたように、多くの人によってそのような使い方が行われている(まあ、まだ私個人の声をマスターしてはいないが)。

Speechmaticsのモデルは、米国の黒人話者に対する精度を向上させただけでなく、子どもの聞き取り能力も向上させ(約92%の精度、これに対してGoogleやDeepgramでは約83%の精度)、インド人、フィリピン人、南部アフリカ人、そしてスコットランド人なども含めた世界中のアクセントの異なる英語に対して、小さいながらも大きな改善が見られたとしている。

このモデルは他にも何十もの言語をサポートしており、その多くで他のエンジンに対する競争力を誇っている。これは単なる英語認識モデルではなく、英語をリンガフランカ(「国際共通語」の意、今となっては失笑を買うほど不適当な慣用句だが)として使うことを考えると、アクセントは特に重要な意味を持つ。

Speechmaticsが挙げた数字は先進的なものだが、AIの世界は信じられないほどの速さで動いているため、2022年以降さらに飛躍することがあっても不思議ではない。たとえばGoogleは、発話の不自由な人でもエンジンを使えるようにするための努力をしている。最近では、インクルージョンはすべてのAIワークにおいて重要な役割を果たしており、企業が互いにしのぎを削るところを見られるのは良いことだ。

関連記事:GoogleがProject Euphoniaの包括的な音声認識を支えるAIの詳細を発表

画像クレジット:drafter123/Getty Images

原文へ

(文:Devin Coldewey、翻訳:sako)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。