AWSのテキスト音声変換エンジンはニュースキャスターのような話し方をする

最新の機械学習技術のおかげで、テキスト音声変換エンジンはこの数年間で大きく進歩した。以前はコンピューターがテキストを読んでることがすぐ分かったが、最近はそれも変わりつつある。Amazon(アマゾン)のクラウドコンピューティング部門AWSは今日(米国時間7/30)、テキスト音声変換を行うニューラルネットワーク用のモデルをいくつかローンチし、その中にはテレビのニュースキャスターの喋りを真似るものもある。

同社の発表声明はこう言っている。「音声のクォリティーは確かに重要だが、もっと人間的にリアルな合成音声を作ることが、これまでは忘れられていた。たとえば、話し方のスタイル。人間なら、ニュースキャスターとスポーツキャスターと大学の先生の話し方スタイルを聞き分けることができる。またほとんどの人間が、状況に応じて話し方を変える。メッセージがいちばんよく伝わるような、話し方を選ぶのだ」。

ニュースキャスターふうの話し方スタイルは、Joanna(ジョアンナ)とMatthew(マシュー)という名前までついた二人のアメリカ人の声で提供され、USA TodayとカナダのThe Globe and Mailの協力により、実際にニュース原稿の読み上げに使われている。

それは、こんな喋り方だ:


このニュース読み上げ用テキスト音声変換サービスはAmazon Polly Newscasterと名付けられ、AWSの長年のテキスト音声変化に関する研究の成果だ。AWSはそのエンジン本体をNeural Text-to-Speech Engineとして提供している。このエンジンはGoogleのWaveNetなどと変わっているものではなく、今11の音声を提供している。イギリス英語が3人、アメリカ英語が8人だ。

たとえばこれは、女性(女声)のアメリカ英語の例だ:

今のフェイクニュースの時代においては、ここまで本物の人間のようなロボットの音声がニュースキャスターのように喋ったりすると、賛辞よりもむしろ問題を感じてしまうかもしれない。ただしほとんどの場合は、ニュースを人間が読もうとロボットが読もうと大差ないだろう。ユースケースはニュース以外にもいろいろありそうだ。それにAWSが提供したサンプルを聞いたかぎりでは、以前の、長く聞いていると気分が悪くなりそうなロボット音声よりも、ずっと長く聞いていられる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。