WellSaidは人間の代役が務まるほど自然な合成音声を公開

文字で読むより、口で言ってもらったほうがいいことは多い。しかし、今のところ最高の音声技術は音声アシスタントが独占していて、画面の読み上げやオーディオブックの自動生成などには使えていない。WellSaid(「うまい言い方」という意味)は、人の声の代わりになる高品質な合成音声による語りを、クリエイターにも使えるようにしたいと考えている。もしかしたら、自分自身の声を合成できるかもしれない。

この数年間で、ニューラル技術が手作業に頼っていた従来のアプローチを大幅に改善したことにより、音声合成は大きな進歩を遂げた。しかし、GoogleもAppleもAmazonも、その高度な音声技術をスマートフォンやホームハブのおしゃべりに限定して、それ以外の利用は決して許さない。

WaveNetのことを聞き、そのあとTacotronのことを聞いた私は、Googleの担当チームに連絡をとり、Google Booksの全書籍を対象とした自然な読み上げによるオーディオブックの開発をいつ始めるのか、または、AMP(Accelerated Mobile Pages)の機能やユーザー保護機能に採り入れる予定はあるのか尋ねてみた。だが返事はなかった。そのようなサービスを必要としている人は大勢いるのに、彼らはチャンスを逃していると私は感じた。

それだけに、私はWellSaidがその市場を奪おうとしていることを聞いて、私は喜んだ。曲がりなりにではあるが。この会社は、2017年にアレン人工知能(AI2)研究所によるインキュベーター・プログラムで創設が発表されている。かなりのマイペースだ。


アレン研究所はAIスタートアップと世界レベルの才能をつなぐためのAI2インキュベーターを支援(本文は英語)

話を話す

私は、CEOのMatt Hocking氏とCTOのMichael Petrochuk氏に話を聞いた。なぜ、音声合成のまったく新しいシステムを作ろうと考えたのか。彼らによると、そもそもの問題は、既存のシステムでは「まともに聞こえる」ようにするために、人の手による大量の注釈に依存していること、そしてその「まとも」さが常にまったく同じであることにあるという。数時間分の音声を読み込ませておいても、質問にどう反応するか、リストの各項目の間にどれだけ時間を開けるかといった判断は期待できない。こうした問題点を、詳細にあぶり出す必要があった。しかし最終的には、非常に効率的なシステムが完成した。

「目標は、毎回同じ発音で話す小さなモデルをチープ(演算が)に作ることでした。パーフェクトな声で」とPetrochuk氏。「私たちはTacotronと同じような研究を行い、技術的には超えることができました。しかし、スピーチをコントロールしたり、この任意構造をそこに押しつけることは考えませんでした」

「人間の声が自然に聞こえるのは、ある意味、一貫性がないからなのです」とHocking氏は言う。

一貫性のなさとなれば、人間から学ぶのがいちばんだ。彼らは数人の声優に協力してもらい、数十時間分の音声を録音してシステムに読み込ませた。注釈を入れるために「音声マークアップ言語」で文章の指定をする、などという必要はない。Petrochuk氏はこう話していた。「私たちは未加工のオーディオブックのデータからトレーニングをする方法を発見しました。それ以上に行うべきことは、何もありません」

そのため、WellSaidのモデルは、同じ言葉でも発音が違うことがよくある。そう話すよう、言語の手動モデルに念入りに指示を仕込んだわけではない。システムが模倣している声紋の持ち主が、そうしていただけだ。

しかし、実際にそれはどのような仕組みなのだろう? この質問は、WellSaidの秘伝に顔を突っ込むようなものだ。彼らのモデルは、あらゆる深層学習システムと同様、無数のインプットを踏まえてアウトプットを生成している。しかし、他の音声合成システムと比べて、彼らのものはずっと大規模で範囲が広い。抑揚や発音は管理する人間が決めるのではなく、音声から抽出されてリアルタイムでモデル化される。魔法のように聞こえるが、最先端のAI研究とはそういうものだ。

それは、どこか遠い場所にあるGPUクラスター・ソフトウェアを使うことなく、CPU上でリアルタイムに処理される。そのため、オフラインでも使える。多くの音声合成アルゴリズムがリソースを大量に喰うのに比べれば、これだけでも大手柄だ。

この音声は、どのような文章もごく自然に聞こえるように読み上げることが求められる。下の動画は、ある記事の最初の部分を読み上げたものだ(残念ながら私の記事ではない。私なら、もっと回りくどく甘美な文章を書いていたのに)。最初にGoogleのWaveNetが読み上げ、次にWellSaidが2回続けて読み上げている。

後の2つは、明らかに最初のものより自然に聞こえる。いくつかのフレーズは、人間が読んでいるものとほとんど聞き分けられない。それでも、高い確率で、確実に合成音声だとわかる単語も少なくない。

それでもかなり近いのだから、大したものだ。もし、私の記事を合成音声に読み上げてもらうとしたら、確実にWellSaidを選ぶ。通常の録音と同じく、微調整もやり直しも可能だし、エフェクトをかけることも可能だ。NPR(ナショナル・パブリック・ラジオ)で放送されたインタビューは編集を加えていない。お気づきだったろうか?

当初の目標は、このツールを仕事道具に加えることで、仕事の質を向上させ、労力を削減できるクリエイティブな人間を探すことだった。

「これを必要としている人は大勢います」とHocking氏は言う。「声優を雇う予算のないビデオのプロデューサーや、短時間に大量の文章を練り直さなければいけない人などです。英語が母国語ではない人にも、これはいろいろな扉を開いてくれます。ラジオ向けの声を持っていない人にも」

ソーシャルメディアの広告で、文章を表示して著作権フリーの音楽を流す代わりに、ワンクリックで音声を加えられるのは素晴らしいことだ(広告業界のみなさん、ご一考あれ)。

私は、声優たちの反応について聞いてみた。自分の声に置き換わる音声のために、そのトレーニングに協力した人たちだ。写真素材の声版のようなものだと思えば、声優も納得できるという。安く上げたいときは「あり物」を使い、きちんとやりたいときは役者にギャラを払う。将来のモデルに今から自分をはめ込もうとは思わないが、声優にも分け前が入る仕組みを、ひとつの可能性として受け入れている。仮想代役が報酬を得るという形は、ちょとした新しい展開分野となる。

本日、クローズド・ベータテストが開始された。同社のサイトから参加を申し込むことができる。最初は5種類の音声だけだが、WellSaidの市場進出が決まれば、さらに数が増え、オプションも加わるという。このベータテストは、目の不自由な人や、その他の障害を持つ人たちの参加も見込んでいるはずだ。それは私が、長年、望んできたことだ。

聞いたことがある声

次はどうするのだろう?もちろん、ユーザー自身の声の合成版を作ることだ。わかりきっている!ところが2人の創設者は、その可能性は十分にあるが的外れだと警告した。それにはいくつかの理由がある。

「現在は、一人分のデータを処理するのに、およそ20時間かかっています。しかし、将来は、生身の人間と変わらない声の質を保ちながら、1時間から2時間で処理できるようになります」とPetrochuk氏は言う。

「それに、データセットを作ることもできます。過去のコンテンツのカタログを持つ感じです」とHocking氏は付け加えた。

問題は、そのコンテンツが深層学習モデルにぴったり適合しない場合があることだ。進歩したシステムなので、当然のことながら繊細だ。微調整のための機能はあるものの、音声を微調整するためには、さらに元になる人の声を集めなければならなくなると彼らは言う。響きを強化したり、抑揚を強めたりしたい特定の文章を、声優に読んでもらわなければならないのだ。

彼らは、声優を監督することと、コードを調整することを比較した。どう考えても、カンマの後の間を8パーセントだけ、または15ミリ秒だけ増やせなどという指示を声優に出すことはできない。実例を聞かせるのがいちばんだ。「このように読んでください」と。

それでも、限定的な不完全なトレーニングデータからそこそこの品質の音声を作ることは大変に難しい。もし行おうとすれば、同社にとって大変な負担となる。

しかし、すでにお気づきの方もいるだろうが、この腐った「深層フェイク」の世界には、まがい物がある。ポッドキャストやスピーチを大量にダウンロードして十分な素材を集めれば、誰かさんの、おそらく有名人の、そこそこ聞こえる音声のレプリカが作れてしまう。すでに存在するフェイク動画などの画像合成の技術と組み合わされば、困った問題に発展することは明らかだ。

Hocking氏とPetrochuk氏にとって、これは何も新しい話ではない。AIに携わっている限り、この手の問題はかならず起きるからだ。

「これは非常に重要な問題です。私たちも真剣に考えました」とPetrochuk氏は言う。「私たちはAI2畑の人間です。そのモットーは『公益のためのAI』です。私たちも完全に同意しているもので、MVP(Minimum Viable Product、実用最小限の製品)を開発する以前にバラク・オバマ氏の声を合成した競合相手とは一線を画するところです。これを悪用されないよう、私たちは厳密に見守ってゆく覚悟です。自由に声が作れる機能は発表しません。誰でも、他人の声が自由に作れてしまうからです」

能動的な監視は、社会問題を引き起こしそうなAI技術を有する人たち全員が行うべきことだが、彼らは、合成音声であることを特定できるようにする緩和技術にも着目している。

コンテンツも広告も、だだの文章ではなく、マルチメディアによる表現にますます重きを置くようになる中、WellSaidは、成長市場の最初の立役者になるべく身構えているようだ。製品が進化し改良されたなら、たとえばタイムシフト・アプリ(5つの中から好きな声を選んで簡単にポッドキャストができる)など、新しい、より具体的な世界への進出が容易に想像できる。さらに、現在は音声アシスタントが占領している領域を奪うことも可能だ。私はそれを楽しみに思う。

[原文へ]

(翻訳:金井哲夫)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。