人と間違えるほど自然な合成音声を高速で作成するツールをWellSaid Labsが開発

WellSaid Labs(ウェルセド・ラボ)は、本物と間違えるような合成音声を作成するツールを提供しているスタートアップ企業だ。同社は事業拡大のために、シリーズA投資ラウンドで1000万ドル(約11億円)の資金を調達した。同社が自社開発したテキスト読み上げエンジンは、リアルタイム以上に高速で処理を行い、短い言葉から数時間にわたる朗読まで、自然な読み上げ音声を作成できる。

WellSaidは、2019年にAllen Institute(アレン研究所)によるAIスタートアップのためのインキュベーターから登場した。その目標は、トレーニングやマーケティングなどの一般的なビジネス業務に使える、ロボットのように聞こえない合成音声を作ることだ。

関連記事:WellSaidは人間の代役が務まるほど自然な合成音声を公開

同社はまず、Google(グーグル)と学術研究者が開発した音声合成エンジン「Tacotron(タクトロン)」をベースにして、最初のソリューションを構築した。しかし、それからすぐに、より効率的で、より説得力のある音声を生成し、任意の長さのクリップを作成できる独自のシステムを作り上げた。

音声合成エンジンは通常、2つか3つの文章で行き詰まり、そこから先は不自然な抑揚になったり意味不明になることが多い。しかし、WellSaidの音声合成エンジンは、Mary Shelley(メアリー・シェリー)の「Frankenstein(フランケンシュタイン)」を、最後まで何の問題もなく読み上げた

その声は、聞いた人から「人間らしい」「人間に近い」と評価されるほど優れたものだった。そんなことは、通常のバーチャルアシスタントが片言以上の言葉を話す場合には、あまり言えないものだ。それだけでなく、その合成音声は、人間がリアルタイムで読み上げるよりも速く生成された。他の音声合成エンジンでは、高品質な音声の生成を選択した場合、リアルタイムの10分の1かそれよりも遅い速度で動作することが多い。つまり、3分間のスピーチを生成するのに、WellSaidなら1分、Tacotronでは30分以上かかるということだ。

さらにこのシステムでは、信頼のおける企業のスポークスマンやナレーションアーティストなど、既存の声優をベースに新しい「ボイスアバター」を作成することもできる。彼らの癖や口調のモデルを構築するためには、当初は約20時間の音声が必要だったが、今ではわずか2時間の音声でそれが可能になったと、CEOのMatt Hocking(マット・ホッキング)氏はいう。

同社は現在のところ、企業向けに特化している。つまり、自分の声をデジタル化してアバターにできるようなユーザー向けのアプリはない。それにはリスクがともなうし、現実的なビジネスモデルもないので、今のところは考えていないという。

しかし、このようなリアルな声は、障がいのある人にとって大いに役立つ可能性がある。ホッキング氏は、そのことを認識しつつも、まだ取り組む準備ができていないことを認めている。

画像クレジット:WellSaid Labs

「非言語伝達者や非営利団体などがこの技術の恩恵を受けられるように、この技術へのアクセスを拡大することを約束します」と、同氏は語っている。

その間に同社は、最初の市場である企業のトレーニングビデオから、マーケティング、長文のコピー、かなりのテキストを含むインタラクティブな製品、そしてアプリ体験へと拡大してきた。これらのアバターのモデルとなったタレントが、自分の声をデジタルで再現するのに協力することで、適切な報酬を得られるようになることも期待できる。

今回の募集枠を超えた1000万ドルの資金調達は、ベンチャーキャピタルのFUSE(ヒューズ)が主導し、リピート投資家となったVoyager(ボイジャー)、Qualcomm Ventures LLC(クアルコム・ベンチャーズ合同会社)、GoodFriends(グッドフレンズ)が参加した。合成音声はいくつかの一般的なユースケースで利用されているものの、コンテンツはそれほど大きくない。つまり、成長の余地は十分にあるということだ。同社はさらなる製品の充実と、それにともなうチームの拡大のために、この資金を投資する予定だ。

関連記事
WellSaid Labs、合成音声を数秒間のクリップから数時間のクリップへと進化
動画音声を本人の自然な声で別言語に吹き替えるAIシステム開発のPapercupが約11億円調達
AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

カテゴリー:ソフトウェア
タグ:WellSaid Labs合成音声資金調達

画像クレジット:incomible/iStock /

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)

WellSaid Labs、合成音声を数秒間のクリップから数時間のクリップへと進化

今や何百万世帯もの家庭で音声対応のデバイスが利用されているが、数秒以上続く長い合成音声を普段耳にすることはまずないだろう。WellSaid Labs(ウェルセッドラブズ)は、音声エンジン分野の開発を押し進め、我々が日々Siri(シリ)やAlexa(アレクサ)で聞いている短文と同等、またはそれ以上のクオリティを持つ、数時間にもわたる音声コンテンツを素早く簡単に生成することに成功した。

昨年世に出て以来、WellSaid Labsは同社が持つ技術をデモ製品から商用製品へと進化させるため着実に取り組んできた。その過程で同社は利益になり得るニッチな分野を発見する。

CTOのMichael Petrochuk(マイケル・ペトロチャック)氏は、初期の段階で同社の技術は、人工音声におけるリアリズムの新しい基準を確立したGoogle(グーグル)のタコトロンプロジェクトという研究をベースにしていたと説明する。

「2年前にリリースされたにもかかわらず、タコトロン2は今でも芸術的と言えます。ただしいくつか問題はあります。1つ目は高速ではないと言う点。1秒のオーディオを生成するのに3分かかります。また、これは15秒のオーディオをモデル化するために作られているため、10分間のコンテンツを生成するワークフローなどとても考えられません。我々が目指すものとはかけ離れています」とペトロチャック氏。

そこでWellSaid Labsは速度、品質、長さに焦点を当てて自社モデルを完全に再構築した。すべて一度に焦点を当てているかのようでもあるが、最適化のために焦点を当てるべき箇所は常に山ほどある。その結果、15種の音声と複数の言語を用いた非常に高品質な音声をほぼリアルタイムで生成することができるモデルを作り上げた。つまり、1分間のクリップは、数時間を費やして作るのではなく、36秒で完成できるということだ。

この一見ベーシックな技術には数多くの利点がある。高速なだけでなく、できあがった音声をよりシンプルで簡単に処理することも可能だ。オーディオコンテンツのプロデューサーの場合、数百文字のスクリプトを入力してその音声を聞き、発音や抑揚を数回のキー操作で微調整すれば完成だ。タコトロンは合成音声の世界を一変したが、実際に製品になったことはない。WellSaid Labsは、タコロトンの技術と独自の技術を組み合わせて、使い勝手の良いソフトウェアと卓越した音声システムを生み出すことに成功した。

WellSaid Labによるテストにて、タコロトンやその他の製品と比較できるよう15秒のクリップを生成したところ、同社のモデルは人間による音声と同等の評価を得ると言うマイルストーンを達成した。この手の技術を客観的に測るための手段は存在しないが、実際に多くの人々にどれだけ人間らしく聞こえるかを聞いてもらい検証するのは正しい方法と言えるだろう。

このような条件下で「人間のような」音声を達成するため、同社は多数のオーディオクリップも公開し、より難しいコンテンツも生成できるという事を証明した。

スペイン語、フランス語、ドイツ語でももっともらしい音声を発し(著者はこれらの言葉を話せないためそれ以上のことは言えないが)、「Stoichiometry(化学量論)」や「Halogenation(ハロゲン化)」のような複雑で言語学的に難しい単語や「Buffet(ビュッフェ)」や「Desert(砂漠)」のように文脈によって異なる単語なども上手く発音しその技術を軽々と披露した。Mary Shelley(メアリー・シェリー)著書の「フランケンシュタイン」を8時間かけて読み通したのは称賛に値する。

しかし、さらなる進歩のためにWellSaid Labsが向き合っているのはオーディオブック業界ではない。それは企業研修というとてつもなく退屈だが必要不可欠な分野である。企業方針を説明したり、社内ツールの使い方、営業や管理、開発ツールなどのベストプラクティスを説明したりするような、あれである。

企業研修の内容は通常、その企業独自のものであり、何時間分ものオーディオになる。何十年も前に作られたようなDVDを研修会場で見せられたり、莫大な資料を渡されたりするような慣習の代替となるだろう。このようなパワフルな技術を実用化する場としては決してエキサイティングな場所とは言えないが、技術がどれだけ変革的であっても、実際にお金を稼げなければ沈没してしまうというスタートアップの現実がここにある。

Image Credits: WellSaid Labs

「我々は企業研修の分野で利点を見つけましたが、製品開発においてはこれによってより大きな分野に向けての基礎となる要素を構築することができました。音声はどこにでも存在します。今は誰のために構築するのかを現実的に考えなければなりませんが、最終的にはどんな音声でも作成して配信できるインフラを提供する予定です」と成長部門長のMartín Ramírez(マルティン・ラミレス)氏は語る。

一見企業向けサービスの拡大速度が遅すぎるようにも感じられるかもしれない。同社のシステムは英語に特化しているわけではなく、多言語での研修にも同様に活用できるだろう。しかし、ポッドキャストやゲーム、ラジオ番組、広告、ガバナンスなど他の業界でも、この向上した音声機能を大いに活用することができるはずだ。

同社のアプローチにおける大きな制限の一つとして、このシステムは人が操作し、仮想声優の録音に使用されることを想定していると言う点がある。つまりこれでは、声帯に障害のある人々や音声インターフェースを一日中使っている目の不自由な人々、また海外旅行中にリアルタイムで翻訳ツールを使用する人々など、実際により優れた合成音声を必要としている人々には役立たない。

「近い将来、弊社がそういったサービスを提供している可能性もあるでしょう」とラミレス氏は言うが、同氏もその他のメンバーも慎重な言葉選びだ。「しかし、現時点で構築された方法では、人間がエンジンと対話した上で自然な人間らしさを作り上げるべきだと考えています。ダイナミックレンダリングのシナリオがかなりのスピードで近づいてきているので、それに備えて準備をしておきたいところですが、今の時点ではまだ準備ができていません」。

同社は「ランウェイも顧客も豊富」とのことで、急成長中でもあるため今すぐに資金を調達する必要はないだろう。ベンチャーキャピタルファームの諸君にそう言っておきたい。

関連記事:WellSaidは人間の代役が務まるほど自然な合成音声を公開

カテゴリー:IoT

タグ:WellSaid Labs 合成音声

[原文へ]

(翻訳:Dragonfly)