アニメーションと音声で写真に生命を吹き込む、MyHeritageとD-IDが提携し故人が話す動画が作成可能に

2021年、家系調査サービスのMyHeritageが、故人の顔写真を動画化できる斬新な「ディープフェイク」機能を導入して話題になった。TikTokのユーザーたちはいち早くその技術に反応して、動画を投稿し、自分が会ったこともない親戚やまだその死を悲しんでいる故人を蘇らせて、「ディープノスタルジア」と呼んだ。今日まで、1億枚以上の写真がこの機能で動画になった。そしてその機能が進化した。米国時間3月3日、MyHeritageはパートナーのD-IDとともに「ディープノスタルジア」を拡張した「ライブストーリー」機能をローンチした。写真の人物を生き返らせるだけでなく、彼らに話をさせるのだ。

MyHeritageが技術をライセンスしたD-IDはテルアビブのスタートアップで、AIとディープラーニング利用した再現動画の技術で特許を取得している。

D-IDの技術は、APIを通じて開発者に提供され、メディア、教育、マーケティングなど、さまざまなライセンシーに利用されています。例えばWarner Bros.(ワーナー・ブラザーズ)は、D-IDを利用して、ユーザーが映画の予告編をアニメーション写真でパーソナライズできるようにしたり、ハリー・ポッター展のために協力した。Mondelēz International、広告代理店のPublicis、Digitas Vietnamは、地元の祭りのマーケティング活動でD-IDと提携している。インドの短編動画アプリJoshは、顔アニメーションの技術をクリエイティブツールとして統合した。また、非営利団体や政府も、さまざまな啓発キャンペーンにこの技術を利用している。

MyHeritageは、こライブストーリーでD-IDの最新AI技術をユーザー向けに利用している。この機能を使うためには、ユーザーはまず無料でMyHeritageのアカウントを無料で作成することができ、その技術を何度か無料で試用できる。その後は、有料のサブスクリプションでライブストーリーを無制限に利用できる。

本技術で先祖の人生を物語にしたり、それを本人に語らせることもできる。それを可能にするのが、D-IDの特許取得技術Speaking Portrait Technology(肖像発話技術)だ。アップロードされた写真をもとにナレーション入りの動画を作り、それを合成音声生成装置にかける。語られるストーリーは、ユーザーが提供したテキストだ。

 

言葉と唇の動きが同期するためにD-IDは、人が話している動画のデータベースでニューラルネットワークを訓練した。言語は、どんな言語でもよいというが、MyHeritageは10種ほどの方言や、性による声の違いを含む31言語をサポートしている。

D-IDの共同創業者でCEOのGil Perry(ギル・ペリー)氏によると「優秀な技術であるためドライバービデオは不要です」という。つまり、本物の人物の動きを動画で撮影し、それを静止画像にマップする処理は不要だ。「テキストと写真があれば、その人が話している動画ができ上がります」という。「ただし、まだ完璧な技術ではありません。現状は、本当に良質なリップシンクらしいものを作ったにすぎません」とのこと。

そうやって作成されたライブストーリーは、それを見たり、友だちと共有したり、ソーシャルメディアに投稿することができる。テキストを編集し、さらに話をカスタマイズし、別の声を選んだり、自分が録音したオーディオをアップロードしてもいい。

画像クレジット:D-ID

D-IDの長期的な展望は、この技術をメタバースの環境で使うことだ。メタバースであれば顔だけでなく、デジタルアバターを動画にできるし、体全体の動きを3Dで表現できる。ペリー氏はユーザーが自分の幼児期や家族、歴史的人物の写真をアップロードして、それらをメタバースで動かし、会話をさせることもできると考えている。

「子どもたちがAlbert Einstein(アインシュタイン)と会話して、彼の話を聞いたり、彼に質問したりすることもできるでしょう。しかも彼は疑問に答えてくれます。さらにユニバーサル翻訳であれば、アインシュタインはユーザーの母国語で会話することもできるはずです」。

もちろんそんな技術は何年も先のことだが、実現するとすれば、それらはディープノスタルジーやライブストーリーのような、今日開発したコンセプトに基づいて作られることとなる。

MyHeritageとD-IDはそれぞれ、この技術を別々のやり方でデモする独自のアプリを世に送り出す。D-IDによると、それは数週間後だという。

MyHeritageのライブストーリー機能は本日、米国時間3月3日、家族史テクノロジーのカンファレンスRootsTechで発表された。デスクトップとモバイルウェブ、MyHeritageのモバイルアプリで利用できる。

MyHeritageの創業者でCEOのGilad Japhet(ギラッド・ジャフェ)氏は、ライブストーリーのローンチに関する声明で次のように述べている。「最新機能で、MyHeritageは今後もオンライン家族史の世界をビジョンとイノベーションの両方でリードし続けることになります。AIを利用して歴史的な写真に新しい命を吹き込むことはユニークな機能であり、何百万もの人が先祖や愛する故人との感情的な結びつきを掘り起こし一新することができます。家系の本質は家族史の表現と保存にあり、私たちは世界に向けて家系の楽しさと魅力を伝えていきたい」。

D-IDは、Sella Blondheim(セラ・ブロンドハイム)氏とEliran Kuta(エリラン・クタ)氏が創業。現在、チームは32名で今後は米国や英国、シンガポール、そしてイスラエルでそれぞれ現地の人数を増やし、社員数を倍増したいと考えている。

画像クレジット:D-ID

原文へ

(文:Sarah Perez、翻訳:Hiroshi Iwatani)

iPadで視線によるタイピング、会話、アプリ操作が可能になるケース「TD Pilot」をTobiiが発売

アイトラッキング(視線計測)技術を手がけるスウェーデンのTobii(トビー)は、その技術をApple(アップル)製のタブレットに導入し、iPadを身体障がい者のための強力なオールインワンツールにするためのケース「TD Pilot」を発表した。iPadにTD Pilotを装着したユーザーは、視線だけでアプリを起動したり、すばやくタイピングしたり、合成音声で話したりすることができる。

iPadOS 15では、iPadにアイトラッキング用ハードウェアをネイティブに統合することが可能になったが、Tobiiはおそらく、その分野で最も知られた名前だろう。

筆者はオールインワンのスクリーン型アイトラッカーや、独立型のPC用周辺機器など、同社の製品を数多くチェックしてきたが、いずれも非常にうまく機能した。しかし、Apple側の制限があったせいで、アイトラッキングは主にWindowsマシンで行われてきた。筆者は個人的には気にならないものの、iOSを好む人もいるだろう。今後はiOSでも同じようにアイトラッキングが利用できるようになる。

画像クレジット:Tobii

TD PilotはiPadに装着する大型のケースで、前面にはアイトラッキング装置(実際には驚くほど小さく、カメラが内蔵された小さな帯状のもの)、背面にはステレオスピーカーに加えて、テキストを表示するための小さなスクリーンが備わる。このデバイスのユーザーは、Tobii独自のテキスト音声変換アプリ「TD Talk(TDトーク)」または他の任意のアプリを使って、テキストまたは音声でコミュニケーションをとることができる(単に話すだけではなく、その気になればDJにだってなれる)。

このデバイスは、設定や記号コミュニケーションなど、Tobiiが用意する他の小さなアプリ群も利用できる。

「医学的にも認証されており、Appleの性能基準を満たしていると認定されています」と、Tobii Dynavox(トビー・ダイナヴォックス)のFredrik Ruben(フレドリック・ルーベン)CEOは述べている。「これにより、ユーザーは市場をリードするこの技術にアップデートとサポートが継続されると知ることができ、信頼して使うことができます。また、人気のある技術に向けて開発される可能性がある、安全ではない『ワンタイムハック』を避けることができます」。この発言は間違いなく、アイトラッキングをネイティブにサポートしていない以前のバージョンのOS用に作られた他社のソリューションを暗に示しているのだろう。

Tobiiのアイトラッキングデバイスは誰でも購入することができるが、同社の説明によると、個人のニーズに合わせたソリューション提供の一環として、医師やセラピストから指示されるケースが多いという。その場合は保険でカバーされるが、当然ながら個人によって異なる。筆者は具体的なコストを尋ねたが、Tobiiは回答を避けた。

願わくは、アイトラッキングソリューションによって最も力を得られる人たちが、保険やその他の方法でこの便利なガジェットを簡単に手に入れることができるようになって欲しいものだ。この製品はすでに出荷が始まっているので、発売を待つ必要はない。下の動画で、実際に使用している様子を見ることができる。

画像クレジット:Tobii

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)

エンタメやAR/VRで人気のAI音声・合成発話「ボイススキン」を手がけるLOVOが約4.9億円調達

「ボイススキン」は、AIベースの音声アシスタントで非常に人気のある機能となっている。Alexaのようなサービスで得られる、役には立つが、無味乾燥でロボットのような発話音声といった、より退屈な側面のいくつかをパーソナライズするのに効果を発揮する。さまざまな企業が自社のサービスを横断して利用したり、サードパーティが作成や応用の目的で使用できるようなボイススキンを構築しているスタートアップが、その成長を促すために資金調達を進めている。

カリフォルニア州バークレーを拠点とする人工知能(AI)音声および合成音声ツール開発企業のLOVOは今週、韓国のKakao Entertainment、Kakao Investment、LG GroupのITソリューションアフィリエイトであるLG CNSが主導するプレシリーズAのラウンドで450万ドル(約4億9000万円)を調達した。

以前の出資者であるSkyDeck Fundと、DoorDashの財務担当副社長Michael Kim(マイケル・キム)氏もこのラウンドに参加している。

調達した資金は、人工知能と合成音声の研究開発を推進し、チームを成長させるために使われる。

「機械学習、人工知能、プロダクト開発からマーケティング、ビジネス開発に至るまで、あらゆる分野で人材を大量に採用する計画です。資金はGPUやCPUなどのリソースの確保にも充てられます」と共同創業者でCOOのTom Lee(トム・リー)氏はTechCrunchに語った。

2019年11月に設立されたLOVOには、共同創業者でCEOのCharlie Choi(チャーリー・チョイ)氏とCOOのリー氏を含めて17人が在籍している。

同社は、LOVOのAIモデルをさらに改良し、AIの音声機能を強化し、現在の市場に存在するあらゆるものを凌ぐより良いプロダクトを開発する計画だとリー氏は語っている。

「私たちの目標は、人々の心と感情に触れるようなAIの音声を提供する世界的リーダーになることです。コンテンツ制作における制約を民主化したいと考えています。私たちは音声関連のあらゆるもののプラットフォームになることを望んでいます」とリー氏は続けた。

LOVOのミッションにより、企業や個人のコンテンツクリエイターは、マーケティング、Eラーニング、カスタマーサポート、映画、ゲーム、チャットボット、拡張現実(AR)、仮想現実(VR)で使用するためのボイスオーバーコンテンツを生成することが可能になる。

「1年少し前にローンチして以来、ユーザーは私たちのプラットフォーム上で500万以上の音声コンテンツを作成してきました」と共同創業者でCEOのチョイ氏は語る。

LOVOは2020年に最初のプロダクト「LOVO Studio」をリリースしている。個人や企業が欲しい音声を見つけたり、ボイスオーバーコンテンツを制作、公開したりするための使いやすいアプリケーションだ。開発者はLOVOのVoiceover APIを利用して、自分たちのアプリケーションに統合された形で、テキストをリアルタイムでスピーチに変換できる。ユーザーは、LOVOのDIY Voice Cloningサービスを使って15分のスクリプトを読むだけで、自分のAI音声を作ることができる。

LOVOは200以上のボイススキンを所有しており、ユーザーのさまざまなニーズに適した言語、スタイル、状況に基づいて分類された音声を提供している。

リー氏によると、世界のテキスト読み上げ(TTS、text to speech)市場は30億ドル(約3300億円)と推定され、ボイスオーバー市場は100億ドル(約1兆1000億円)前後になるという。2021年8月に公開されたResearch Interviewerのレポートでは、世界のTTS市場は2020年の19億4000万ドル(約2127億円)から2028年までに56億1000万ドル(約6151億円)増加すると予測されている。

LOVOはすでに5万人のユーザーを獲得しており、米国のJ.B.Hunt、Bouncer、CPA Canada、LGCNS、韓国のSinhan Bankなど50社以上の企業顧客がいるとリー氏は述べている。

LOVOの4つのコアマーケットは、マーケティング、教育、映画およびゲームなどのエンターテインメント、そしてAR / VRであるとリー氏は語る。Saw(ソウ)シリーズの最新作である映画「Spiral(スパイラル:ソウ オールリセット)」には、LOVOの声が出演しているという。

韓国のエンターテインメント企業からの最新の資金調達を受けて、LOVOはエンターテインメント業界にさらなる相乗効果をもたらすことが期待されている。

Kakao EntertainmentのCEOビジョンオフィスの副社長であるJ.H. Ryu(J.H.リュウ)氏は「LOVOとKakao Entertainmentのエンターテインメント垂直分野、特にウェブ小説や音楽における将来の取り組みとの相乗効果に期待しています」と述べ「AI技術はオーディオコンテンツの新しい市場への扉を開きつつあり、個人の声が知的財産や資産として有効に活用される未来が期待されます」と言い添えた。

SkyDeck Fundの創設パートナーであるChon Tang(チョン・タン)氏は次のように述べている。「オーディオは情報の一形態として独自の魅力を持っていますが、特に大規模に生産するには困難が伴います。LOVOの人工知能ベースの合成プラットフォームは、品質とコストにおいて他のクラウドベースのソリューションよりも一貫したパフォーマンスを示しています」。

LOVOはまた、国際市場へのさらなる進出を準備している。「当社は米国、英国、カナダ、オーストラリア、ニュージーランドで強力なプレゼンスを確立しており、その他の欧州、南米、アジアからもシグナルを受けています」とリー氏は語る。LOVOは韓国にオフィスを構えており、近いうちに欧州への進出を予定していると同氏は付け加えた。

画像クレジット:LOVO

原文へ

(文:Kate Park、翻訳:Dragonfly)

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

東京工業大学発のAI音声合成スタートアップYellston(エールストン)は9月16日、自分や著名人の声を「フォント」化して音声合成ができるプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)に、喜びや怒りなどの感情表現機能を追加したと発表した。

現在は、男性バーチャルキャラクターであるアベルーニに感情機能を実装。通常の声に加えて、喜怒哀楽の4種類の声のフォント(CoeFont)があり、それぞれの感情のこもったテキスト読み上げをしてくれる。これらのCoeFontを組み合わることで、表現豊かな音声合成を作ることができる。同様に、女性バーチャルキャラクターのアリアルにも感情のCoeFontをリリース。アリアルの感情CoeFontは、同社が提供するウェブ音声合成サービス「CoeFont Studio」でも、週替わりで一部公開している。

今後は、一般ユーザーも感情を込めた自分の声を収録することで、自分の感情CoeFontが作れる感情追加機能をリリースする予定とのことだ。

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

声を失った声帯摘出者のCoeFont CLOUD利用が無料に、自分のAI音声による会話を支援

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月9日、自分の声を取り込んで音声合成が行えるサービス「CoeFont CLOUD」を、声帯摘出によって声を失った人たちに無料提供すると発表した。これを利用すれば、スマホやパソコンで文章を入力するだけで、自分の声で会話ができるようになる。

申し込みは、「CoeFont CLOUD 声帯摘出者向けプラン申請フォーム」から行える。

AI音声合成プラットフォーム「CoeFont CLOUD」では、自分の声を収録すれば、それが音声合成用の声のフォント「CoeFont」(コエフォント)に変換され、自分の合成音声でテキストの読み上げが行えるようになる。自分の「CoeFont」はクラウド上で公開でき、他のユーザーがそれを利用すれば作成者に収益が還元される仕組みもある。APIを使ってアプリやウェブサイトに組み込むことも可能。

Yellsotneでは、CoeFont CLOUDの場合これまで料金500円・最短15分の収録としていたが、今後は、声帯摘出を行った人は無料で使えるようになる。

テレビのニュース番組では、声帯摘出を行い「CoeFont CLOUD」利用している人のインタビューが放送された。その人は「CoeFontに出会えて、本当に救われました。今まで全く縁のなかったAI技術の進歩と素晴らしさに本当に驚いています」と話していたという。

実は、こうした使われ方は当初は想定していなかった。Yellstone創業者で代表取締役の早川尚吾氏は、こう話す。

「声帯摘出者の方が利用するという、自分が考えていなかった使われ方に最初は驚きました。実際に会話で使っていただいている動画を見ると、自分が作ったものが人の役に立っているということがこんなにも嬉しいのかと思いました」

「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

東京工業大学発のAI音声合成スタートアップYellstone(エールストン)は9月7日、人の声をフォント化して音声合成を行うプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)を利用し、小学館と協働でAI音声合成オーディブックの試聴版を作成したと発表した。

第1弾は、「鬼滅の刃」産屋敷耀哉(うぶやしきかがや)役やトム・クルーズの吹き替えで知られる声優・森川智之さんの合成音声によるオーディオブック「なぜ”ブブカ”はスポーツでもビジネスでも成功し続けるのか」(小学館:セルゲイ・ブブカ著)。特設ページにおいて、期間限定で一部を無料公開している。「CoeFont Cloud」と小学館が協働し声優・森川智之さんの音声フォントを採用したAI音声合成オーディブックの試聴版公開

CoeFont Cloudは、最短15分の収録で、その人の声を音声合成用の「フォント」に変換し、それを使ってテキストの読み上げが行えるというサービスを行っている。今回は、森川智之さんが約2時間かけて収録した音声からAI音声合成を行い、「なぜ”ブブカ”はスポーツでもビジネスでも成功し続けるのか」の第1章のオーディオブック試聴版(約31分)を完成させた。

Yellstoneは、2021年4月に、デジタルキャラクターや著名人の声でテキストの読み上げができる「CoeFont Studio」をリリースした。リリース3日目にして5万人のユーザー数を獲得した。CoeFont Cloudはそれを発展させて、自分の声のフォントを作って読み上げができるようにしたサービスだ。

森川智之さんは、今回の試みについて「……この技術革新が不安な影も落とすのではと感じる方も多いのではないでしょうか。人工知能は黙っていても学習していきます。技術の進歩は日進月歩です。それならば、誰もが参加でき、その進歩の礎となり、みんなが見守りながらオープンスタイルで育てていくAIの音声合成」というYellstonの考え方に賛同したとのこと。

さらに、「私の音声サンプルによるAI音声合成は、まだまだ発展途上、点数を付ければ45点。細部にわたる表現力が課題で、100点には遠く及びません。しかし、これに皆さんが参加することによって、AIが学習を重ねていけば、より理想とする表現に近づくことは間違いありません」と述べている。

円滑なカスタマーサービスのために、あるアクセントをリアルタイムで別のアクセントに変換させるSanas

カスタマーサービス産業では、アクセントが仕事のさまざまな側面を左右する。本来アクセントには「良い」も「悪い」もないはずだが、現在のグローバル経済(とはいえ明日のことは誰にもわからないが)では、米国人や英国人のアクセントのように聞こえることには価値がある。多くの人がアクセントを補正するトレーニングを受けていいるが、Sanas(サナス)はそれとは違うアプローチを採用するスタートアップだ。同社は音声認識と音声合成を利用して、ほぼリアルタイムで話し手のアクセントを変える。同社はまた550万ドル(約6億1000万円)のシード資金を調達している。

同社は、機械学習アルゴリズムに訓練を施し、人間の発話をすばやくローカルに(つまりクラウドを使わずに)認識し、同時にその同じ単語をリストから指定したアクセントで(または相手の会話から自動的に検出したアクセントで)出力する。

画像クレジット:Sanas.ai

このツールはOSのサウンドスタックに直接組み込むことができるので、ほとんどのオーディオ / ビデオ通話ツールですぐに使用することができる。現在同社は、米国、英国、フィリピン、インド、ラテンアメリカなどの拠点で、数千人規模のパイロットプログラムを運用している。年内には米国、スペイン、英国、インド、フィリピン、オーストラリアのアクセントに対応する予定だ。

正直なところ、最初はSanasのようなアイデアには賛成できなかった。それは、自分のアクセントが優れていて他の人を下に見ているような偏狭なな人たちに譲歩しているように感じたからだ。偏狭な人たちを許容する方向で、技術が問題を解決する……。いいだろう!

だが、まだその気持ちは少し残っているものの、やがてそれだけではないことに私は気づいた。基本的には、自分と同じようなアクセントで話している人の方が、理解しやすいということだ。しかし、カスタマーサービスやテクニカルサポートは巨大な産業であり、実際には顧客がいる国以外の人びとによって行われていることが多い。この基本的な断絶を改善するには、初級レベルの労働者に責任を負わせる方法か、テクノロジーに責任を負わせる方法がある。どちらの手段をとるにせよ、自分を理解してもらうことの難しさは変わらず、なんとか解決しなければならない。自動化されたシステムはそうした仕事をより簡単に実現し、より多くの人が自分の仕事をできるように手助けしてくれるだけのことだ。

もちろんこれは魔法ではない。以下のクリップからわかるように、話者の特徴や調子は部分的にしか保持されておらず、結果としてかなり人工的な音になっている。

しかし、技術は進歩を続けているので、他のスピーチエンジンと同様、使えば使うほど良くなっていくだろう。また、元の話者のアクセントに慣れていない人にとっては、米国人のアクセントの方が理解しやすいかもしれない。つまりサポート役の人にとっては、自分の電話がより良い結果をもたらすことになり、誰もが得をすることになる。Sanasによると、パイロット版はまだ始まったばかりなので、この運用によるちゃんとした数字はまだ出ていないものの、試験運用によっても、エラー率が大幅に減少し、対話効率が向上していることが示唆された。

いずれにせよ、Human Capital、General Catalyst、Quiet Capital、DN Capitalが参加した550万ドル(約6億1000万円)のシードラウンドを獲得できたことは喜ばしい。

今回の資金調達を発表したプレスリリースで、CEOのMaxim Serebryakov(マキシム・セレブリャコフ)氏は「Sanasは、コミュニケーションを簡単で摩擦のないものにするために努力しています。これにより人びとは、どこにいても、誰とコミュニケーションをとろうとしても、自信を持って話しお互いを理解することができるのです」と語っている。そのミッションに反対することはできない。

アクセントや力の差といった文化的・倫理的な課題がなくなることはないだろうが、Sanasが提供する新しい試みは、プロとしてコミュニケーションをとらなければならないのに、自分の話し方がその妨げになっていると感じている多くの人にとって、強力なツールになるだろう。これは、たとえ完璧な世界であったとしても、お互いをよりよく理解するために、探求し議論する価値のあるアプローチだ。

関連記事
LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択
東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始
異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達
画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Devin Coldewey、翻訳:sako)

500円・約15分間の収録で自分の声によるAI音声合成を可能にする「CoeFont CLOUD」が先行公開を開始

500円・約15分間の収録で自分の声によるAI音声合成を可能にする「CoeFont CLOUD」が先行公開を開始

東京工業大学2年生で19歳の早川尚吾氏が設立し、社長を務めるAI音声合成スタートアップYellston(エールストン)は7月19日、1回の料金500円で約15分間の収録を行えば、AIが自分の声を音声合成用の声のフォント「CoeFont」(コエフォント)に変換してくれるサービス「CoeFont CLOUD」の先行リリース開始を発表した。

2020年11月設立のYellstonは、「CoeFont Studio」(コエフォントスタジオ)を2021年4月にリリースした。デジタルキャラクターや著名人の声でテキストの読み上げをさせることができるサービスだ。リリースから3日で5万人のユーザー数を獲得、月間ユーザー数は20万人に達したという。凪白みとのイラストで、浅木ゆめみが声を提供しているAllial(アリアル)とMillial(ミリアル)という双子キャラクターの声は無料で試すことができ、すでに二次創作などに多く利用されているそうだ。

CoeFont Cloudは、それを自分の声で行えるというもの。自分の声のフォントを公開できるが、「CoeFont Official」を利用すれば、気象予報士の森田正光、野球解説の藪恵壹などの著名人や声優の声フォントを自分の作品に使うこともできる。公開された声は、利用された場合に文字数に応じて本人に料金が支払われる。

このサービスの特徴は、文脈からアクセントを予測し、深層学習で自然な音声合成を行うところにある。ウェブサービスなので利用環境を選ばず、アクセントや速度の編集などすべてがウェブ上で行える。公開範囲は設定によって限定が可能。テキストを読み上げた音声はダウンロードして、オーディオブックや動画のナレーションなどに利用できる。さらに、APIが提供されるので、アプリに組み込んでコメントを読み上げるなどの活用が可能になる。自分の声が悪用される心配があるが、放送禁止用語や汚い言葉は合成できないように配慮されている。

音声作品の制作のみならず、声帯の切除手術を予定しているガン患者が、事前に自分のCoeFontを作っておき、後にそれを使って会話をするという利用法も、すでに実施されているという。

「CoeFont Cloud」は現在、先行体験期間中。先行利用には「CoeFont CLOUD先行利用申請」での申請が必要で、Yellstonが利用できる人を選考する仕組みになっている。

今後も、より自然に、精度の高い音声合成を目指して、これからも研究を重ねてゆくとのことだ。

関連記事
Twitterが音声ツイートに自動文字起こし機能追加、社内にアクセシビリティ専門チームを用意し取り組む
人と間違えるほど自然な合成音声を高速で作成するツールをWellSaid Labsが開発
質と量で世界初、工学院大学が約6360手話単語と10テーマ10件の対話を収録した高精度3D日本手話データベースを提供開始
生命保険の約款や学校教材における漢字の誤読を低減、正確なイントネーションで音声合成を自動生成するAIシステム
AIチャットボット「りんな」のrinnaとUneeQを日本展開するデジタルヒューマンが協業、顔・声・視聴覚を持つ雑談AI実現
日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化

カテゴリー:ネットサービス
タグ:Yellston(企業)音読(用語)合成音声(用語)ディープラーニング / 深層学習(用語)東京工業大学(組織)日本(国・地域)

アンソニー・ボーディン氏の最新ドキュメンタリー「Roadrunner」にはディープフェイク音声が使われている

米国時間7月16日、Anthony Bourdain(アンソニー・ボーディン)氏を描いたドキュメンタリー映画「Roadrunner」が米国の劇場で公開される。多くのドキュメンタリーと同様に、本作はインタビューや未公開シーンを含む数多くの記録映像から作られており、主人公の物語を自身の言葉で語らせようとしている。作品ではボーディン氏が2018年に自殺する前にカメラの前で話したことのなかった言葉も、彼の声で聞くことができる。

The New Yorker(ニューヨーカー)のインタビューに答えて、同作品の監督であるMorgan Neville(モーガン・ネヴィル)氏は、ボーディン氏に話して欲しかった発言が3つあったが、録音がなかったので代わりにソフトウェアを使って再現した、と語った。「彼の声のAIモデルを作りました」と同監督がNew Yorkerに語った。

それは簡単な仕事ではなかったようだ。別のGQのインタビューでネヴィル氏は、プロジェクトについて4つの会社と話をして一番良いところに決めたと語った。その会社は約10時間の音声をAIモデルに読み込ませた。ネヴィル氏が望むソフトウェアで再現するボーディン氏の正確な口調を決めるのには多大な労力が必要だった。作家で旅行家だった彼が文章を口述するやり方は長年のTV出演の間に大きく変わったからだ。

これまでに見たことのあるAIディープフェイクで人を騙すやり方と比べて、出来は悪くないが、倫理的にはやはり疑問が残る。私が知る限り、この映画にボーディン氏の声をAIで再現したことを示す情報開示はない。「この映画を見たら、わかっているもの以外、どのセリフをAIがしゃべっているのかは、たぶんわからないでしょう」とネヴィル氏はThe New Yorkerに話した「後日ドキュメンタリー倫理委員会を開くかもしれません」。GQのインタビューでは、ボーディン氏の遺族が彼に「トニーが生きていれば喜んだことでしょう」と言ったことを話し「私は彼の言葉を生き返らせようとしただけ」と付け加えた。

【編集部注】本稿(原文記事)はEngadgetで掲載された。

カテゴリー:人工知能・AI
タグ:映画合成音声ディープフェイク

画像クレジット:CNN / Focus Features

原文へ

(文:Igor Bonifacic、翻訳:Nob Takahashi / facebook

人と間違えるほど自然な合成音声を高速で作成するツールをWellSaid Labsが開発

WellSaid Labs(ウェルセド・ラボ)は、本物と間違えるような合成音声を作成するツールを提供しているスタートアップ企業だ。同社は事業拡大のために、シリーズA投資ラウンドで1000万ドル(約11億円)の資金を調達した。同社が自社開発したテキスト読み上げエンジンは、リアルタイム以上に高速で処理を行い、短い言葉から数時間にわたる朗読まで、自然な読み上げ音声を作成できる。

WellSaidは、2019年にAllen Institute(アレン研究所)によるAIスタートアップのためのインキュベーターから登場した。その目標は、トレーニングやマーケティングなどの一般的なビジネス業務に使える、ロボットのように聞こえない合成音声を作ることだ。

関連記事:WellSaidは人間の代役が務まるほど自然な合成音声を公開

同社はまず、Google(グーグル)と学術研究者が開発した音声合成エンジン「Tacotron(タクトロン)」をベースにして、最初のソリューションを構築した。しかし、それからすぐに、より効率的で、より説得力のある音声を生成し、任意の長さのクリップを作成できる独自のシステムを作り上げた。

音声合成エンジンは通常、2つか3つの文章で行き詰まり、そこから先は不自然な抑揚になったり意味不明になることが多い。しかし、WellSaidの音声合成エンジンは、Mary Shelley(メアリー・シェリー)の「Frankenstein(フランケンシュタイン)」を、最後まで何の問題もなく読み上げた

その声は、聞いた人から「人間らしい」「人間に近い」と評価されるほど優れたものだった。そんなことは、通常のバーチャルアシスタントが片言以上の言葉を話す場合には、あまり言えないものだ。それだけでなく、その合成音声は、人間がリアルタイムで読み上げるよりも速く生成された。他の音声合成エンジンでは、高品質な音声の生成を選択した場合、リアルタイムの10分の1かそれよりも遅い速度で動作することが多い。つまり、3分間のスピーチを生成するのに、WellSaidなら1分、Tacotronでは30分以上かかるということだ。

さらにこのシステムでは、信頼のおける企業のスポークスマンやナレーションアーティストなど、既存の声優をベースに新しい「ボイスアバター」を作成することもできる。彼らの癖や口調のモデルを構築するためには、当初は約20時間の音声が必要だったが、今ではわずか2時間の音声でそれが可能になったと、CEOのMatt Hocking(マット・ホッキング)氏はいう。

同社は現在のところ、企業向けに特化している。つまり、自分の声をデジタル化してアバターにできるようなユーザー向けのアプリはない。それにはリスクがともなうし、現実的なビジネスモデルもないので、今のところは考えていないという。

しかし、このようなリアルな声は、障がいのある人にとって大いに役立つ可能性がある。ホッキング氏は、そのことを認識しつつも、まだ取り組む準備ができていないことを認めている。

画像クレジット:WellSaid Labs

「非言語伝達者や非営利団体などがこの技術の恩恵を受けられるように、この技術へのアクセスを拡大することを約束します」と、同氏は語っている。

その間に同社は、最初の市場である企業のトレーニングビデオから、マーケティング、長文のコピー、かなりのテキストを含むインタラクティブな製品、そしてアプリ体験へと拡大してきた。これらのアバターのモデルとなったタレントが、自分の声をデジタルで再現するのに協力することで、適切な報酬を得られるようになることも期待できる。

今回の募集枠を超えた1000万ドルの資金調達は、ベンチャーキャピタルのFUSE(ヒューズ)が主導し、リピート投資家となったVoyager(ボイジャー)、Qualcomm Ventures LLC(クアルコム・ベンチャーズ合同会社)、GoodFriends(グッドフレンズ)が参加した。合成音声はいくつかの一般的なユースケースで利用されているものの、コンテンツはそれほど大きくない。つまり、成長の余地は十分にあるということだ。同社はさらなる製品の充実と、それにともなうチームの拡大のために、この資金を投資する予定だ。

関連記事
WellSaid Labs、合成音声を数秒間のクリップから数時間のクリップへと進化
動画音声を本人の自然な声で別言語に吹き替えるAIシステム開発のPapercupが約11億円調達
AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

カテゴリー:ソフトウェア
タグ:WellSaid Labs合成音声資金調達

画像クレジット:incomible/iStock /

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)

AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

ロンドンとバルセロナを拠点とするAudio-as-a-Service SaaSスタートアップAflorithmic(アフロリズミック)が、シードラウンドでCrowd Media Holdings(インフルエンサーベースの「ソーシャルコマース」とマーケティングに注力したオーストラリア拠点の企業)から130万ドル(約1億3605万円)の資金を調達した。

プレスリリースによると、クラウドメディアホールディングスはAflorithmicの10%の株式を取得することになり、この戦略的投資の目的は「クラス最高の音声クローン技術」によって有名人とFaceTimeで会話できるようにすることだという。

Aflorithmic(アフロリズミック)という社名は発音しにくいかもしれないが、この創業2年のスタートアップが提供するのは会話と音声そのものだ。同社はAI駆動型の合成メディア、「エシカル(倫理的)な」音声クローニング、オーディオマスタリングを使用して、完全に自動化されたスケーラブルな音声制作プラットフォームを構築した。開発者はAflorithmicのAPIを使用して、ウェブサイト、モバイルアプリ、スマートスピーカーなどのチャネルを介してユーザーに音声を届けることができる。

「テキストを美しい音声として出力」というのがAflorithmicの謳い文句だ。同社は今回のシードラウンド以前に、88万7000ドル(約9275万円)以上の外部資本を調達した。具体的には、創業後10カ月間を自己資金で運営した後、プレシード / FFF / エンジェルの各ラウンドで上限を超過する応募申し込みがあった。

Aflorithmicのウェブサイト上サンプルクリップでは、合成音声(ロボット音声)のボイスオーバーがお客様にあいさつした後、設定済みコンテンツの詳細を説明するパーソナライゼーション要素が紹介されている。

Aflorithmicの現顧客(概念実証 / パイロット版)は同社のツールを使用して、子ども向けオーディオブック、健康 / 栄養プログラムのパーソナライズされたナレーション、ホテルの宿泊客用コンシェルジュサービスなどを作成している。同社ビジネスの前提に、スタジオ製作での肉声によるボイスオーバーでは、音声コンテンツに対する現在の多様なニーズに到底対応できないという考え方がある。

そこで、その需給ギャップを埋めるために合成メディアが必要になるというわけだ。合成メディアを使えば、ブランドや企業の特定の顧客向けにパーソナライズされた多種多様な音声トラックを提供できる。現時点ではEdTech、MarTech、ヘルス / フィットネスといった業界を中心として、初期のベータ顧客向けに10ほどのプロジェクトが進行している。

同時に、ポッドキャストや生音声のストリーミングの人気も衰えを知らず、動画偏重時代でも音声が生き残れることを示している。

関連記事:イーロン・マスク氏がClubhouseに登場、ファンがYouTubeへライブストリーム、途中からRobinhood CEOへのインタビューに

Aflorithmicの新しい投資家であるクラウドメディアホールディングスは、Aflorithmicのツールで実現できることについてかなり野心的なアイデアを持っており、それは「消費者によるeコマースの利用形態を根本から変える」ものになるという。

同社がAflorithmic(AFLR)に対する投資を決断したのは、合成音声を動画と組み合わせて、お気に入りの有名人とのビデオチャットを再現し、ファンが体験できるようにするという計画があったからだ。

Aflorithmicに出資してこのプロジェクトで提携することにより、この計画にともなうリスクを軽減することができるという。

「AFLRの音声技術を利用すると、有名人のアクセント、トーン、癖などを再現できるので、まるでその有名人が電話の向こうにいるような感覚を味わうことができる」とクラウドメディアは説明する。この未来のクローン有名人が優しくささやく「実際のコンテンツ」は、同社のAI駆動型チャットボットテクノロジーによって実現されるという。このチャットボットは、ユーザーが投稿した1億8000万件を超える質問に対する回答(テキストのみのメディア)から構築されたナレッジベースに基づいて動作する。

こうしたテキストを、聞き手を癒やす合成音声に変えてくれるのがAflorithmicのテクノロジーだ。クローン有名人の動画では3D画像が使用されることになるが、そのためのテクノロジーは合成メディア企業3社(英国拠点のForever Holdings、デジタルヒューマン製作企業のZoe01とUneeq)によって提供される。

クラウドメディアは、Aflorithmicのテクノロジーをより広範囲に活用し、AI駆動型のチャットボット(CM8)といった同社のその他ソーシャルコマースアプリに統合していくという。これは、マーケティング、教育、ヘルスケアなど、業界を越えたカスタマーサービスでの利用を狙ったものだ。

一方、Aflorithmicは今回調達した資金をAPI音声制作エンジンの研究開発、音声クローニング、人材獲得に使用する計画だという。

同社は、APIベースのAudio-as-a-Serviceを幅広い顧客に提供している。その使用事例には、高度にパーソナライズされたニュースレターとポッドキャストやマーケティングアプリケーション用の音声クローニングなどがある。

また、膨大な音声ライブラリーが用意されていて顧客がロボットスピーカーを選択できるのも同社の売りだ。それだけでなく、ユーザーは自身の音声スニペットを録音しておき、音声クローニングAIを使用して、パーソナライズされた音声コンテンツを制作できる。

ユーザーは、音楽や複雑なオーディオエンジニアリングを含む、プロレベルのコンテンツを制作し、最終製品をウェブサイト、モバイルアプリ、スマートスピーカーといったあらゆるデバイスやプラットフォームに配信できる。製作経験は一切不要だという。

Aflorithmicの共同創業者でCEOのTimo Kunz(ティモ・クンツ)氏は次のように語った。「会社を大量消費市場に進出させる上でクラウドメディアの経験から学べることを楽しみにしている。また、ソーシャルコマースの未来をかたち作る同社の試みに参加することができてうれしく思う。音声制作は今後、自動化されたスケーラブルでダイナミックな体験へと変わっていくと確信している。当社はまさにそれを先導している」。

「合成音声の制作には、ほぼ無限と思える可能性がある。マーケティングアプリケーションだけをとってみてもその可能性は驚くほどだ」と同氏はつけ加えた。「Kim Kardashian(キム・カーダシアン)が2億人もいる彼女のフォロワーのパーソナルショッパーになり、Pirelli(ピレリ)のP Zero ROSSOの新しいタイヤが必要な理由をLewis Hamilton(ルイス・ハミルトン)が個人的に説明してくれる、そんな未来を想像してみてほしい。当社のテクノロジーを使えばそうした未来がまもなく現実となる」。

また、ビジネスモデルに関して同氏は次のように語った。「当社は、TwilioやMessagebirdと同じようなSaaSを使用している。基本は使用量、つまり再生された音声トラック数に応じた月額サブスクリプションだ。ただし、無料の試用期間も用意している。研究開発の側面が多い大規模なコラボレーションの場合は、カスタム価格の交渉にも応じる」。

Aflorithmicの他の2人の共同創業者はPeadar Coyle(ピーダー・コイル)氏とBjörn Ühss(ビョルン・アス)氏である。

Aflorithmicが音声クローニングを形容するのに使っている「エシカルな」という言葉は、合成メディア制作を支援する商用ツールの開発に取り組んでいるすべての企業にとって避けて通れない課題を示している。

有名人のクローンはおもしろそうだが、個人の音声クローニングは、フィッシング詐欺、個人情報の盗難、感情操作、脅迫など、悪用または乱用される可能性が非常に高い。著作権も考慮する必要がある。

Aflorithmicのウェブサイトにある倫理セクションには、パーソナライズされた音声をスケーラブルにすることにともなうリスクを認める記述がある。そこには「優れたイノベーションには大きな責任がともなう」と書かれており、「当社は、英国EUの『Ethics Guidelines for Trustworthy Artificial Intelligence(信頼できるAI開発のための倫理ガイドライン)』に従って、エシカルかつ公正で、透明性の高いAIを提供することに全力で取り組んでいる。当社のコンテンツ、音声モデル、およびアルゴリズムのトレーニングは、規制に完全に準拠し、個々のデータ所有者の承認を得たものである」とある。

音声クローン技術の悪用を防ぐ方法について、クンツ氏は次のように語った。「これは大きな問題だ。当社は合成音声の使用に関する倫理的側面について早い段階から考えると同時に、セキュリティについても非常に真剣に検討している。セキュリティは潜在的顧客との早期の話し合いにおいて重要な鍵を握っている。当社は音声データを機密性の高い個人情報と見なし、そうした情報と同様に慎重に扱っている。当社のテクノロジーで音声をクローニングするすべてのお客様は、音声提供者の同意があることを書面で当社に提出する必要があり、当社は特に初期段階において、その音声の使われ方を詳細に確認する」。

「また、当社のAPIインフラストラクチャは、当社のチームによってオンボーディングおよび精査された有料ユーザーのみにアクセスを許可するよう安全に設計されている」。

「当社は最近のディープフェイクの流行には乗らないよう意識的に注意を払っている。ディープフェイクは否定的な響きがあるだけでなく、当社のテクノロジーの有意義な使い方ではない」と同氏はつけ加えた。

Aflorithmicは競合他社としてDescript(ディスクリプト)を挙げる。ディスクリプトは2021年1月に3000万ドル(約31億3900万円)を調達し、別の音声クローニングスタートアップであるLyrebird(ライアーバード)を2019年に買収した。Descriptのツールは動画と音声の両方に対応しているのに対し、Aflorithmicは音声制作プロセス全体の自動化に重点を置いている。

「Descriptはどちらかというと制作者向けツールという位置づけだ。すばらしいツールであり、優れた機能を備えている。しかし、テキストから音声への変換、音楽と音声の編集、後工程に至るまでの制作プロセス全体をカバーしているわけではない。こうしたプロセスの自動化は重要な点だ。音声制作をクラウドに移行することで、規模のメリットが得られ、あらゆるリスナー向けに異なる音声トラックを作成できるようになる」とクンツ氏はいう。

「Descriptは、編集を容易にするための音声版Photoshopのようなスタジオ機能に重点を置いているが、当社は自社製品をどちらかというと音声版Stripeのように考えており、企業が単なる編集ではなく当社のAPIを使用して自社製品にAudio-as-a-Serviceを簡単に組み込むことができるようにしている」。

「Peloton(ペロトン)のようなヘルスケアアプリを例に説明すると、当社の方式では、高度にパーソナライズされたワークアウトをとても簡単に作成できる。高度にパーソナライズされたAIコーチをワークアウトに取り入れ、運動を続けるモチベーションを保つようユーザーをサポートする。これでユーザーは、ワークアウトデータの履歴やパーソナルベストに基づいてモチベーションを与えてくれるパーソナルトレーナーが自分の隣にいるような感覚を味わえる」。

「動画に関しては、慎重な選択だった」という。「音声は極めて個人的で、適切なニュアンスを出すのは複雑で難しい。当社は複数のAI動画プラットフォームと提携しており、こうした企業に音声を提供している。動画制作企業は合成音声がどれほど難しいかわかっているからだ」。

カテゴリー:ネットサービス
タグ:Aflorithmicm合成音声資金調達

画像クレジット:画像クレジット:Rick Stufflebean

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)

動画音声を本人の自然な声で別言語に吹き替えるAIシステムのPapercupが約11億円を調達

すでにゲームやテレビ業界で使われているが、話した人の声で別の言語に変換するスピーチ技術を開発した英国のAIスタートアップPapercup(ペーパーカップ)は、800万スターリングポンド(約11億円)の資金を調達した。

このラウンドはLocalGlobeとSands Capital Venturesが主導し、Sky、GMG Ventures、Entrepreneur First(EF)、BDMIが参加している。Papercupは今回の資金を機械学習研究と、AI通訳動画の品質改善やカスタマイズのための「Human in the loop」(人間参加型)品質管理機能の拡大に追加投入すると話している。

Papercupは、これ以前からエンジェル投資家の支援も受けている。その中には、後にAmazon(アマゾン)に買収されAlexaを誕生させたEvi Technologies(イービー・テクノロジーズ)の創設者William Tunstall-Pedoe(ウィリアム・タンストールペドー)氏や、Uber(ウーバー)で主任サイエンティストとAI担当副社長を務め、現在はGoogle Brain(グーグル・ブレイン)リーダーシップチームの一員であるZoubin Ghahramani(ズービン・ガラマニ)氏も含まれている。

2017年、EFの企業創設者向けアクセラレータープログラム参加中にJesse Shemen(ジェシー・シーメン)氏とJiameng Gao(ジアメン・ガオ)氏が立ち上げたPapercupは、話し手の声や話し方をそのままに別の言語に変換する能力、と同社が説明するAIと機械学習に基づくシステムを開発している。よくあるテキストの読み上げシステムとは異なり、通訳された音声は人間の声と「判別が不可能」だと彼らは主張している。しかも、そこがユニークな点だと思われるが、話し手の声の特徴もできるだけ引き継がれる。

もともとこの技術は、すでにこれを利用しているSky News(スカイ・ニュース)、Discovery(ディスカバリー)、YouTube(ユーチューブ)の人気チャンネル「Yoga with Adriene」、その他の動画を自主制作するクリエイターたちに向けて開発された。その売り文句は、もっとずっと幅広い応用が可能であり、したがって本物の人間による吹き替えに取って代わる安価な手段だと訴えている。

「世界の動画と音声のコンテンツは1つの言語に縛られています」とPapercupの共同創設者でCEOのシーメン氏はいう。「YouTubeの数十億時間分の動画、何百万本というポッドキャスト、Skillshare(スキルシェア)やCoursera(コーセラ)の何万件ものオンライン学習講座、Netflix(ネットフリックス)の何万本もの番組などもそうです。そうしたコンテンツの所有者は、ほぼ全員が世界展開を強く望んでいますが、字幕に勝る簡単で費用対効果の高い方法がまだありません」。

もちろん「予算がたっぷりあるスタジオ」なら、プロ用の録音施設で声優を雇い最高級の吹き替えが可能だが、ほとんどのコンテンツ所有者には高すぎて手が出せない。裕福なスタジオであっても、対応する言語が多ければ、制約が加わわるのが普通だ。

「そのため、ロングテールやそれに準ずるコンテンツ、それはまさに全コンテンツの99%に相当しますが、その所有者は海外のオーディエンスにリーチしたいとき、字幕以上の方法を諦めたり、そもそも不可能だったりします」とシーメン氏。もちろん、そこがPapercupの狙い目だ。「私たちの目標は、翻訳された言葉を、できるだけ元の話し手の声に近づけることです」。

それを実現させるために、Papercupは4つの課題に取り組む必要があったという。1つめは「自然に聞こえる」声だ。つまり、合成音声をできる限り明瞭で人間の声に近づけることだ。2つめの課題は、元の話し手が表現した感情や速度(つまり喜怒哀楽)を失わないこと。3つめは、人の声の特徴を捉えること(たとえばドイツ語でもモーガン・フリーマンが話しているように聞こえるといったように)。そして最後は、翻訳されたセリフを動画の音声に正確に揃えることだ。

シーメン氏はこう説明する。「私たちはまず、できる限り人間に近い、自然に聞こえる音声を作ることから始めました。その目的に沿って技術の洗練させてゆく過程で、私たちは音質の面で飛躍的な技術革新を果たしました。いま作られているスペイン語音声合成システムの中で、私たちのものは最高水準にあります」。

「現在私たちは、さまざまな言語に変換するときに、元の話し手の感情や表現をできるだけ残したままで行う技術に重点を置いています。その中で、これこそが吹き替えの質を左右するものだ気がつきました」。

間違いなくこれが最も大きな難関となるが、次の課題は「話者適応」だ。つまり、話し手の声の特徴を捉えることだ。「それが適応の最終段階です」とPapercupのCEOは話す。「しかし、それは私たちの研究で最初に実現したブレイクスルーでもあります。私たちにはこれを達成できるモデルはありますが、感情や表現に多くの時間をかけています」。

とはいえPapercupは、いずれはそうなるかもしれないものの、完全に機械化されているわけではない。同社では、翻訳された音声トラックの修正や調整に「人間参加型」のプロセスを採り入れている。そこでは、音声認識や機械翻訳のエラーの修正、タイミング調整、さらには生成された音声の感情(喜びや悲しみ)の強調や速度の変更が人の手で行われている。

人間参加型の処理がどれほど必要になるかは、コンテンツのタイプや、コンテンツ所有者のこだわりによって異なる。つまり、どれだけリアルで完璧な吹き替え動画を求めるかだ。逆にいえば、これはゼロサムゲームではないため、大きな規模で考えた場合、大半のコンテンツ所有者は、そこまで高い水準は求めないということだ。

この技術の始まりについて尋ねると、共同創設者でCTOのジアメン・ガオ氏の研究からPapercupはスタートしたとシーメン氏は答えた。ガオ氏は「驚くほど頭が良く、異常なほどに音声処理にのめり込んでいた」という。ガオ氏はケンブリッジ大学で2つの修士号を取得し(機械学習と音声言語技術)、話し手に順応する音声処理に関する論文も書いている。Papercupのようなものを作ることができる可能性に気づいたのは、ケンブリッジ在学中だった。

「2017年の終わり、Entrepreneur Firstで勉強していたときに、私たちは最初のプロトタイプシステムを作りました。前例のないものながら、この技術は使えると感じました」とシーメン氏。「当初、人から聞いた意見から、私たちが作っているものには予想を超える膨大な需要があることを知りました。制作スタジオでの使用を想定して開発しているものの、ほんの一機能に過ぎなかったのですが」。

カテゴリー:人工知能・AI
タグ:Papercup合成音声機械翻訳資金調達

画像クレジット:Papercup

原文へ

(翻訳:金井哲夫)

WellSaid Labs、合成音声を数秒間のクリップから数時間のクリップへと進化

今や何百万世帯もの家庭で音声対応のデバイスが利用されているが、数秒以上続く長い合成音声を普段耳にすることはまずないだろう。WellSaid Labs(ウェルセッドラブズ)は、音声エンジン分野の開発を押し進め、我々が日々Siri(シリ)やAlexa(アレクサ)で聞いている短文と同等、またはそれ以上のクオリティを持つ、数時間にもわたる音声コンテンツを素早く簡単に生成することに成功した。

昨年世に出て以来、WellSaid Labsは同社が持つ技術をデモ製品から商用製品へと進化させるため着実に取り組んできた。その過程で同社は利益になり得るニッチな分野を発見する。

CTOのMichael Petrochuk(マイケル・ペトロチャック)氏は、初期の段階で同社の技術は、人工音声におけるリアリズムの新しい基準を確立したGoogle(グーグル)のタコトロンプロジェクトという研究をベースにしていたと説明する。

「2年前にリリースされたにもかかわらず、タコトロン2は今でも芸術的と言えます。ただしいくつか問題はあります。1つ目は高速ではないと言う点。1秒のオーディオを生成するのに3分かかります。また、これは15秒のオーディオをモデル化するために作られているため、10分間のコンテンツを生成するワークフローなどとても考えられません。我々が目指すものとはかけ離れています」とペトロチャック氏。

そこでWellSaid Labsは速度、品質、長さに焦点を当てて自社モデルを完全に再構築した。すべて一度に焦点を当てているかのようでもあるが、最適化のために焦点を当てるべき箇所は常に山ほどある。その結果、15種の音声と複数の言語を用いた非常に高品質な音声をほぼリアルタイムで生成することができるモデルを作り上げた。つまり、1分間のクリップは、数時間を費やして作るのではなく、36秒で完成できるということだ。

この一見ベーシックな技術には数多くの利点がある。高速なだけでなく、できあがった音声をよりシンプルで簡単に処理することも可能だ。オーディオコンテンツのプロデューサーの場合、数百文字のスクリプトを入力してその音声を聞き、発音や抑揚を数回のキー操作で微調整すれば完成だ。タコトロンは合成音声の世界を一変したが、実際に製品になったことはない。WellSaid Labsは、タコロトンの技術と独自の技術を組み合わせて、使い勝手の良いソフトウェアと卓越した音声システムを生み出すことに成功した。

WellSaid Labによるテストにて、タコロトンやその他の製品と比較できるよう15秒のクリップを生成したところ、同社のモデルは人間による音声と同等の評価を得ると言うマイルストーンを達成した。この手の技術を客観的に測るための手段は存在しないが、実際に多くの人々にどれだけ人間らしく聞こえるかを聞いてもらい検証するのは正しい方法と言えるだろう。

このような条件下で「人間のような」音声を達成するため、同社は多数のオーディオクリップも公開し、より難しいコンテンツも生成できるという事を証明した。

スペイン語、フランス語、ドイツ語でももっともらしい音声を発し(著者はこれらの言葉を話せないためそれ以上のことは言えないが)、「Stoichiometry(化学量論)」や「Halogenation(ハロゲン化)」のような複雑で言語学的に難しい単語や「Buffet(ビュッフェ)」や「Desert(砂漠)」のように文脈によって異なる単語なども上手く発音しその技術を軽々と披露した。Mary Shelley(メアリー・シェリー)著書の「フランケンシュタイン」を8時間かけて読み通したのは称賛に値する。

しかし、さらなる進歩のためにWellSaid Labsが向き合っているのはオーディオブック業界ではない。それは企業研修というとてつもなく退屈だが必要不可欠な分野である。企業方針を説明したり、社内ツールの使い方、営業や管理、開発ツールなどのベストプラクティスを説明したりするような、あれである。

企業研修の内容は通常、その企業独自のものであり、何時間分ものオーディオになる。何十年も前に作られたようなDVDを研修会場で見せられたり、莫大な資料を渡されたりするような慣習の代替となるだろう。このようなパワフルな技術を実用化する場としては決してエキサイティングな場所とは言えないが、技術がどれだけ変革的であっても、実際にお金を稼げなければ沈没してしまうというスタートアップの現実がここにある。

Image Credits: WellSaid Labs

「我々は企業研修の分野で利点を見つけましたが、製品開発においてはこれによってより大きな分野に向けての基礎となる要素を構築することができました。音声はどこにでも存在します。今は誰のために構築するのかを現実的に考えなければなりませんが、最終的にはどんな音声でも作成して配信できるインフラを提供する予定です」と成長部門長のMartín Ramírez(マルティン・ラミレス)氏は語る。

一見企業向けサービスの拡大速度が遅すぎるようにも感じられるかもしれない。同社のシステムは英語に特化しているわけではなく、多言語での研修にも同様に活用できるだろう。しかし、ポッドキャストやゲーム、ラジオ番組、広告、ガバナンスなど他の業界でも、この向上した音声機能を大いに活用することができるはずだ。

同社のアプローチにおける大きな制限の一つとして、このシステムは人が操作し、仮想声優の録音に使用されることを想定していると言う点がある。つまりこれでは、声帯に障害のある人々や音声インターフェースを一日中使っている目の不自由な人々、また海外旅行中にリアルタイムで翻訳ツールを使用する人々など、実際により優れた合成音声を必要としている人々には役立たない。

「近い将来、弊社がそういったサービスを提供している可能性もあるでしょう」とラミレス氏は言うが、同氏もその他のメンバーも慎重な言葉選びだ。「しかし、現時点で構築された方法では、人間がエンジンと対話した上で自然な人間らしさを作り上げるべきだと考えています。ダイナミックレンダリングのシナリオがかなりのスピードで近づいてきているので、それに備えて準備をしておきたいところですが、今の時点ではまだ準備ができていません」。

同社は「ランウェイも顧客も豊富」とのことで、急成長中でもあるため今すぐに資金を調達する必要はないだろう。ベンチャーキャピタルファームの諸君にそう言っておきたい。

関連記事:WellSaidは人間の代役が務まるほど自然な合成音声を公開

カテゴリー:IoT

タグ:WellSaid Labs 合成音声

[原文へ]

(翻訳:Dragonfly)