アインシュタインのチャットボットに「声」を与えるAflorithmicのAI音声クローン技術

合成メディアの奇妙な世界から生まれたディープフェイクの一端に、耳を傾けてみてほしい。これはAlbert Einstein(アルバート・アインシュタイン)のデジタル版。有名な科学者の実際の声を録音した音声記録を元に、AIのボイスクローン技術を使って合成された声である。

この「不気味の谷」にいるアインシュタインの音声ディープフェイクを開発したのは、Aflorithmic(アフロリズミック)というスタートアップ企業だ(同社のシードラウンドについては2月に紹介した)。

関連記事:AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

動画に登場するアインシュタインの「デジタルヒューマン」を生み出したビデオエンジンは、もう1つの合成メディア企業であるUneeQ(ユニーク)が開発したもので、同社はウェブサイトでインタラクティブなチャットボット版を公開している。

Alforithmicによると、この「デジタル・アインシュタイン」は、会話型のソーシャルコマースが間もなく実現することを示すために作られたものだという。つまり、業界関係者が予見的に警告しているように、歴史上の人物を模したディープフェイクが、近いうちにあなたにピザを売ろうとするだろうと、手の込んだかたちで伝えているのだ。

また、このスタートアップは、ずっと前に亡くなった有名な人物にインタラクティブな「生命」を吹き込むことで、教育に役立てる可能性も見出しているという。

この「生命」とは人工的なそれに近いものという意味であり、完全に仮想上のもので、デジタル・アインシュタインの声は純粋な技術によるクローンではない。Alforithmicはチャットボットのボイスモデリングを行うために、俳優の協力を仰いだという(なぜなら、デジタル・アインシュタインが、例えば「ブロックチェーン」のような、生前の本人が夢にも思わなかったような言葉を言うとしたら、どんなふうに言うかを検討するためだ)。それによって、AIによる人工物を超えた存在ができあがる。

「これは、会話型ソーシャルコマースを実現する技術を紹介するための新たなマイルストーンです」と、AlforithmicのCOO(最高執行責任者)であるMatt Lehmann(マット・レーマン)氏は我々に語った。「克服しなければならない技術的な課題だけでなく、解消しなければならない欠陥もまだありますが、全体としては、この技術がどこに向かっているのかを示す良い方法ではないかと、私たちは考えています」。

Alforithmicは、アインシュタインの声をどのように再現したかを説明したブログ記事の中で、チャットボット版の生成に関わる困難な要素の1つに進展があったと書いている。それは、計算知識エンジンから入力されたテキストに対し、APIが応答音声を生成できるようになるまでの応答時間が、当初の12秒から3秒以下に短縮できたというものだ(これを同社では「ニア・リアルタイム」と呼んでいる)。しかし、これでもまだタイムラグがあり、ボットが退屈な存在から免れることはできていない。

一方、人々のデータやイメージを保護する法律は、生きている人間の「デジタルクローン」を作ることに法的および / または倫理的な問題を提示している。少なくとも、先に許可を得て(そしてほとんどの場合、お金を払って)からでなければできない。

もちろん、歴史上の人物は、自分の肖像が物を売るために流用されることの倫理性について厄介な質問をすることはない(今後、意思を持つ本物のクローン人間が誕生すれば話は別だが)。しかし、ライセンス権は適用される可能性があるし、現にアインシュタインの場合は適用されている。

「アインシュタインの権利は、このプロジェクトのパートナーであるHebrew University of Jerusalem(エルサレム・ヘブライ大学)にあります」とレーマン氏は言い、アインシュタインの「声のクローン」のパフォーマンスに、アーティストライセンスの要素が絡んでいることを告白した。「実際には、私たちはアインシュタインの声のクローンを作ったわけではなく、オリジナルの録音や映画から着想を得ています。アインシュタインの声のモデリングに協力してくれた声優は、彼自身がアインシュタインの崇拝者であり、彼の演技はアインシュタインというキャラクターを非常によく表現していると思いました」と、同氏は述べている。

ハイテクの「嘘」の真実は、それ自体が何層も重ねられたケーキのようなものであることがわかる。しかし、ディープフェイクで重要なのは、技術の巧拙ではなく、コンテンツが与える影響であり、それは常に文脈に依存する。どんなに精巧に(あるいは稚拙に)フェイクが作られていたとしても、そこから人々が見聞きしたことにどう反応するかによって、ポジティブなストーリー(創造的・教育的な合成メディア)から、深くネガティブなもの(憂慮すべき、誤解を招くようなディープフェイク)へと、全体的に話が変わってしまう。

「デジタル・アインシュタイン」を担当する2つの団体が拠点を置く欧州では、技術がさらに洗練されるにつれてディープフェイクが情報操作のツールになる可能性への懸念も高まっており、それがAIを規制する動きを後押ししている。

今週初めに草案がリークされた、人工知能の「高リスク」利用法を規制する汎EUの次期立法案には、ディープフェイクを特に対象とした項目が含まれていた。

この計画では、人間との対話を目的としたAIシステムや、画像・音声・映像コンテンツの生成・操作に使用されるAIシステムについて、「調和のとれた透明性ルール」を提案する見通しだ。

つまり、将来的にデジタル・アインシュタインのチャットボット(またはセールストーク)は、偽装を始める前に、自らが人工物であることを明確に宣言する必要がありそうだ。そうすれば、インターネットユーザーが、フェイクと本物を見分けるために、仮想的なフォークト・カンプフ検査を行う必要はなくなる。

しかし、今のところ、この博学な響きを持つデジタル・アインシュタインの対話型チャットボットには、馬脚を現すのに十分なラグがある。製作者も自分たちの作品を、AIを活用したソーシャルコマースのビジョンを他の企業に売り込むためのものであると明示している。

関連記事:

カテゴリー:人工知能・AI
タグ:Aflorithmic不気味の谷ディープフェイクチャットボット

画像クレジット:UneeQ

原文へ

(文:Natasha Lomas、翻訳:Hirokazu Kusakabe)

AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

ロンドンとバルセロナを拠点とするAudio-as-a-Service SaaSスタートアップAflorithmic(アフロリズミック)が、シードラウンドでCrowd Media Holdings(インフルエンサーベースの「ソーシャルコマース」とマーケティングに注力したオーストラリア拠点の企業)から130万ドル(約1億3605万円)の資金を調達した。

プレスリリースによると、クラウドメディアホールディングスはAflorithmicの10%の株式を取得することになり、この戦略的投資の目的は「クラス最高の音声クローン技術」によって有名人とFaceTimeで会話できるようにすることだという。

Aflorithmic(アフロリズミック)という社名は発音しにくいかもしれないが、この創業2年のスタートアップが提供するのは会話と音声そのものだ。同社はAI駆動型の合成メディア、「エシカル(倫理的)な」音声クローニング、オーディオマスタリングを使用して、完全に自動化されたスケーラブルな音声制作プラットフォームを構築した。開発者はAflorithmicのAPIを使用して、ウェブサイト、モバイルアプリ、スマートスピーカーなどのチャネルを介してユーザーに音声を届けることができる。

「テキストを美しい音声として出力」というのがAflorithmicの謳い文句だ。同社は今回のシードラウンド以前に、88万7000ドル(約9275万円)以上の外部資本を調達した。具体的には、創業後10カ月間を自己資金で運営した後、プレシード / FFF / エンジェルの各ラウンドで上限を超過する応募申し込みがあった。

Aflorithmicのウェブサイト上サンプルクリップでは、合成音声(ロボット音声)のボイスオーバーがお客様にあいさつした後、設定済みコンテンツの詳細を説明するパーソナライゼーション要素が紹介されている。

Aflorithmicの現顧客(概念実証 / パイロット版)は同社のツールを使用して、子ども向けオーディオブック、健康 / 栄養プログラムのパーソナライズされたナレーション、ホテルの宿泊客用コンシェルジュサービスなどを作成している。同社ビジネスの前提に、スタジオ製作での肉声によるボイスオーバーでは、音声コンテンツに対する現在の多様なニーズに到底対応できないという考え方がある。

そこで、その需給ギャップを埋めるために合成メディアが必要になるというわけだ。合成メディアを使えば、ブランドや企業の特定の顧客向けにパーソナライズされた多種多様な音声トラックを提供できる。現時点ではEdTech、MarTech、ヘルス / フィットネスといった業界を中心として、初期のベータ顧客向けに10ほどのプロジェクトが進行している。

同時に、ポッドキャストや生音声のストリーミングの人気も衰えを知らず、動画偏重時代でも音声が生き残れることを示している。

関連記事:イーロン・マスク氏がClubhouseに登場、ファンがYouTubeへライブストリーム、途中からRobinhood CEOへのインタビューに

Aflorithmicの新しい投資家であるクラウドメディアホールディングスは、Aflorithmicのツールで実現できることについてかなり野心的なアイデアを持っており、それは「消費者によるeコマースの利用形態を根本から変える」ものになるという。

同社がAflorithmic(AFLR)に対する投資を決断したのは、合成音声を動画と組み合わせて、お気に入りの有名人とのビデオチャットを再現し、ファンが体験できるようにするという計画があったからだ。

Aflorithmicに出資してこのプロジェクトで提携することにより、この計画にともなうリスクを軽減することができるという。

「AFLRの音声技術を利用すると、有名人のアクセント、トーン、癖などを再現できるので、まるでその有名人が電話の向こうにいるような感覚を味わうことができる」とクラウドメディアは説明する。この未来のクローン有名人が優しくささやく「実際のコンテンツ」は、同社のAI駆動型チャットボットテクノロジーによって実現されるという。このチャットボットは、ユーザーが投稿した1億8000万件を超える質問に対する回答(テキストのみのメディア)から構築されたナレッジベースに基づいて動作する。

こうしたテキストを、聞き手を癒やす合成音声に変えてくれるのがAflorithmicのテクノロジーだ。クローン有名人の動画では3D画像が使用されることになるが、そのためのテクノロジーは合成メディア企業3社(英国拠点のForever Holdings、デジタルヒューマン製作企業のZoe01とUneeq)によって提供される。

クラウドメディアは、Aflorithmicのテクノロジーをより広範囲に活用し、AI駆動型のチャットボット(CM8)といった同社のその他ソーシャルコマースアプリに統合していくという。これは、マーケティング、教育、ヘルスケアなど、業界を越えたカスタマーサービスでの利用を狙ったものだ。

一方、Aflorithmicは今回調達した資金をAPI音声制作エンジンの研究開発、音声クローニング、人材獲得に使用する計画だという。

同社は、APIベースのAudio-as-a-Serviceを幅広い顧客に提供している。その使用事例には、高度にパーソナライズされたニュースレターとポッドキャストやマーケティングアプリケーション用の音声クローニングなどがある。

また、膨大な音声ライブラリーが用意されていて顧客がロボットスピーカーを選択できるのも同社の売りだ。それだけでなく、ユーザーは自身の音声スニペットを録音しておき、音声クローニングAIを使用して、パーソナライズされた音声コンテンツを制作できる。

ユーザーは、音楽や複雑なオーディオエンジニアリングを含む、プロレベルのコンテンツを制作し、最終製品をウェブサイト、モバイルアプリ、スマートスピーカーといったあらゆるデバイスやプラットフォームに配信できる。製作経験は一切不要だという。

Aflorithmicの共同創業者でCEOのTimo Kunz(ティモ・クンツ)氏は次のように語った。「会社を大量消費市場に進出させる上でクラウドメディアの経験から学べることを楽しみにしている。また、ソーシャルコマースの未来をかたち作る同社の試みに参加することができてうれしく思う。音声制作は今後、自動化されたスケーラブルでダイナミックな体験へと変わっていくと確信している。当社はまさにそれを先導している」。

「合成音声の制作には、ほぼ無限と思える可能性がある。マーケティングアプリケーションだけをとってみてもその可能性は驚くほどだ」と同氏はつけ加えた。「Kim Kardashian(キム・カーダシアン)が2億人もいる彼女のフォロワーのパーソナルショッパーになり、Pirelli(ピレリ)のP Zero ROSSOの新しいタイヤが必要な理由をLewis Hamilton(ルイス・ハミルトン)が個人的に説明してくれる、そんな未来を想像してみてほしい。当社のテクノロジーを使えばそうした未来がまもなく現実となる」。

また、ビジネスモデルに関して同氏は次のように語った。「当社は、TwilioやMessagebirdと同じようなSaaSを使用している。基本は使用量、つまり再生された音声トラック数に応じた月額サブスクリプションだ。ただし、無料の試用期間も用意している。研究開発の側面が多い大規模なコラボレーションの場合は、カスタム価格の交渉にも応じる」。

Aflorithmicの他の2人の共同創業者はPeadar Coyle(ピーダー・コイル)氏とBjörn Ühss(ビョルン・アス)氏である。

Aflorithmicが音声クローニングを形容するのに使っている「エシカルな」という言葉は、合成メディア制作を支援する商用ツールの開発に取り組んでいるすべての企業にとって避けて通れない課題を示している。

有名人のクローンはおもしろそうだが、個人の音声クローニングは、フィッシング詐欺、個人情報の盗難、感情操作、脅迫など、悪用または乱用される可能性が非常に高い。著作権も考慮する必要がある。

Aflorithmicのウェブサイトにある倫理セクションには、パーソナライズされた音声をスケーラブルにすることにともなうリスクを認める記述がある。そこには「優れたイノベーションには大きな責任がともなう」と書かれており、「当社は、英国EUの『Ethics Guidelines for Trustworthy Artificial Intelligence(信頼できるAI開発のための倫理ガイドライン)』に従って、エシカルかつ公正で、透明性の高いAIを提供することに全力で取り組んでいる。当社のコンテンツ、音声モデル、およびアルゴリズムのトレーニングは、規制に完全に準拠し、個々のデータ所有者の承認を得たものである」とある。

音声クローン技術の悪用を防ぐ方法について、クンツ氏は次のように語った。「これは大きな問題だ。当社は合成音声の使用に関する倫理的側面について早い段階から考えると同時に、セキュリティについても非常に真剣に検討している。セキュリティは潜在的顧客との早期の話し合いにおいて重要な鍵を握っている。当社は音声データを機密性の高い個人情報と見なし、そうした情報と同様に慎重に扱っている。当社のテクノロジーで音声をクローニングするすべてのお客様は、音声提供者の同意があることを書面で当社に提出する必要があり、当社は特に初期段階において、その音声の使われ方を詳細に確認する」。

「また、当社のAPIインフラストラクチャは、当社のチームによってオンボーディングおよび精査された有料ユーザーのみにアクセスを許可するよう安全に設計されている」。

「当社は最近のディープフェイクの流行には乗らないよう意識的に注意を払っている。ディープフェイクは否定的な響きがあるだけでなく、当社のテクノロジーの有意義な使い方ではない」と同氏はつけ加えた。

Aflorithmicは競合他社としてDescript(ディスクリプト)を挙げる。ディスクリプトは2021年1月に3000万ドル(約31億3900万円)を調達し、別の音声クローニングスタートアップであるLyrebird(ライアーバード)を2019年に買収した。Descriptのツールは動画と音声の両方に対応しているのに対し、Aflorithmicは音声制作プロセス全体の自動化に重点を置いている。

「Descriptはどちらかというと制作者向けツールという位置づけだ。すばらしいツールであり、優れた機能を備えている。しかし、テキストから音声への変換、音楽と音声の編集、後工程に至るまでの制作プロセス全体をカバーしているわけではない。こうしたプロセスの自動化は重要な点だ。音声制作をクラウドに移行することで、規模のメリットが得られ、あらゆるリスナー向けに異なる音声トラックを作成できるようになる」とクンツ氏はいう。

「Descriptは、編集を容易にするための音声版Photoshopのようなスタジオ機能に重点を置いているが、当社は自社製品をどちらかというと音声版Stripeのように考えており、企業が単なる編集ではなく当社のAPIを使用して自社製品にAudio-as-a-Serviceを簡単に組み込むことができるようにしている」。

「Peloton(ペロトン)のようなヘルスケアアプリを例に説明すると、当社の方式では、高度にパーソナライズされたワークアウトをとても簡単に作成できる。高度にパーソナライズされたAIコーチをワークアウトに取り入れ、運動を続けるモチベーションを保つようユーザーをサポートする。これでユーザーは、ワークアウトデータの履歴やパーソナルベストに基づいてモチベーションを与えてくれるパーソナルトレーナーが自分の隣にいるような感覚を味わえる」。

「動画に関しては、慎重な選択だった」という。「音声は極めて個人的で、適切なニュアンスを出すのは複雑で難しい。当社は複数のAI動画プラットフォームと提携しており、こうした企業に音声を提供している。動画制作企業は合成音声がどれほど難しいかわかっているからだ」。

カテゴリー:ネットサービス
タグ:Aflorithmicm合成音声資金調達

画像クレジット:画像クレジット:Rick Stufflebean

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)