アニメーションと音声で写真に生命を吹き込む、MyHeritageとD-IDが提携し故人が話す動画が作成可能に

2021年、家系調査サービスのMyHeritageが、故人の顔写真を動画化できる斬新な「ディープフェイク」機能を導入して話題になった。TikTokのユーザーたちはいち早くその技術に反応して、動画を投稿し、自分が会ったこともない親戚やまだその死を悲しんでいる故人を蘇らせて、「ディープノスタルジア」と呼んだ。今日まで、1億枚以上の写真がこの機能で動画になった。そしてその機能が進化した。米国時間3月3日、MyHeritageはパートナーのD-IDとともに「ディープノスタルジア」を拡張した「ライブストーリー」機能をローンチした。写真の人物を生き返らせるだけでなく、彼らに話をさせるのだ。

MyHeritageが技術をライセンスしたD-IDはテルアビブのスタートアップで、AIとディープラーニング利用した再現動画の技術で特許を取得している。

D-IDの技術は、APIを通じて開発者に提供され、メディア、教育、マーケティングなど、さまざまなライセンシーに利用されています。例えばWarner Bros.(ワーナー・ブラザーズ)は、D-IDを利用して、ユーザーが映画の予告編をアニメーション写真でパーソナライズできるようにしたり、ハリー・ポッター展のために協力した。Mondelēz International、広告代理店のPublicis、Digitas Vietnamは、地元の祭りのマーケティング活動でD-IDと提携している。インドの短編動画アプリJoshは、顔アニメーションの技術をクリエイティブツールとして統合した。また、非営利団体や政府も、さまざまな啓発キャンペーンにこの技術を利用している。

MyHeritageは、こライブストーリーでD-IDの最新AI技術をユーザー向けに利用している。この機能を使うためには、ユーザーはまず無料でMyHeritageのアカウントを無料で作成することができ、その技術を何度か無料で試用できる。その後は、有料のサブスクリプションでライブストーリーを無制限に利用できる。

本技術で先祖の人生を物語にしたり、それを本人に語らせることもできる。それを可能にするのが、D-IDの特許取得技術Speaking Portrait Technology(肖像発話技術)だ。アップロードされた写真をもとにナレーション入りの動画を作り、それを合成音声生成装置にかける。語られるストーリーは、ユーザーが提供したテキストだ。

 

言葉と唇の動きが同期するためにD-IDは、人が話している動画のデータベースでニューラルネットワークを訓練した。言語は、どんな言語でもよいというが、MyHeritageは10種ほどの方言や、性による声の違いを含む31言語をサポートしている。

D-IDの共同創業者でCEOのGil Perry(ギル・ペリー)氏によると「優秀な技術であるためドライバービデオは不要です」という。つまり、本物の人物の動きを動画で撮影し、それを静止画像にマップする処理は不要だ。「テキストと写真があれば、その人が話している動画ができ上がります」という。「ただし、まだ完璧な技術ではありません。現状は、本当に良質なリップシンクらしいものを作ったにすぎません」とのこと。

そうやって作成されたライブストーリーは、それを見たり、友だちと共有したり、ソーシャルメディアに投稿することができる。テキストを編集し、さらに話をカスタマイズし、別の声を選んだり、自分が録音したオーディオをアップロードしてもいい。

画像クレジット:D-ID

D-IDの長期的な展望は、この技術をメタバースの環境で使うことだ。メタバースであれば顔だけでなく、デジタルアバターを動画にできるし、体全体の動きを3Dで表現できる。ペリー氏はユーザーが自分の幼児期や家族、歴史的人物の写真をアップロードして、それらをメタバースで動かし、会話をさせることもできると考えている。

「子どもたちがAlbert Einstein(アインシュタイン)と会話して、彼の話を聞いたり、彼に質問したりすることもできるでしょう。しかも彼は疑問に答えてくれます。さらにユニバーサル翻訳であれば、アインシュタインはユーザーの母国語で会話することもできるはずです」。

もちろんそんな技術は何年も先のことだが、実現するとすれば、それらはディープノスタルジーやライブストーリーのような、今日開発したコンセプトに基づいて作られることとなる。

MyHeritageとD-IDはそれぞれ、この技術を別々のやり方でデモする独自のアプリを世に送り出す。D-IDによると、それは数週間後だという。

MyHeritageのライブストーリー機能は本日、米国時間3月3日、家族史テクノロジーのカンファレンスRootsTechで発表された。デスクトップとモバイルウェブ、MyHeritageのモバイルアプリで利用できる。

MyHeritageの創業者でCEOのGilad Japhet(ギラッド・ジャフェ)氏は、ライブストーリーのローンチに関する声明で次のように述べている。「最新機能で、MyHeritageは今後もオンライン家族史の世界をビジョンとイノベーションの両方でリードし続けることになります。AIを利用して歴史的な写真に新しい命を吹き込むことはユニークな機能であり、何百万もの人が先祖や愛する故人との感情的な結びつきを掘り起こし一新することができます。家系の本質は家族史の表現と保存にあり、私たちは世界に向けて家系の楽しさと魅力を伝えていきたい」。

D-IDは、Sella Blondheim(セラ・ブロンドハイム)氏とEliran Kuta(エリラン・クタ)氏が創業。現在、チームは32名で今後は米国や英国、シンガポール、そしてイスラエルでそれぞれ現地の人数を増やし、社員数を倍増したいと考えている。

画像クレジット:D-ID

原文へ

(文:Sarah Perez、翻訳:Hiroshi Iwatani)

D-IDが写真を独自のフォトリアルな動画に変換する「Speaking Portrait」の提供を開始

古い家族写真を生き生きとした動きのある肖像画に変えた、 センセーショナルなMyHeritage(マイヘリテージ)アプリへの技術提供を行った会社が、新しい応用を引っさげて再登場した。静止画を超リアルな動画に変換し、好きなことをしゃべらせることができるようにする技術だ。

D-ID(ディーアイディー)のSpeaking Portraits(スピーキング・ポートレイト)は、ここ数年話題になっていた悪名高い「ディープフェイク」に似ているようにみえるかもしれないが、基盤技術はまったく異なっており、基本的な機能の提供のためのトレーニングは不要だ。

関連記事:MyHeritageが古い家族写真をディープフェイク技術でアニメーション化

かつて2018年のTechCrunch Battlefieldではまったく異なる技術(顔認識技術への対抗技術)でデビューしたD-IDが、今回のTechCrunch Disrupt 2021では新しいSpeaking Portraits製品をライブで披露した。同社はこの技術を使って、さまざまな感情を表現できる多言語テレビキャスターの作成、カスタマーサポート用のバーチャルチャットボットのペルソナ作成、プロフェッショナル育成用のトレーニングコースの開発、インタラクティブな会話型ビデオ広告キオスクの作成など、さまざまなユースケースを紹介した。

この新製品やMyHeritageとの提携は、明らかにD-IDの当初の方向性からは大きく異なっている(MyHeritageのアプリは一時的にAppleのApp Storeのチャートでトップになった)。2020年の5月頃までは、D-IDは従来のやりかたで資金調達を行っていたが、2021年の2月にはMyHeritageとの提携を開始し、その後GoodTrust(グッドトラスト)との提携を経て、Hugh Jackman(ヒュー・ジャックマン)監督の映画「Reminiscence(レミニセンス)」では、ワーナー・ブラザースとの提携により、ファンが予告編に自分の姿を入れることができるようになるといった派手な展開を見せた。

こうしたD-IDの方向転換はこれ以上なく劇的なものに見えるかもしれない、しかし技術的な観点から見ると、写真に命を吹き込むことに焦点を当てた新しい方向性は、同社がもともと開発してきた画像匿名化(de-identification)ソフトウェアとそれほど大きな違いはない。D-IDのCEOで共同創業者であるGil Perry(ギル・ペリー)氏は、この種のアプリケーションに関して、アプローチ可能な非常に大きな市場があることが明らかになったので、新しい方向性を選択したと話している。

関連記事:動画中の顔をぼかして本人同定を不可能にするプライバシー技術のD-IDが14.5億円を調達

ワーナー・ブラザースのようなビッグネームのクライアントや、比較的無名のブランドからApp Storeを席巻するアプリが出たことは、この評価を裏づけるものと言えそうだ。だがSpeaking Portraitsが狙うのは、さまざまな規模のクライアントだ。誰もがソース画像からフルHDビデオを作成し、録音された音声や、字幕を加えることができる。D-IDは英語、スペイン語、日本語に対応した製品をローンチするが、将来的には顧客の要望に応じて他の言語も追加していく予定だ。

Speaking Portraitsでは2種類の基本カテゴリーが提供される。そのうちの1つである「Single Portrait」(シングルポートレート)オプションは、頭は動くが他の部分は動かない映像を1枚の写真だけで作ることができる。こちらは、既存の背景を使っても動作する。

さらなるリアリティを追求したい場合には「Trained Character(トレインド・キャラクター)」というオプションがある。このオプションでは、希望するキャラクターの10分間のトレーニングビデオを、同社のガイドラインに沿って提出する必要がある。これには、独自の交換可能な背景を使うことができるという利点があり、キャラクターの体や手にいくつかのプリセットされた動作を加えるオプションもある。

Trained Characterを用いて作成されたSpeaking Portraitニュースキャスターの例を以下に示すので、そのリアルさがどのようなものかを見て欲しい。

今回のDisruptでペリー氏がライブで見せてくれたデモは、子どもの頃の自分の静止画から作られたものだった。この写真は、人形遣い役の人物が演じる顔の表情にマッピングされている。またこの人形遣い役は、ギル氏が現在の自分と若い自分が交わす対話の中で、Speaking Portrait版が話すスクリプトの声も担当していた。話し手の表情がどのようにアニメーションとして反映されるかは以下の動画でみることができる。

もちろん、たった1枚の写真から、どんなセリフも説得力を持って伝えることができるフォトリアリスティックな動画を作ることができるということは、ちょっと身の毛もよだつような話であることはいうまでもない。すでに、ディープフェイクの倫理性についてさまざまな議論が交わされているなかで、AIが現実的ではあるが人工的な結果を生み出した場合に、それを特定できるようにしようとする業界の取り組みも見られる。

Disruptでペリー氏は、D-IDは「この技術が悪いことではなく、良いことに使われるようにしたいと熱望しています」と述べ、その実現に向けて10月末にはパートナー企業とともに、Speaking Portraitsのような技術を使用する際の「透明性と同意」へのコミットメントをまとめた誓約書を発行する予定だと述べた。このコミットメントの目的は「ユーザーが自分の見ているものについて混乱することなく、同意を行う機会が与えられること」を保証することだ。

D-IDは、この種の技術の悪用について、利用規約や公式見解で保証したいと考えているが、ペリー氏はそれを「単独ではできない」という。同じエコシステムの他の企業にも、悪用を避けるための努力に参加するよう呼びかけているのはそれが理由だ。

画像クレジット:D-ID

原文へ

(文:Darrell Etherington、翻訳:sako)