D-IDが写真を独自のフォトリアルな動画に変換する「Speaking Portrait」の提供を開始

古い家族写真を生き生きとした動きのある肖像画に変えた、 センセーショナルなMyHeritage(マイヘリテージ)アプリへの技術提供を行った会社が、新しい応用を引っさげて再登場した。静止画を超リアルな動画に変換し、好きなことをしゃべらせることができるようにする技術だ。

D-ID(ディーアイディー)のSpeaking Portraits(スピーキング・ポートレイト)は、ここ数年話題になっていた悪名高い「ディープフェイク」に似ているようにみえるかもしれないが、基盤技術はまったく異なっており、基本的な機能の提供のためのトレーニングは不要だ。

関連記事:MyHeritageが古い家族写真をディープフェイク技術でアニメーション化

かつて2018年のTechCrunch Battlefieldではまったく異なる技術(顔認識技術への対抗技術)でデビューしたD-IDが、今回のTechCrunch Disrupt 2021では新しいSpeaking Portraits製品をライブで披露した。同社はこの技術を使って、さまざまな感情を表現できる多言語テレビキャスターの作成、カスタマーサポート用のバーチャルチャットボットのペルソナ作成、プロフェッショナル育成用のトレーニングコースの開発、インタラクティブな会話型ビデオ広告キオスクの作成など、さまざまなユースケースを紹介した。

この新製品やMyHeritageとの提携は、明らかにD-IDの当初の方向性からは大きく異なっている(MyHeritageのアプリは一時的にAppleのApp Storeのチャートでトップになった)。2020年の5月頃までは、D-IDは従来のやりかたで資金調達を行っていたが、2021年の2月にはMyHeritageとの提携を開始し、その後GoodTrust(グッドトラスト)との提携を経て、Hugh Jackman(ヒュー・ジャックマン)監督の映画「Reminiscence(レミニセンス)」では、ワーナー・ブラザースとの提携により、ファンが予告編に自分の姿を入れることができるようになるといった派手な展開を見せた。

こうしたD-IDの方向転換はこれ以上なく劇的なものに見えるかもしれない、しかし技術的な観点から見ると、写真に命を吹き込むことに焦点を当てた新しい方向性は、同社がもともと開発してきた画像匿名化(de-identification)ソフトウェアとそれほど大きな違いはない。D-IDのCEOで共同創業者であるGil Perry(ギル・ペリー)氏は、この種のアプリケーションに関して、アプローチ可能な非常に大きな市場があることが明らかになったので、新しい方向性を選択したと話している。

関連記事:動画中の顔をぼかして本人同定を不可能にするプライバシー技術のD-IDが14.5億円を調達

ワーナー・ブラザースのようなビッグネームのクライアントや、比較的無名のブランドからApp Storeを席巻するアプリが出たことは、この評価を裏づけるものと言えそうだ。だがSpeaking Portraitsが狙うのは、さまざまな規模のクライアントだ。誰もがソース画像からフルHDビデオを作成し、録音された音声や、字幕を加えることができる。D-IDは英語、スペイン語、日本語に対応した製品をローンチするが、将来的には顧客の要望に応じて他の言語も追加していく予定だ。

Speaking Portraitsでは2種類の基本カテゴリーが提供される。そのうちの1つである「Single Portrait」(シングルポートレート)オプションは、頭は動くが他の部分は動かない映像を1枚の写真だけで作ることができる。こちらは、既存の背景を使っても動作する。

さらなるリアリティを追求したい場合には「Trained Character(トレインド・キャラクター)」というオプションがある。このオプションでは、希望するキャラクターの10分間のトレーニングビデオを、同社のガイドラインに沿って提出する必要がある。これには、独自の交換可能な背景を使うことができるという利点があり、キャラクターの体や手にいくつかのプリセットされた動作を加えるオプションもある。

Trained Characterを用いて作成されたSpeaking Portraitニュースキャスターの例を以下に示すので、そのリアルさがどのようなものかを見て欲しい。

今回のDisruptでペリー氏がライブで見せてくれたデモは、子どもの頃の自分の静止画から作られたものだった。この写真は、人形遣い役の人物が演じる顔の表情にマッピングされている。またこの人形遣い役は、ギル氏が現在の自分と若い自分が交わす対話の中で、Speaking Portrait版が話すスクリプトの声も担当していた。話し手の表情がどのようにアニメーションとして反映されるかは以下の動画でみることができる。

もちろん、たった1枚の写真から、どんなセリフも説得力を持って伝えることができるフォトリアリスティックな動画を作ることができるということは、ちょっと身の毛もよだつような話であることはいうまでもない。すでに、ディープフェイクの倫理性についてさまざまな議論が交わされているなかで、AIが現実的ではあるが人工的な結果を生み出した場合に、それを特定できるようにしようとする業界の取り組みも見られる。

Disruptでペリー氏は、D-IDは「この技術が悪いことではなく、良いことに使われるようにしたいと熱望しています」と述べ、その実現に向けて10月末にはパートナー企業とともに、Speaking Portraitsのような技術を使用する際の「透明性と同意」へのコミットメントをまとめた誓約書を発行する予定だと述べた。このコミットメントの目的は「ユーザーが自分の見ているものについて混乱することなく、同意を行う機会が与えられること」を保証することだ。

D-IDは、この種の技術の悪用について、利用規約や公式見解で保証したいと考えているが、ペリー氏はそれを「単独ではできない」という。同じエコシステムの他の企業にも、悪用を避けるための努力に参加するよう呼びかけているのはそれが理由だ。

画像クレジット:D-ID

原文へ

(文:Darrell Etherington、翻訳:sako)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。