デビッド・ベッカムの「ディープフェイク」ビデオを作ったスタートアップが3.3億円超を調達

マラリアの生存者たちが、Malaria Must Die(マラリア撲滅)運動への認識を高めるために、デビッド・ベッカム氏の口を通して行った世界的キャンペーンは、多くの人を驚かせた。

すでにキャンペーンは、世界で4億インプレッションを超えている。

だが、この動画がどのような撮影されたのかを解説する舞台裏の動画も公開されている。

このキャンペーンは、RG/A、Ridley Scott Associates、そして気の利いた動画スタートアップのSynthesiaが、NPO法人Malaria No Moreのために共同で行ったものだ。

そして、このクールなテクノロジーには大きな商業的需要があることが明らかになった。

現在の動画制作は非常に規模が大きい。それは多くのカメラ、多くのスタジオ、そして多くの俳優が関わる物理的なプロセスである。マーケティング、プロダクト、またはエンターテイメントビデオが一度撮影されてしまうと、素早く手頃なコストで作品を編集したり、さまざまな言語に翻訳したりすることは非常に難しい。

共同創業者のビクター・リパーベル・ラスムッセン(Victor Riparbelli Rasmussen)氏は私に対して以下のように語っている。「私たちは、半ばもしくは完全に、人工的に動画を生成してしまう方がずっと効率的だと考えているのです。こうしたデジタル制作プロセスは、静止画では既に、PhotoShopのようなアプリケーションを介して扱うやり方が業界標準です。私たちは同じことを動画に対しても行おうとしているのです」。

Synthesiaは、動画コンテンツを制作するために実際のセットを使う必要性を、減らすことができると言う。新しい動画を撮影する代わりに、既存の資産を編集して、派生的な国際化動画やパーソナライズされた動画を作成することができるのだ。

ラスムッセン氏は次のように述べている「私たちのソリューションによって、企業は従来の制作方式に比べて、10倍の動画成果物を10分の1のコストで作成できるようになるでしょう。シンプルなインタビュー形式の動画でも、多くの人が関わって、組織を横断した多額の制作コストがかかりがちです。当社のソリューションをお使いいただくことで、広告代理店、Fortune 1000企業、もしくは小規模企業のマーケティング担当の皆さまが、既存のものから新しい動画を制作なさり、48時間以内にそれを再び配信なさることが可能になります」。

この英国を拠点とするスタートアップが今回調達したのは310万ドルである。主導したのはLDV Capitalと初期投資家のマーク・キューバン(Mark Cuban)氏である。そして新しい投資家として、MMC VenturesSeedcamp、Martin Varsavsky氏のVAS Venture、TransferWise共同創業者のTaavet Hinrikus氏、Tiny VC、そして広告担当役員のニーゲル・モリス(Nigel Morris)氏が加わっている。

「動画制作は急激に増加していますが、広告、マーケティング、そしてeラーニングの動画をカルチャーを横断して簡単に国際化したりパーソナライズしたりすることは、とても困難なことなのです」と、LDV Capitalのゼネラルパートナーであるエバン・ニセルソン(Evan Nisselson)氏は語っている。「Synthesiaは、コンピュータビジョンと人工知能を活用して、ブランドや制作者のために、動画制作に革命をもたらしました」。

Synthesiaは、ユニバーシティカレッジロンドン、スタンフォード、ミュンヘン工科大学、そしてFoundryの研究者ならびに起業家のチームによって創業された。特に、同社の共同創業者の1人であるマシアス・ニースナー(Matthias Nießner)教授は、世間でよく知られた研究プロジェクトであるDeep Video PortraitsFace2Faceを支えている人物だ。

ロンドンを拠点とするこのスタートアップは2018年にそのベールを脱ぎ、その最初の公開デモをBBCで放映した。それは、ニュースキャスターのマシュー・アムロリワラ(Matthew Amroliwala)氏に、3つの異なる言語を話させることを通して、Synthesiaの技術を紹介するものだった。

彼らの顧客にはすでにAccenture、McCann Worldgroup、Dallas Mavericks、そしてAxiata Groupのようなグローバルブランドが含まれている。

しかし、ディープフェイクや虚報に使われる可能性はどうだろうか。

Synthesiaによれば、同社には強力な倫理的ガイドラインがあり、さらに全てのコンテンツが合意のもとで制作されたものであり、かつ俳優たちも自分たちの類似性を把握していることが確実であるようにしたいということだ。

ということで、これはあなたがウェブから気軽にダウンロードして、バーニー・サンダース(Bernie Saunder)氏の顔に適用できるようなソフトウェアではない。

ラスムッセン氏によれば、同社は政府やメディア組織と積極的に協力しながら、一般の認知を高めつつ、社会がその恩恵を受けて、合成メディア技術からの潜在的な悪影響を軽減できることが確実になるように、技術的セキュリティメカニズムを開発しているという。

さて、そう願いたいものだ。

[原文へ]

(翻訳:sako)

ビデオを編集してその人が言ってないことを言わせるシステムFace2Face

昔々は、何かが真実であると信ずるためには、その写真があるだけで十分だった。たしかに、たまにはBig Footのようなでっち上げもあるが、でも多くの場合、人が信じて疑わないほどの贋作を作れるほどの、時間と才能の持ち主は(当時は)まれだった。

そして今は、Photoshopの時代だ。画像の編集や贋作が氾濫し、“FAKE!”(これ、ニセモノよ!)がデフォルトになってしまった。疑わしい写真は、ほかの方法で正しく証明されないかぎり、偽物なのだ。

でも、ビデオはまだそこまで行ってない。もちろん贋作ビデオは大量にあるが、偽ビデオを作るためのビデオの編集作業は、写真に比べると相当難しいし、贋作らしくない贋作を作るためには時間と才能が必要だ。ビデオに対する“FAKE!”の叫び声は、まだ比較的静かな方だ。Facebookのフィードがたぶん証明しているように、まあまあの出来栄えの贋作ビデオでも、本物と信じてしまう人は多い。

しかしそれも、長くは続かないだろう。

上のビデオは、Face2Faceと呼ばれるシステム(研究論文がこれ)の、まだ試作段階のデモだ。研究者たちはStanfordやMax Planck Institute、それにUniversity of Erlangen-Nurembergに在籍している。

簡単に説明すると: 誰かが話をしているYouTubeビデオをダウンロードする。ここでは、George W. Bushにしよう。標準のRGB Webカメラを使って、別の人が大げさにYouTubeの本人とは違うことを言ってるビデオを撮る。この二つのビデオをFace2Faceのシステムに投入する。そうすると、本物のGeorge W. Bushの顔と思われるビデオが、第二のビデオとほぼ完全にシンクして、後者がビデオで撮ったスピーチを喋っている。口の動きだけでなく、口の中まで同じだ。

edit

映像は、まだピクセル単位で完全ではない。これらの、比較的低解像度のビデオクリップでさえ、どこか変だ、と思わせる不気味の谷効果がある。しかしそれでも、研究の初期段階にしてはかなり自然な出来栄えだから、すごい。

どこか変だと思わせるのは、そもそもこの種の技術を見るとき人間は、“変なものを見せられる”と構えてしまうからだ。編集のターゲットとしてよく知られている政治家の顔を使ったのも、その点を意識している*。…だから政治的ビデオの贋作は、写真の回覧などよりずっと影響が大きいのだ。〔*: そこらの無名の人がターゲットだったら、かなりおかしいと思ってしまう。よく知ってる政治家の顔だから、その視覚慣性で、つい、本物の本人と見てしまう。〕

でも、大騒ぎすべきではない。贋作は、昔からあらゆるメディアに存在している。この技術はまだ、研究者たちの手を離れて一般に供用されていない。“うーん、よく似てるけどねぇ”の不気味の谷から、すべてのピクセルが完全な状態に達するまでには、とても高いハードルがある。おぼえておくべきは、写真の場合と同じく、ビデオに映ってるからといって、それが本物とはかぎらない、ということ。そして、今後だんだん多くの人が、このことを自覚するようになるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))