ビデオを編集してその人が言ってないことを言わせるシステムFace2Face

昔々は、何かが真実であると信ずるためには、その写真があるだけで十分だった。たしかに、たまにはBig Footのようなでっち上げもあるが、でも多くの場合、人が信じて疑わないほどの贋作を作れるほどの、時間と才能の持ち主は（当時は）まれだった。

そして今は、Photoshopの時代だ。画像の編集や贋作が氾濫し、“FAKE!”（これ、ニセモノよ！）がデフォルトになってしまった。疑わしい写真は、ほかの方法で正しく証明されないかぎり、偽物なのだ。

でも、ビデオはまだそこまで行ってない。もちろん贋作ビデオは大量にあるが、偽ビデオを作るためのビデオの編集作業は、写真に比べると相当難しいし、贋作らしくない贋作を作るためには時間と才能が必要だ。ビデオに対する“FAKE!”の叫び声は、まだ比較的静かな方だ。Facebookのフィードがたぶん証明しているように、まあまあの出来栄えの贋作ビデオでも、本物と信じてしまう人は多い。

しかしそれも、長くは続かないだろう。

上のビデオは、Face2Faceと呼ばれるシステム（研究論文がこれ）の、まだ試作段階のデモだ。研究者たちはStanfordやMax Planck Institute、それにUniversity of Erlangen-Nurembergに在籍している。

簡単に説明すると: 誰かが話をしているYouTubeビデオをダウンロードする。ここでは、George W. Bushにしよう。標準のRGB Webカメラを使って、別の人が大げさにYouTubeの本人とは違うことを言ってるビデオを撮る。この二つのビデオをFace2Faceのシステムに投入する。そうすると、本物のGeorge W. Bushの顔と思われるビデオが、第二のビデオとほぼ完全にシンクして、後者がビデオで撮ったスピーチを喋っている。口の動きだけでなく、口の中まで同じだ。

edit

映像は、まだピクセル単位で完全ではない。これらの、比較的低解像度のビデオクリップでさえ、どこか変だ、と思わせる不気味の谷効果がある。しかしそれでも、研究の初期段階にしてはかなり自然な出来栄えだから、すごい。

どこか変だと思わせるのは、そもそもこの種の技術を見るとき人間は、“変なものを見せられる”と構えてしまうからだ。編集のターゲットとしてよく知られている政治家の顔を使ったのも、その点を意識している*。…だから政治的ビデオの贋作は、写真の回覧などよりずっと影響が大きいのだ。〔*: そこらの無名の人がターゲットだったら、かなりおかしいと思ってしまう。よく知ってる政治家の顔だから、その視覚慣性で、つい、本物の本人と見てしまう。〕

でも、大騒ぎすべきではない。贋作は、昔からあらゆるメディアに存在している。この技術はまだ、研究者たちの手を離れて一般に供用されていない。“うーん、よく似てるけどねぇ”の不気味の谷から、すべてのピクセルが完全な状態に達するまでには、とても高いハードルがある。おぼえておくべきは、写真の場合と同じく、ビデオに映ってるからといって、それが本物とはかぎらない、ということ。そして、今後だんだん多くの人が、このことを自覚するようになるだろう。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa））

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。 TechCrunch Japan の投稿をすべて表示