Disneyの研究所が完璧な濡れ衣証言の偽造技術を発明…ほんとに言ったことはどこかに消える

research-lab

Disneyの研究所からまた常軌を逸した成果が登場した。これまでは、ビーチの砂の上に絵を描くロボットがあったし、プラスチックでなくフェルトから、抱きしめたくなるようなオブジェクトを作る3Dプリンタがあり、不可能と思える形のものでもコマのように回転させられる特技があった。

そして彼らの最新の秘技は何か? アルゴリズムを使って、人が実際には言っていないことを言わせる技術だ。

読唇術というものが昔からあるし、ビデオの吹き替えで声と合ってない唇の形は、誰もがいつも見ている。読唇術が難しいのは、二つの違う言葉が、口の形はほとんど同じ、ということが多いからだ。だから脳が行う言葉の理解は、視覚と聴覚の合成なのだ。音がなくなると、”bah”も”vah”も”gah”も、口の形だけからは正確に区別できない。

そこで、下のビデオのような、McGurkの錯覚というものが生まれる:

このことから、Disneyの研究員は、人が実際に言っていることとは違う言葉に聞こえることもある、語句のリストを作った。

たとえば、誰かが”clean swatches”(きれいな布地見本)と言ってるのを録画すると、その映像に、その映像を見ながら聞く人が違和感を感じないようにダビングできる、オリジナルとは違う語句が9000種類もある。その9000の中には、意味のない語句もある。というか、そのほとんどは、意味不明だ。その、実際には”clean swatches”と言っているビデオに、”need no pots”(マリファナは要らない)をダビングしても合うし、かなり気持ち悪い”like to watch you”(あなたを見張っていたい)も合う。完全に合ってると見えれば、そのときには、まさにその人がそう言っている、と聞こえてしまう。完璧な濡れ衣だ。

下のデモビデオでは、効率化のために声はロボットの声を使っているが、実際に人間の声だったら、もっと“ずっと自然な”完成度の高い錯覚になるだろう。

これは、人間の脳の気まぐれぶりを表しているだけでなく、実用化の可能性もある。たとえば、映画の中の差別語の発言などを、これまでのかなり無理なやり方より、もっと自然に別の言葉に言い換えさせることができるだろう。でも、この研究成果そのものが、すごくクールだけどね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。