Disneyの研究所からまた常軌を逸した成果が登場した。これまでは、ビーチの砂の上に絵を描くロボットがあったし、プラスチックでなくフェルトから、抱きしめたくなるようなオブジェクトを作る3Dプリンタがあり、不可能と思える形のものでもコマのように回転させられる特技があった。
そして彼らの最新の秘技は何か? アルゴリズムを使って、人が実際には言っていないことを言わせる技術だ。
読唇術というものが昔からあるし、ビデオの吹き替えで声と合ってない唇の形は、誰もがいつも見ている。読唇術が難しいのは、二つの違う言葉が、口の形はほとんど同じ、ということが多いからだ。だから脳が行う言葉の理解は、視覚と聴覚の合成なのだ。音がなくなると、”bah”も”vah”も”gah”も、口の形だけからは正確に区別できない。
そこで、下のビデオのような、McGurkの錯覚というものが生まれる:
このことから、Disneyの研究員は、人が実際に言っていることとは違う言葉に聞こえることもある、語句のリストを作った。
たとえば、誰かが”clean swatches”(きれいな布地見本)と言ってるのを録画すると、その映像に、その映像を見ながら聞く人が違和感を感じないようにダビングできる、オリジナルとは違う語句が9000種類もある。その9000の中には、意味のない語句もある。というか、そのほとんどは、意味不明だ。その、実際には”clean swatches”と言っているビデオに、”need no pots”(マリファナは要らない)をダビングしても合うし、かなり気持ち悪い”like to watch you”(あなたを見張っていたい)も合う。完全に合ってると見えれば、そのときには、まさにその人がそう言っている、と聞こえてしまう。完璧な濡れ衣だ。
下のデモビデオでは、効率化のために声はロボットの声を使っているが、実際に人間の声だったら、もっと“ずっと自然な”完成度の高い錯覚になるだろう。
これは、人間の脳の気まぐれぶりを表しているだけでなく、実用化の可能性もある。たとえば、映画の中の差別語の発言などを、これまでのかなり無理なやり方より、もっと自然に別の言葉に言い換えさせることができるだろう。でも、この研究成果そのものが、すごくクールだけどね。