機械学習の研究グループが、人間の顔写真1フレームだけから生きているような動きを再現するシステムを開発した。写真だけでなく絵画も動かすことができる。まだ完璧ではないが、(今日の多くのAIがそうであるように)うまくいったときは不気味かつ魅惑的だ。
モデルの詳細はSamsung AI Centerが発行した論文に書かれており、Arxivで読むことができる。元の顔(どんな顔でもいい)の特徴点をターゲットの顔データに対応させて元の顔の動きを再現する部分に新しい手法が使われている。
これ自体は新しくない。これはAI世界が現在直面している画像合成問題のひとつだ(最近TechCrunchが主催したロボティクス+AIイベントで興味深い議論がなされた)。ビデオの中である顔が話しているところ、見ているところを別のビデオの顔に当てはめることはすでに行われている。しかし、こうしたモデルの多くは1~2分のビデオを分析するためにも膨大なデータが必要になる。
しかし、サムスンのモスクワ拠点の研究者たちはこの論文で、わずか1枚の顔写真だけを使って顔の向きを変えたりしゃべったり普通の表情を見せるビデオを作ることができる。画質は完璧には程遠いが、説得力はある
このモデルは、膨大なデータを使って顔の特徴点を認識することで、ターゲットの顔と元の顔との対応部分を効率的に見つけることができる。データは多ければ多いほどよいが、必要な画像は1枚だけでシングルショット学習と呼ばれている。アインシュタインやマリリン・モンロー、モナリザでさえ生き生きとしゃべらせることができるのはこのためだ。
モデルはGenerative Adversarial Network(GAN、敵対的生成ネットワーク)と呼ばれるシステムも使っている。これは2つのモデルを競わせて、お互いに自分の作ったものを「本物」だと思わせてだまそうとするものだ。その結果クリエーターが設定した一定の現実レベルに近いものになる。この「差別化」モデルは対象が人間の顔であることが90%確信できないと処理を続行できない。
研究者らが見せてくれた別の例を見ると、ものによってニセの顔のしゃべり方の質が大きく異なる。ケーブルニュースから取ってきた人物の画像を再現しようとした例では、画面の下に表示されていた株価テロップまで再現して意味不明ものがはめ込まれていた。ほかにもよく見るとにじみやブロックノイズはあちこちに見られる。
それでも、その結果は素晴らしいものだ。ただし、これは顔と胴体上部にしか使えないので注意されたい。モナリザが指を鳴らしたりダンスしたりするところは作れない。今のところは。
[原文へ]
(翻訳:Nob Takahashi / facebook )