編集部注:この原稿は、MIN SUN(ミン・スン)氏による寄稿である。同氏は、AppierのチーフAIサイエンティストを務めている。Appierは、AI(人工知能)テクノロジー企業として、企業や組織の事業課題を解決するためのAIプラットフォームを提供している。
顔認識技術を用いて動画内の人物の顔に、画像データの人物の顔を当て込むディープフェイクという技術がある。近年、注目度が高まっている技術のひとつだが、ディープフェイクと聞いてどのようなイメージが湧いてくるだろうか?
おそらく多くの人がネガティブなイメージを思い浮かべるだろう。著名人の顔をアダルトコンテンツにはめ込んだ動画や政治家が問題発言をしている動画が拡散、流通した事件はまだ記憶に新しい。
技術の悪用がメディアに大々的に取り沙汰され、悪評を得てしまったディープフェイクだが、この技術はどんな目的で開発されたのだろうか。
本寄稿では、ディープフェイクの誕生から社会に広まっていく過程、ビジネスにおいて期待されている活用策について、ディープラーニング技術の社会実装を目指す研究者としての立場から考察していく。
ディープフェイクとは?
「ディープフェイク」という単語自体は、ディープラーニングを活用したフェイク画像あるいは動画のことを指し、2017年にRedditに複数のフェイク動画を投稿したユーザーのID「deepfakes」に由来する。この辺りの経緯は、プレプリント含め様々な論文を保存・公開しているarXivにある「Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward」が詳しい。
近年、大きな注目を集めているディープフェイクだが、実は約20年前に開発された「Synthesis Human Technology」(人物画像合成技術)が技術の根幹を成しており、これら技術そのものは映画業界を中心に以前から盛んに活用されていた。
たとえば、2009年に公開された映画「アバター」は、俳優の表情や体全体の動作を捉え、CGキャラクターを重ねる形で制作されている。しかし、この作業は専用の機材が必要なため、莫大な制作費が発生してしまうという難点があった。
この難点の解決につながるきっかけとなったのが、2012年だ。2012年の画像分類コンテストにおいて、「AlexNet」が活用しているディープラーニング(深層学習)が注目を浴び、第三次AIブームへの期待値が高まり始めた(総務省 平成28年版 情報通信白書「人工知能(AI)研究の歴史」)。そして2015年前後にはAIの社会実装に向けた様々なコンセプトが起草された。
2015年、ワシントン大学のSteve Seitz(スティーブ・セイツ)教授らによって、高価な機材を使うスタジオで撮影を行わずとも表情を重ね合わせられるようになる技術が開発された。
さらに、2016年にはミュンヘン工科大学のMatthias Niessner(マティアス・ニースナー)教授が発表した「Face2Face: Real-time Face Capture and Reenactment of RGB Videos」で技術はさらに進歩をとげ、ノートPCのカメラを使用して3Dの顔をリアルタイムで操作できるようになった。
これらの技術進歩の過程を経て、2017年、「GAN」(敵対的生成ネットワーク。Generative Adversarial Networks)と呼ばれる画像生成技術と上記の技術などを組み合わせた「ディープフェイク」および関連オープンソースソフトウェアが登場するに至った。
これらディープフェイク関連ソフトウェアの登場により、PCにインストールし、動画と画像データを集めるだけでフェイク動画を生成できるようになった。ディープラーニングに関する深い知見を持たずとも利用できるソフトウェアということも相まり、一般人によりフェイク動画が数多く生成されていった。
当初はいたずら感覚で政治家や芸能人が普通であればしないような動きや発言をするフェイク動画が作られていたのだが、活用は悪意ある方向に少しずつエスカレートし、フェイク動画の流通がメディアで大々的に取り上げられ、逮捕者が出るまでに至ってしまったのだ。
ビジネスにおけるディープフェイク活用
ディープフェイクが意図しない形で悪用されているという事実がある一方、ビジネスにおける前向きな活用も進められている。
エンターテインメント領域では、映画制作への活用はもとより、スマートフォンアプリのような個人が利用するサービスとしてもディープフェイクの技術は盛んに活用されている。たとえば、Snapが提供するSnapChatのFace Swap機能では、2人以上が写真に写っている場合、顔をスワップすることが可能だ。また、自身の顔のパーツを有名人のものとスワップすることもできる。
広告分野では、スタントマンの動作にGANで生成した架空の顔を重ね合わせ、仮想モデルのCMを作る取り組みなどが進んでいる。これにより、有名人を起用するコストを抑えることができる。また、仮想モデルは現実には存在しないため、スキャンダルや不祥事によるブランドイメージの毀損リスクを排除することにもつながる。
こうしたビジネス活用の例から分かる通り、ディープフェイクは悪評が先行しているだけで、必ずしも悪い技術ではないということだ。
悪意に対するカウンター
ただ、ディープフェイクを用いた有益なビジネスが生まれているからといってこれまでに根付いてしまった悪評が自然消滅するわけではない。
そのため、近年ではディープフェイクの悪用を検知するための取り組みが産学を中心に進められている。
アカデミックの世界では、ディープフェイクを検知する技術が確立されつつある。2019年ICCV(International Conference of Computer Vision)というコンピュータービジョン領域の国際会議では、90%以上の精度でディープフェイクの動画を検知する技術の開発に成功したとの発表があった(「FaceForensics++: Learning to Detect Manipulated Facial Images」)。
そして、現代における情報拡散の中心であるソーシャルメディアを運営する企業でもディープフェイクの悪用を防止するための検証が動き出している。ソーシャルメディアの代表格であるFacebook(フェイスブック)では、AIを用いてディープフェイクを検知するプロジェクト「Deepfake Detection Challenge」(DFDC)が立ち上がっており、ディープフェイクの検知にAIが有効だという報告も上がっている。このプロジェクトの最終的な結果によっては、フェイスブック上で拡散されている動画がフェイクの可能性があるときに「この動画はフェイクかもしれない」というようなメッセージをユーザーに自動で発信できるようになる。
余談となるが、産学でディープフェイクの検知に関する成果が上がりつつある一方、テキストベースのフェイクニュースに効果的な技術はまだ確立されていない。ディープフェイクには、コンピューターにより検知できる特徴的なシグナルがある。しかし、テキストベースのフェイクニュースの場合、膨大なデータソースから情報を収集し、内容の真偽を総合的に判断しなければならないため、AIによる自動検知が難しいというわけだ。
ディープフェイクの検知技術は年々向上している。しかし、100%の精度で偽物を見破れるわけではない。テキストや画像などの情報媒体も含め、社会に生きる全員が意識的に情報の真偽を判断するためのリテラシーを身に着けていくことが悪意ある情報を駆逐する近道なのかもしれない。
関連記事
・口コミで大流行の顔交換ビデオアプリRefaceにa16zなどの有名投資会社が約6億円を出資
・Facebookの判別コンペはディープフェイク抑止に有望な第一歩
・Facebookが10億円超を投じてディープフェイクの識別に賞金
・Snapchatは自分の顔でディープフェイクできるCameoをテスト中
・デビッド・ベッカムの「ディープフェイク」ビデオを作ったスタートアップが3.3億円超を調達
・国防総省のDARPA研究所が改悪改竄ビデオを検出する技術で研究助成事業を展開
・Facebookがリベンジポルノ防止策―マークされた画像の拡散を禁止
・ディープラーニングと検索エンジン最適化の新たな時代
・人工知能の最前線―人間の脳を真似るコンピューター
・Facebookがディープラーニングツールの一部をオープンソース化