動画や静止画に映っている誰かの顔を乗っ取り、あたかも本人が実際にしゃべっているような映像をスマホから簡単に作れる——。そんなちょっと不思議だけど、ワクワクする体験を手軽に楽しめる「Xpression」というiOSアプリを知っているだろうか。
ユーザーがやることは素材となる動画や静止画を選び、スマホのカメラに向かって喋りかけるだけ。そうすれば自身の顔と素材に映る人の顔を入れ替え、現実さながらの映像をリアルタイムで生成することが可能だ。
たとえば有名人のスピーチ動画を使って本人からビデオレターが届いたような“サプライズ映像”を作ることもできるし、前もって撮影しておいた友人の動画を使って“その友人が絶対に言わなそうなこと”を言っている映像を作ったりもできる。
このプロダクトを手がけるEmbodyMeは、ディープラーニングを用いた映像生成技術などを開発する日本のスタートアップだ。同社は9月12日、複数の投資家を引受先とする第三者割当増資とNEDOの助成金により総額で約2.3億円を調達したことを明らかにした。
EmbodyMeでは調達した資金を活用してコア技術の研究開発を進める計画。「AIで目に見えるあらゆるものを自由自在に作り出す」というビジョンの下、ゆくゆくは次世代コンピューターグラフィックスの中心を担うような存在を目指していきたいという。
同社では過去にもインキュベイトファンドから9000万円、日本政策金融公庫の資本性ローンによる融資で4000万円を調達していて累計調達額は約3.6億円となった。なお本ラウンドの投資家は以下の通りだ。
- DEEPCORE
- インキュベイトファンド
- Deep30
- Techstars(米国の有名アクセラレータの1つ)
- SMBCベンチャーキャピタル
- 漆原茂氏
現実と区別がつかないリアルな映像をスマホから簡単に生成
Xpressionは冒頭でも触れた通りスマホから簡単にフェイク映像を作れるアプリだ。
EmbodyMe代表取締役の吉田一星氏によると、数年前に話題になった「Face2Face」など近しいコンセプトの研究はあるものの、プロダクトとして実用化しているものはまだない状況。既存の研究とは映像を生成するのに必要な素材や処理時間、動作環境などにおいても大きな違いがあるという。
「類似研究は17時間分の同じ人のビデオを用意した上で、約2週間の前処理時間が必要。なおかつリアルタイムでは動かないといった点が課題になっている。自分たちの技術は静止画や短いビデオでも問題なく、前処理は全く必要ない。さらにモバイルでもリアルタイムに動かせるのが特徴だ」(吉田氏)
実際のところXpressionはどのような技術で成り立っているのか。具体的には以下の3つのディープラーニングモデルを同時に動かすことで、リアルタイムで現実に近いコンテンツを生成している。
- カメラ越しにユーザーの顔の形状と表情を3Dで推定するモデル
- 素材となる動画や静止画から、3Dで顔の形状と表情を推定するモデル
- 口の中など映像として存在しない箇所を画像生成し補完するモデル
表情を推定する技術(3D Dense Face Tracking )においては、従来使われてきた技術が70点以下の2Dのポイントを推定するのに留まっていたところ、Xpressionでは5万点以上の3Dのポイントを推定できる仕組みを構築。より詳細な表情認識を実現する。
同様の技術自体はAppleも保有しているが、3Dセンサーを使っているためハイエンドなiOSマシンが必要。Xpressionの場合は一般的なカメラがあればどのマシンでも動かせるのがウリだ。
また「存在しない箇所を画像生成する」モデルについては近年言及されることも増えてきたGAN(Generative Adversarial Network : 敵対的生成ネットワーク)を活用。吉田氏によると「静止画だけでなく動画を生成でき、モバイルでもリアルタイムに動かせるのは他にはない特徴」だという。
これらに加えて、機械学習の学習データを集める仕組みとして50台のカメラと偏光LEDライトを保有し高精度な3Dフェイシャルモデルをキャプチャできる設備も整えた。
米国の有名アクセラに採択、「ミーム」文化に合わせた新アプリも
EmbodyMe代表の吉田氏は前職のヤフー時代から、スマホのインカメラを使ってキャラクターや他の人物になりきれる「怪人百面相」や自分の分身となるアバターを生成し動かせる「なりきろいど」を開発してきたエンジニアだ。
2013年ローンチの怪人百面相は「Snapchat」や「SNOW」に搭載されているフェイスエフェクト機能のようなもの、2015年ローンチのなりきろいどはVTuberになれるアプリに近い。これらの技術をいち早くプロダクト化してきた吉田氏を中心に、EmbodyMeには先端技術の開発に携わった経験を持つエンジニアが集まっている。
2018年にローンチしたXpressionは、同社が現在取り組む基盤技術を実用化したプロダクトの1つという位置付け。同サービスに関する論文はSIGGRAPH Asia Emerging Technologiesに採択されるなど、技術的な観点でも注目を浴びている。
現時点のアプリダウンロード数は非公開だが、海外比率が約7割と海外ユーザーの利用も多い。今年に入って米国の著名アクセラレータープログラム「Techstars」にも採択され、現地のプログラムに参加。ポジティブな反響も多かったようで、年内を目安にコミュニティ要素などを加えて大幅にバージョンアップしたアプリ(サービス名は同じ予定)を公開することも計画している。
「米国には大きな『ミーム』文化があり、大雑把に説明すると日本における『ボケて』のようなアクションが大規模に行われていて、いろいろな人が同じネタをパロディ化してYouTubeなどに投稿することが広がっている。(Xpressionは)その文化にすごく合致するので、ユーザーが面白い動画を投稿したり、楽しめるようなコミュニティを作っていきたい」(吉田氏)
近年、特に海外ではディープフェイク技術がフェイクニュースなどに使われる可能性も懸念されている。Xpressionもその性質上、悪用される恐れもあるが、電子透かし技術(対象となる映像が自分たちの技術で作られたのか判別できる技術)などを取り入れながら対策をする方針。著作権についても企業と組みクリアにした形で、より多くの素材を使える仕組みを作っていきたいという。
狙うは次世代コンピュータグラフィクスの中心を担う存在
現在EmbodyMeは基盤技術の研究開発に軸足を置いている段階で、今回の資金調達もそれを加速させることが大きな目的。「アプリは技術のショーケース的な意味合いもある」と吉田氏が話すように、会社としては今後同サービスに限らず、自社技術を用いた別領域のプロダクト開発も検討していく。データを集めながら基盤技術を育てていくことが狙いだ。
たとえばXpressionの技術を使えば「事前に自身のスーツ姿や仕事スタイルの映像を撮影しておくことで、パジャマやすっぴんの状態でも“ちゃんとした格好に見える”ビデオ会議ツール」なども実現可能。動画広告用のクリエイティブ作成やVTuber用のアプリなどエンタメ領域、AIスピーカーと絡めた映像生成ツールなども同様に基盤技術の活用方法として考えられるそうで、すでにプロトタイプの開発が進んでいるものもあるという。
また日本政府がXpressionの技術を使ってG20サミットのプロモーション映像を制作した事例など、他社と共同でプロジェクトに取り組むケースも生まれている。同アプリとほぼ同じものをスマホSDKとして提供する、コア技術の一部を提供するなど座組みは都度異なるが、引き続き他社とタッグを組むことによる技術のアップデートも視野に入れていく。
吉田氏いわく現在は「研究としても初期段階で、自分たちの将来的な構想を踏まえても10%ぐらいまでしか到達していない状況」なのだそう。まずは声や文字だけから表情を動かせる技術、その次は頭部や体全体を動かせる技術などへ少しずつ技術を拡張していくことを目指すが、最終的に見据えているのは「コンピュータグラフィックス(CG)領域での挑戦」だ。
「CGは90年代にアニメーションやゲーム領域で商業的にも大きく成功したが、2020年代にかけてディープラーニングの発展などにより従来とは全く違う形で映像や画像を生成できる技術が生まれ、今までのCGを置き換えていくと考えている。あらゆる人がものすごく簡単にどんな映像でも作れる時代がきた時に、いち早くプロダクトを出して中心的なポジションにいたい」(吉田氏)