スケッチを数秒でリアルな写真に変えるNVIDIAのAI

米国時間3月18日、NVIDIA GTC 2019で、同社は驚きの画像作成機能を発表した。それは、GAN(Generative Adversarial Network=敵対的生成ネットワーク)を利用したもので、このソフトウェアのユーザーは、ほんの数クリックで写真のようにリアルな画像をスケッチすることができる。数本の線を、あっという間に麗しい山頂の夕日に変えてしまうのだ。これこそAI世代のMS Paintだ。

GauGANと呼ばれるこのソフトウェアは、NVIDIA(エヌビディア)のニューラルネットワークのプラットフォームによって可能になることの、ほんの一例に過ぎない。それは、人間が描く絵画のような画像を生成するように設計されている。スケッチを数秒で写真のようにリアルな画像に変換するのが目標だ。初期のデモを見る限り、その言葉通りに機能している。

GauGANには3種類のツールがある。ペイント缶、ペン、そして鉛筆だ。画面の底辺近くには、オブジェクトの名前が並んでいる。たとえば「Cloud(雲)」のオブジェクトを選択して鉛筆で線を引くと、ソフトウェアが細くたなびくリアルな雲を描き出す。もちろん、これは画像を貼り付けているわけではない。GauGANは、入力ごとに固有の結果を生成するのだ。円を描いてから、ペイント缶で塗り潰せば、ソフトウェアはふわふわした夏の雲を作り出す。

ユーザーが入力ツールを使って木の形を描けば、木が生成される。直線を引けば、裸の幹が描かれる。その上を丸で囲めば、ソフトウェアはその中を木の葉で満たし、立派な木になるというわけだ。

GauGANは、一種のマルチモーダルにもなっている。2人のユーザーが同じスケッチを同じ設定で描いたとしても、プロジェクトに組み込まれた乱数発生機能によって、ソフトウェアは異なる結果を生成するようにしている。

リアルタイムで結果を得るためには、GauGANはTensorコアを使った計算機プラットフォーム上で実行する必要がある。NVIDIAのデモでは、このソフトウェアをRDX Titan GPUプラットフォーム上で実行し、リアルタイムで結果を出力していた。デモのオペレータが直線を引くと、ソフトウェアは直ちに結果を生成することができた。しかし、Applied Deep Learning Research部門の副社長であるBryan Catanzaro氏によれば、若干の変更を加えることで、一般的なCPUなど、ほぼすべてのプラットフォーム上でGauGANを実行できるようになるという。ただし、結果が表示されるまでには、数秒かかるようになるはずだ。

今回のデモでは、オブジェクト間の境界はまだ完璧ではない。このプロジェクトを担当するチームは、今後それも改善されるとしている。2つのオブジェクトが接する部分に細い線が見えてしまうのだ。NVIDIAは、結果は写実的だと言うものの、よくよく見ると、説得力を欠いてしまうことになる。現状のニューラルネットワークが抱える問題として、学習に使ったオブジェクトと、学習の成果との間の違いがある。このプロジェクトでは、そのギャップを減らすことを目指している。

NVIDIAは、Flickr上にある100万枚の画像を、このニューラルネットワークに学習させた。そのほとんどは、Flickr上でクリエイティブ・コモンズとしてライセンスされているもの。Catanzaro氏は、同社は許可を得た画像のみを使っていると述べている。NVIDIAによれば、このプログラムは何十万種類ものオブジェクトを生成し、現実世界のようなオブジェクト同士の関係も再現できるという。たとえばGauGANでは、季節を変えることで、枝に葉がなくなるところまで再現している。そして、木の前に池があれば、その水面に木が映るのだ。

Nvidiaは米国時間3月18日、ホワイトペーパーを発行することにしている。Catanzaro氏によれば、それはあらかじめCVPR 2019に提出されたものだという。

Catanzaro氏は、このソフトウェアをNVIDIAの新しいAI Playground上でも使えるようにすることを目論んでいる。ただし、そのためにはもう少し仕事が必要だという。彼は、このようなツールをビデオゲームに応用すれば、より没入しやすい環境を作ることが可能になると考えてはいるものの、NVIDIAが直接、そうしたソフトウェアを開発することはないとしている。

このソフトウェアを使って、非道な目的のため、偽物の画像を生成することも簡単にできるということが心配になるのも無理はない。Catanzaro氏も、これは重要なトピックであり、1つのプロジェクト、あるいは1つの会社で扱えるようなものではないと考えている。「私たちも、そのことをとても気にかけています。この世界をできるだけよい場所にしたいですから」と、彼は言う。そして、これは信頼の問題であり、技術の問題ではないと付け加えた。われわれが、社会全体として対処すべき問題であるとも。

今回の限られたデモからも明らかになったのは、こうした能力を引き出すようなソフトウェアは、ビデオゲームデザイナーから建築家、そして一般のゲーマーまで、誰にとっても魅力的なものであること。NVIDIAとしては、このソフトウェアを商業的にリリースする予定はないものの、誰でも使ってみることができるよう、じきにパブリックトライアル版をリリースすることになるはずだ。

原文へ

(翻訳:Fumihiko Shibata)