似顔絵から写真を再現、オランダの研究チームが逆発想のソフトウェアを開発

スマートフォンで撮影した写真を絵画調のアート作品へと加工するアプリ「Prisma」を愛用している人は多いだろう。しかしその逆のプロセス、つまりアート作品を写真へと変換させることも同様に面白い。そして、そんな逆発想のテクノロジーの実現はそう遠くないと、オランダの研究者たちは断言する。

オランダ、ラドバウド大学の4名の神経科学者は、ディープ・ニューラル・ネットワーク（深層神経回路網）を利用し、似顔絵を写真のようにリアルな顔の画像に転換するモデルに取り組んでいる。この研究（Convolutional Sketch Inversion）の結果は、最初にオンラインアーカイブ「arXiv」にて公表された。10月にアムステルダムで開催予定の「European Conference on Computer Vision」にも先日受理されている。

科学者達によると、このモデルは様々な形で応用が期待できるという。例えば、芸術分野で似顔絵を写真に近い形に変えたり、あるいは科学捜査で、目撃者の情報をもとに書いた犯人の似顔絵を、画像認識ソフトで検知可能なデータにするといったことなどだ。

「最近発表された、ニューラルスタイル変換（neural style transfer）という、写真をアート作品へと変換するアルゴリズムの研究に触発されました」と、29歳のYağmur Güçlütürkと30歳のUmut GüçlüはTechCrunchへのメールに書いた。認知神経科学の博士課程学生である二人は、Marcel van GervenとRob van Lierと共に今回の研究を行った。

GüçlütürkとGüçlüが参考にした論文には、ドイツの街テュービンゲンを、フィンセント・ヴァン・ゴッホの名作「星月夜」の絵画スタイルで再現するテクニックが記されていた。「これを読んだ時、逆の場合はどうなのかと考え始めました。つまり、このフィンセント・ヴァン・ゴッホの作品を写真にするとどうなるか、ということです」とGüçlütürkとGüçlüは書く。

GüçlütürkとGüçlüによると、人工神経回路網を利用した独自のソフトウェアは以下のように機能する：

「例えば、科学者である私が、人工神経回路網であるあなたに、スケッチ（インプット）を写真（アウトプット）に変換する方法を教えたいとしましょう。まず、スケッチと写真のペアを取り込んだ膨大なデータセットを構築します。そしてあなたにスケッチのみを渡し、写真に変換するよう依頼します。あなたは適当に1つ戦略を考え、写真を再現します。初めのうちは、作成した写真とデータセットの写真はかけ離れています。私は、あなたが描いた写真とデータセットの写真を比べ、間違いを指摘します。そのフィードバックをもとに、あなたは戦略を変え、改めて写真を作り直します。すると徐々に、写真のクオリティが高まっていくのです」。

Examples of the synthesized inverse sketches from the LFW dataset. First image in each column is the ground truth, the second image is the generated sketch and the third one is the synthesized inverse sketch. (Source: "Convolutional Sketch Inversion" Study)

LFWデータセットから合成した似顔絵の例。最初の列が本物、2番目が生成されたスケッチ、そして3番目の列がスケッチから合成した顔写真。（論文「Convolutuonal Sketch Inversion」より）

今回、スケッチと写真を一致させるモデルの習得プロセスにおいて、反復学習がとても重要な役割を果たした（これは神経回路網を訓練させるスタンダードな方法でもある）。

「この最後の2つのステップを何度も繰り返します」とGüçlütürkとGüçlüは書く。「最終的に、合成した写真はデータセットの写真と似てきます。上手くいけば、習得した新たなスキルを使って、すでに見たことのあるスケッチだけでなく、まだ見たことがないスケッチでも素早く高画質な写真へと変換することが可能になるのです」。

このアルゴリズムの訓練とテストを実施するため、研究者達はまずウェブ上で公開されているデータをもとに似顔絵をコンピューターで生成した。使用したのは、CelebAにある20万枚以上の芸能人の写真が保管されたデータセットと1万3000枚の顔写真が保管されているLFWデータセットだ。さらに、手描きのスケッチをCUFSデータセットから入手した。

2人の博士課程の学生がまず始めに試したのは、Güçlütürkが描いた彼ら自身の似顔絵を変換することだった。さらに、このアルゴリズムを使うことで、2人は有名なオランダ人アーティスト3人（レンブラント、ヴァン・ゴッホ、エッシャー）の自画像をもとに、写真のようにリアルな顔の画像を構築することを試みた。

Self-portrait sketches and synthesized inverse sketches along with a reference painting or photograph of famous Dutch artists: Rembrandt (top), Vincent van Gogh (middle) and M. C. Escher (bottom). (Source: "Convolutional Sketch Inversion" Study)

左の列から有名オランダ人アーティストの自画像、スケッチから合成した顔写真、参考写真又は絵。レムブラント（上）、フィンセント・ヴァン・ゴッホ（真ん中）、M. C. エッシャー（下）（論文「Convolutional Sketch Inversion」より）

彼らは現在、この成果を市場に投入する方法を探している。芸術や科学捜査などの領域での収益化を目指している。

「今回の研究からスピンオフして設立した会社Neurantは、そういったアプリケーションの開発をすでに行っています。近いうちに市場に参入したい考えです」とGüçlütürkとGüçlüは締めくくった。

[原文へ]

（翻訳：Tomoya Mori）

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。 TechCrunch Japan の投稿をすべて表示