いまさら聞けないコンピュータービジョン入門

wtf-computer-vision

部屋の向こうから誰かがあなたにボールを投げて、あなたがそれをキャッチする。実にシンプルだ。実のところ、これは私たちが理解しようとしてきたプロセスの中でも最も複雑なものの1つだ – ましてや再現は困難だ。私たちが見るように見ることができるマシンを発明することは、見かけ以上に困難な仕事だ、コンピューターにそれをやらせることが難しいというだけでなく、そもそも私たち自身がそれをどのようにやっているのかがはっきりしないからだ。

実際に起こっているのはおおよそこのなようなことだ:ボールのイメージがあなたの目を通過して網膜に映る、そこである程度の基礎的な解析を行い、その結果を脳に送る、そして視覚野がイメージをより徹底的に解析する。そして、その後解析結果は皮質の残りの部分へと送り出される、そこでは既に知っている全てのものと結果が比較され、物体と寸法を分類し、最終的に何を行うかを決定する:腕を上げてボールを掴む(その軌跡を予測しながら)。このプロセスはほんの一瞬で行われて、意識的な努力はほぼ不要だ、そして多くの場合決して失敗しない。だから、人間の視覚を再現することは、単に1つの困難な問題ではないのだ、それは複数の困難な問題の集まりで、お互いが他に依存している。

まあ、これが簡単だろうと言った人はいない。おそらく、AIのパイオニアである、マービン・ミンスキーを除いては。彼は1966年に1人の大学院生にこのような有名な課題を与えた「カメラをコンピューターに接続して、それが見ているものを記述させなさい」。学生に同情を禁じ得ない:50年後、私たちはまだその課題に取り組んでいるのだ。

本格的な研究は、50年代に始まり、3つの異なるラインに沿って進んだ:目を複製する(難しい)。視覚野の複製(非常に難しい):そして脳の残りの部分の複製(ほぼ間違いなくこれまで試みられたものの中で最も困難)。

見ること

目の再発明は、私たちが最も成功を収めてきた領域だ。過去数十年にわたって、私たちは人間の目の能力に匹敵し、ある部分ではその能力を凌ぐほどの、センサーや画像処理装置を作成してきた。より大きく、より光学的に完璧なレンズと、ナノメートルスケールで製造された半導体サブピクセルのおかげで、現代のカメラの精度と感度は信じられないという他はない。カメラはまた、毎秒数千ものイメージを記録し、高い精度で距離を検出することができる。

An image sensor one might find in a digital camera.

デジタルカメラの中によく見ることができるイメージセンサの1つ

しかし、出力の忠実度は高いにもかかわらず、これらのデバイスは多くの点で、19世紀のピンホールカメラより優れているとは言えない:それらは単に与えられた方向から来る光子の分布を記録しているだけなのだ。これまでに作られた最も優れたカメラセンサーでもボールを認識することはできない — もちろんそれをキャッチするなんて事もできそうもない。

別の言葉で言えば、ハードウェアはソフトウェアが存在しないと極めて機能が限られてしまう — それが解くべき、より重要な問題なのだということが分かったのだ。とはいえ、現代のカメラ技術は、撮影のためにリッチで柔軟なプラットフォームを提供している。

記述すること

ここは、視覚神経解解剖学についての完全なコースを提供する場所ではないが、私たちの脳は、言ってみれば、視覚を意識して、ゼロから構築されているのだと言えば十分だろう。脳の大部分は他のどのようなタスクよりも視覚に割り当てられている、そしてその専門化は細胞に至るまで全部が関連している。数十億のそれらの細胞が一緒に働き、網膜から送られたノイズだらけで無秩序な信号からパターンを抽出する。

もし特定の線上に特定の角度でコントラストがあったり、例えば、ある方向へ急な動きがあった場合に、神経細胞の集合がお互いを刺激する。より高いレベルのネットワークが、これらのパターンをメタパターンへと集約する:上方に移動している円、のように。そこへ別のネットワークが話に加わる:円は白く、線は赤い。また別のネットワーク:そのサイズは成長している。1つの画像が、これらの粗く補完的な記述から現れ始める。

A "histogram of oriented gradients," finding edges and other features using a technique like that found in the brain's visual areas.

「勾配方向ヒストグラム(HOG:histogram of oriented gradients)」が、脳の視覚野に見られるような技術を用いて、エッジや他の特徴を見つける

これらのネットワークを、計り知れない複雑なものと考えた初期のコンピュータービジョンの研究は、違うやり方を採用した:「トップダウン」アプローチだ — 本は/この/ように見えるので、/この/ようなパターンを探せ。もし横置きされていないなら、/この/ように見えるだろう。車は/この/ように見えて、/この/ のように移動する。

私たちは、私たちの心がどのように働いているかに関しての、使える定義をほとんど持っていない。それをシミュレートすることは更に困難だ。

制御された状況下で少数のオブジェクトを扱うなら、このやり方は上手く行った、しかし身の回りの全てオブジェクトを記述しようとすることを想像して欲しい。あらゆる方向から様々な光と動きがやってきて、数百ものその他の要素があるのだ。幼児レベルの認識を達成することでさえ、非現実的に巨大なデータセットを必要とすることが明らかになった。

脳内で発見されたものを模倣する「ボトムアップ」アプローチは、より有望だ。コンピュータはイメージ対して連続した変換を適用し、予測されるオブジェクト、複数の画像が示されたときの遠近や動きなどを発見することができる。このプロセスは、大量の数学と統計計算を伴うが、要するにコンピューターは見たものを、既に認識するように学習していたものとマッチングさせようとしているだけのことだ — 私たちの脳がそうであるように、他の画像で学習したものを使うのだ。


上のようなイメージ(パデュー大学のE-labより)が示しているものは、コンピューターが計算によって、注目したオブジェクトが他の例の中の同じオブジェクトのように見え、似た動きをすることに、ある統計的確信度のレベルまで達したことを表示している。

ボトムアップアーキテクチャの支持者たちは「だからそう言ったじゃないか」と言うだろう。しかし、つい最近まで、人工ニューラルネットワークの構築と運用は非現実的だった、なぜなら必要な計算量が膨大だったからだ。並列コンピューティングの進歩は、これらの障壁を打ち破りつつあり、ここ2、3年は私たちの脳の中を模倣する(もちろんまだ概略レベルだが)システムの、構築と利用の研究が爆発的に増えている。パターン認識のプロセスは桁違いに高速化されていて、私たちは日々進歩を重ねている。

理解すること

もちろん、あなたはあらゆる種類のリンゴを認識するシステムを作ることができる、すべての角度から、どのような状況でも、止まっていても、動いていても、少々齧られていても、どのような場合でも — そして、そのシステムはオレンジを認識することはできない。さらに言えば、そのシステムは、リンゴとは何か、それは食べられるものなのか、どれほど大きなものなのか、あるいは何に使われるものなのかに答えることさえできないのだ。

問題は、良いハードウェアとソフトウェアがあっても、オペレーティングシステムがなければあまり役に立たないということだ。

Artificial intelligence and cybernetics

私たちにとっては、それが私たちの心の残りの部分なのだ:短期並びに長期記憶、私たちの他の器官からの入力、注意と認知、本当に膨大な世界とのインタラクションを通じて学んだ、これまた膨大なレッスン、私たちがかろうじて理解した手法で書かれた、これまで私たちが出会ったどのようなものよりも複雑な相互接続されたニューロンのネットワーク。

コンピュータビジョンの将来は、私たちが開発した、強力なしかし特定の役にしかたたないシステムを、より大きなものと統合するところにある

ここが、コンピュータ科学とより一般的な人工知能のフロンティアが集まる場所だ — そして私たちが大いに空回りをしている場所なのだ。コンピュータ科学者、技術者、心理学者、神経科学者そして哲学者の間で、私たちは、私たちの心がどのように働いているかに関しての、使える定義をほとんど持っていない。それをシミュレートすることは更に困難だ。

とはいえ行き止まりに来たという意味ではない。コンピュータビジョンの将来は、私たちが開発した、強力なしかし特定の役にしかたたないシステムを、捉えることが少し難しい概念(文脈、注意、意図)にフォーカスしたより大きなものと、統合するところにある。

とは言っても、たとえ初期の段階であるとしても、コンピュータビジョンは、非常に有益なものだ。それはカメラの中に入って、顔と笑顔を認識している。それは自動運転車の中に入って、交通標識を読み取り歩行者に気をつけている。そしてそれは工場のロボットの中に入り、問題を監視し、人間の作業者の周りでナビゲーションを行っている。それらが、わたしたちと同じように見ることができるようになるまでには、(もしそれが可能だとしても)なお長い年月が必要だが、現在手にできている仕事の規模を考えると、彼らが見ているということは素晴らしいことだ。

[ 原文へ ]
(翻訳:Sako)

いまさら聞けない機械学習入門

wtf-machine-learning

機械学習についての沢山の記事を目にして、何やら深遠なものが発見されつつあると思う人もいるかもしれないが、実際はその技術はコンピューティングと同じくらい古いものだ。

歴史上最も影響力のある計算機科学者のひとりであるアラン・チューリングが1950年に、コンピューティングに関する彼の論文の中で「機械は考えることはできるか?」という問いかけを始めたことは偶然ではない。空想科学小説から研究室に至るまで、私たちは長い間、自分自身を人工的な複製が、私たちに自分自身の意識の原点、より広義には、私たちの地上での役割、を見出すことの役にたつのだろうかと問いかけてきた。残念ながら、AIの学習曲線は本当に急峻だ。歴史を少しばかり辿ってみることによって、機械学習が一体全体何物であるのかに関しての、基本概念位は見出してみたい。

もし「十分に大きな」ビッグデータを持っていれば、知性を生み出すことができるのか?

自分自身を複製しようとする最初の試みには、機械に情報をギチギチに詰め込んで、上手くいくことを期待するようなやり方もあった。真面目な話、ただ膨大な情報を繋ぎ合わせすれば意識が発生するといった、意識の理論が優勢を占めていた時もあった。Googleはある意味このビジョンの集大成のように見做すこともできるが、同社がすでに30兆ページのウェブを収集したにも関わらず、この検索エンジンが私たちに神の実在について問いかけ始めることを期待するものはいない。

むしろ、機械学習の美しさは、コンピューターに人間のふりをさせて、単に知識を流し込むことではなく、コンピューターに推論させ、学んだことを一般化させて、新しい情報へ対応させるところにある。

世の中ではよく理解されていないが、ニューラルネットワーク、ディープラーニング、そして強化学習は、すべて機械学習である。それらはいずれも、新しいデータに対する分析を行うことのできる一般化されたシステムを作り出す方法である。別の言い方をすれば、機械学習は多くの人工知能技術の1つであり、ニューラルネットワークとディープラーニングといったものは、より広範なアプリケーションのための優れたフレームワークを構築するために使用できるツールだというだけのことだ。

1950年代のコンピューティングパワーは限られていて、ビッグデータへのアクセスもなく、アルゴリズムは初歩的だった。これが意味することは、機械学習の研究を進めるための私たちの能力は、極めて限られていたということだ。しかし、それは人びとの研究の意欲を削いだりはしなかった。

1952年のこと、Arthur Samuelはアルファ・ベータ法と呼ばれるAIの非常に基本的な形式を利用して、チェッカープログラムを作った。これは、データを表す探索木上で作業する場合に、計算負荷を減らす方法の1つであるが、全ての問題に対する最善の戦略を常に与えてくれるわけではない。ニューラルネットワークでさえ、Frank Rosenblattの懐かしのパーセプトロンが現れたものである。

いずれにせよ読む必要のある、複雑で大げさなモデルScreen Shot 2016-08-25 at 1.53.58 PM

パーセプトロンは随分と時代に先行したものだった、機械学習を進めるために神経科学を利用したのだ。紙の上で、そのアイデアは右に示したスケッチのようなものだった。

それがやっていることを理解するために、まず大部分の機械学習問題は、分類(classification)もしくは回帰(regression)の問題に分解できることを理解しなければならない。分類はデータをカテゴリ分けするために用いられ、一方回帰モデルは傾向からの外挿を行い、予測を行う。

パーセプトロンは、分類装置の1例である – それはデータの集合を受け取り、複数の集合に分割する。この図の例では、それぞれの重みの付いた2つの特徴量の存在が、このオブジェクトを「緑」カテゴリーだと分類するために十分であることが示されている。こうした分類装置は、現在は受信ボックスからスパムを分離したり、銀行における不正を探知するために使われている。

Rosenblattのモデルは一連の入力を使うものだ。長さ、重さ、色といった特徴にそれぞれ重みのついたものを考えてみるとよい。モデルは、許容誤差以内に出力が収まるまで、連続的に重みを調整していく。

例えば、ある物体(それはたまたまリンゴであるとする)の重量が100グラムであると入力することができる。コンピュータは、それがリンゴであることを知らないが、パーセプトロンはその物体を、既知のトレーニングデータに関する分類装置の重みを調整することによって、「リンゴのような物体」あるいは「リンゴではないような物体」に分類することができる。そして分類装置が調整されると、それは理想的には、これまで分類されたことのない未知のデータセットに対して再利用することができる。

まあ仕方がない、AI研究者たちでさえ、こうしたことには混乱しているのだ

コンピュータと少年パーセプトロンは、機械学習の分野で行われた多くの初期の進歩の、ほんの1例に過ぎない。ニューラルネットワークは、協力して働くパーセプトロンの大きな集まりのようなものである。私たちの脳や神経の働き方により似通っていて、それが名前の由来にもなっている。

数十年が過ぎて、AIの最先端では、単に私たちが理解した内容を複製しようとするのではなく、心の仕組みを複製する努力を続けている。基本的な(または「浅い」)ニューラルネットワークは、今日まだ利用されているものの、ディープラーニングが次の重要事項として人気を博している。ディープラーニングモデルとは、より多くの層を持つニューラルネットワークである。この信じられないほど満足感の得られない説明に対する、完全に合理的な反応は、その層とは何を意味するのかと問うことだ。

これを理解するためには、コンピューターが猫と人間を2つのグループに分類できるからといって、コンピューター自身はその仕事を人間と同じようには行っていないことを認識しておかなければならない。機械学習フレームワークは、タスクを達成するために抽象化のアイデアを活用する。

人間にとっては、顔には目があるものである。コンピュータにとっては、顔には線の抽象を構成する明暗のピクセルがあるものだ。ディープラーニングの各層は、コンピュータに同じオブジェクトに対して、違うレベルの抽象を行わせるものである。ピクセルから線、それから2Dそして3Dへ。

圧倒的な愚かさにもかかわらず、コンピューターは既にチューリングテストに合格した

人間とコンピュータが世界を評価する方法の根本的な違いは、真の人工知能を作成するための重大な挑戦を表している。チューリングテストは、AIの進捗状況を評価するために概念化されたものだが、この事実は無視してきた。チューリングテストは、人間の反応をエミュレートするコンピュータの能力を評価することに焦点を当てた、行動主義のテストである。

しかし模倣と確率的推論は、せいぜい知性と意識の謎の一部でしかない。2014年の時点で私たちはチューリングテストに合格したと考える者もいる、5分間のキーボードによる対話の間、30人の科学者のうち10人を、人間を相手にしているものだと信じさせることができたからだ(にもかかわらずSiriは質問の3件に1つはGoogleを検索しようとする)。

それで、「AIの冬」のためにジャケットを用意する必要はあるのか?

こうした進歩状況にもかかわらず、科学者や起業家を問わず、AIの能力への過剰な約束は迅速だった。この結果引き起こされた騒ぎと破綻は一般的に「AIの冬」(AI winters)と呼ばれている。

私たちは、機械学習によっていくつもの信じがたいことができるようになってきた、例えば自動運転車のためのビデオ映像内の物体の分類をしたり、衛星写真から収穫の予測をしたりといったことだ。持続する短期記憶は、私たちの機械に、ビデオ中の感情分析のような時系列への対処をさせることを可能にしている。ゲーム理論からのアイデアを取り込んだ強化学習は、学習を報酬を通じて支援するための機構を備えている。強化学習は、Alpha GoがLee Sodolを追い詰めることができた、重要な要因の1つだった。

とは言うものの、こうした進歩にもかかわらず、機械学習の大いなる秘密は、通常私たちは与えられた問題の入力と出力を知っていて、それらを仲介する明示的なコードをプログラムするものなのに、機械学習のモデルでは入力から出力を得るための道筋を特定することが常にできるわけではない、ということなのだ。研究者はこの挑戦を、機械学習のブラックボックス問題と呼んでいる。

ひどくがっかりする前に指摘しておくならば、人間の脳自身もブラックボックスだということを忘れてはならない。私たちはそれがどのように動作しているかを本当に知らず、抽象の全てのレベルでそれを調べることもできない。もし誰かに、脳を解剖してその中に保持されている記憶を探させてくれと頼んだら、即座にクレイジーというレッテルを貼られてしまうだろう。しかし、何かを理解できないということはゲームオーバーを意味しない。ゲームは続くのだ。

この記事では、機械学習を支える多くの基本的な概念を紹介したが、将来の「いまさら聞けない(WTF is …?)」シリーズのための沢山のネタがテーブル上に残されている。ディープラーニング、強化学習、そしてニューラルネットは、それぞれより深い議論に進むことが可能だが、願わくばこの記事を読んだ後、読者のこの分野への見通しが良くなって、日々私たちがTechCrunchで取り上げている沢山の企業間の関連が理解しやすくなることを期待している。

他の「いまさら聞けない(WTF is)」シリーズ

いまさら聞けないコンテナ入門

いまさら聞けないクリックベイト入門【英語】

いまさら聞けないミラーレスカメラ入門【英語】

[ 原文へ ]
(翻訳:Sako)

マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

ディープラーニングが計算機の視覚に果たす役割

Close Up of blue eye with computer circuit board lines, digital composite

【編集部注】著者のClaire Bretton氏はdaco.ioの共同設立者の1人である。daco.ioはディープラーニングを使ったユニークな競合トラッキングツールを開発するするスタートアップである。以前、彼女はパリに拠点を置くトップ戦略コンサルティング会社のマネージャーだった。ESCPヨーロッパから修士号を取得している。

21世紀の最大の課題の1つは、コンピューターをより人間の脳に似たものにすることだ。私たちは彼らに話し、理解し、そして問題を解いて欲しい – そして今、私たちは画像を見てその内容を認識して欲しいと思うのだ。

長い間盲目だった私たちの最も賢いコンピューターたちは、今や見ることができるようになった。

これは、ディープラーニングによって可能になった革命である。

機械学習:最初のステップ

機械学習を理解することはとても容易だ。そのアイデアは、大規模なデータベース上でアルゴリズムを訓練して、新しいデータに対して得られる出力を予測できるようにすることだ。

ここでは単純な例を示そう:私たちは樹齢を直径を使って予測したい。このデータベースには3種類のデータだけが含まれている:入力(x, 木の直径)、出力(y, 樹齢)、そして属性(a, b:木の種類, 森の位置)だ。これらのデータは、1次関数y = ax + bによって関連付けられている。このデータベースを使った訓練を通して、機械学習アルゴリズムは、xyとの間の相関関係を理解して、属性の正確な値を定義することができるようになる。この訓練段階が完了すると、コンピューターは、新たな直径(x)から正しい樹齢(y)予測することができるようになる

これは、過度に単純化した説明だが、画像認識について説明するときにはもっと複雑なものとなる。

コンピューターの場合、画像は数100万の画素の集まりだ – それは沢山のデータ処理を必要とし、1つのアルゴリズムで処理するには多すぎる入力である。そこで研究者たちはショートカットを見つけなければならなかった。最初のソリューションは、中間の特性を定義することだった。

コンピューターに猫を認識させたいと想像して欲しい。まず初めに、人間は主要な猫の特徴を全て定義しなければならない:丸い頭部、2つの尖った耳、1つの鼻…こうした主要な特徴が定義されれば、良く訓練されたニューラルネットワークアルゴリズムは、十分なレベルの正確さで、画像を分析しそれが猫であるか否かを判断することができる。

ミリリットル、猫

では、より複雑なアイテムを選んだ時にはどうなるだろう?

たとえば、ドレスをどのようにコンピューターに説明すればよいだろう?

ML-キャラ

あなたはここで画像認識のための基本的な機械学習の、最初の限界に突き当たったということだ:100パーセントに近い認識ポテンシャルを持つ識別特徴を定義することは、しばしば不可能なのである。

ディープラーニング:人間の介入なしに、見て学ぶ

2000年代になって、Stanford大学のAI LabとVision LabのディレクターであるFei-Fei Liが、重要な直感を得た:子供たちはどのようにものの名前を学ぶのだろうか?彼らはどうやって猫やドレスを認識することができるのだろう?両親いちいち特性を示しながら教えるわけではない、その代わり子供が対象を見るたびに、その物/動物の名前を教えるのだ。親たちは、視覚的な例を使って子供たちを訓練している。なぜ私たちは同じことをコンピューターに対してできないのだろう?

しかし、このとき2つの問題が残っていた:データベースの存在とコンピューティングパワーだ。

まず、「コンピューターに見ることを教える」ための十分に大きなデータベースはどのように入手することができるだろうか?この問題に取り組むため、Liと彼女のチームは、Image Netプロジェクトを2007年に立ち上げた。180カ国の50000人以上の人と協力して、彼らは世界最大の画像データベースを2009年に作成した:22000のカテゴリをカバーした、1500万枚の命名と分類が成された画像群だ。

コンピューターは今大規模な画像データベースで自分自身を訓練し、重要な特徴を特定することができるようになっている、そしてそれには人間の介入が不要なのだ。3歳の子供のように、コンピューターは名前の付いた数百万枚の画像を見て、自分自身でそれぞれのアイテムの主要な特徴を理解する。これらの複雑な特徴抽出アルゴリズムはディープニューラルネットワークを使い、何十億というノードを必要とする。

mlのドレス

これはディープラーニングの始まりに過ぎない:私たちはなんとかコンピューターが3歳児のように見ることができるようにした。しかしLiがTED talkで話したようにまだこれからなのだ:「本当の挑戦はこれからです:私たちはどうすればコンピューターを3歳から13歳に、そしてそのはるか先へ進めることができるでしょうか?」

[ 原文へ ]
(翻訳:Sako)

Yahooがポルノを検出するニューラルネットワークをオープンソース化、ただし訓練はあなたの仕事

nsfw_score

インターネットの上のものに、どうやってNSFWを指定するのか? Yahooに聞こう。Yahooはそれをやっている。わいせつなコンテンツで訓練した、同社特製の、ポルノ検出ニューラルネットワークだ。そして今回、そのシステムがオープンソースになったから、誰もが使える。そう、そのとおり、フォークするのも自由だ。

それはもちろん冗談。Yahooのアルゴリズムは万能ではない。画像を見てNSFWだ、と判断するのは、もっとも手強い難問の一つだ。昔から、見れば分かるさと誰もが言うが、そう言える人は、全生涯をポルノを見て過ごした人だけだ。コンピューターには、そんな経験はない。

純潔無知なマシンもしかし、Yahooに捕まって何千もの画像で訓練され、画像認識エンジンにされてしまうと、腐敗のきわみに達する。もう、彼の純情は永遠に盗まれてしまった。しかしそれと引き換えに、あなたがネットで検索したとき、結果にいやらしいものが紛れ込む確率は低くなる。

でも、まじめな話、畳み込みニューラルネットワーク(convolutional neural networks, CNN)は画像を分類するための優れたツールだ。そのことは、これまでの数多い研究によって証明されている。特定のタイプの画像のデータベースで訓練すると、アルゴリズムは一定のパターンに対して敏感になる。犬を見分けるCNNなら、尻尾や鼻や、とがった口をたくさん見せられるだろう。車なら、車輪やドアの取っ手やラジエーターグリルを認識する。そしてポルノなら何を、…それはご想像におまかせしよう。

Yahooのシステムはいろんな画像を見て、それらに0から1までの点をつける。ポルノだと判断した画像の点は、1に近い。検閲目的だけでなく、いろんな状況で使えそうだ。刺激的な画像が歓迎される場面もあるが、Web上の大量のデータを相手にするときは、それらを篩い落とせた方が便利だ。

メールやメッセージを、プライバシー侵害にならずに、チェックすることもできる。同僚がいたずらで送ってきたNSFW画像を、職場でうっかり開く醜態は、たぶんなくなる。

オープンソースのコードをビルドしてエンジンができても、まだそれは全然訓練されていない。たくさんポルノを見せて訓練するのは、あなたの役目だ。でも今のインターネットの上なら、それは問題ないだろう。詳しい説明はYahooのブログ記事にある。そしてコードのダウンロードはGitHubからだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google、ニューラルネットワーク機械学習を検索翻訳に適用―第一陣は中国語/英語

2016-09-29-machine-translation-ai-shutterstock_181640888

ある言語を別の言語に翻訳するのは難しい作業だ。言語の自動翻訳システムを開発することはコンピュータ処理の目標の中でも非常に困難な部分だ。一つには、取り扱う対象となる語句の数が膨大になるからであり、それらを統べる規則を発見することは非常に難しい。幸いなことに、ニューラルネットワークは膨大かつ複雑なデータの自動的な処理が得意だ。 Googleは機械学習を利用した自動翻訳を長年にわたって開発してきたが、昨日(米国時間9/27)からその第一陣を公式にスタートさせている

このシステムはGNMT(Googleニューラル機械翻訳=Google Neural Machine Translation)と呼ばれる。GNMTの最初のサービスは、中国語/英語の検索の自動翻訳だ。これは既存の検索システムを基礎としてニューラルネットワークを利用して改良したものだ。以下自動翻訳がどのように発達してきたか、その歴史を歴史を簡単に振り返ってみたい。

語句単位の直接置き換え

子供にせよコンピュターにせよ、いちばん直接的で簡単なのは単語やフレーズを単純に別の言語に置き換えることだろう。この方式ではニュアンスはもちろん、文の意味さえまったく失われることがある。しかしこの単純置き換え方式は対象となる文章が何について述べているか大まかな雰囲気を最小の労力で示してくれる。

言語は語句の組合せで成り立っているので、論理的に考えて、自動翻訳の次のステップはできるかぎり大量の語句とその組合せの簡単なルールを収集し、翻訳作業に適用することだ。しかしそのためには非常に多量のデータを必要必要とする(単なる二ヶ国語辞書ではとうてい足りない)。たとえば同じrunという動詞一つ取ってもrun a mile〔1マイルを走る〕、 run a test〔テストを実施する〕、run a store〔店を運営する〕ではまったく意味が違ってくる。この違いを見分けるためには膨大な例文の統計的処理が必要になる。しかしコンピューターはこうした処理が得意だ。そこで必要なデータとルールが収集されれば語句ベースの自動翻訳を実用化することができる。

もちろん言語ははるかに複雑だ。しかし単純な語句ベースの置き換えの次のステップでは複雑性やニュアンスが飛躍的に増大し、その処理に必要なコンピューティング・パワーも比例して増大する。しかし複雑なルールセットを理解し、それに基づいた予測モデルを作るのはニューラルネットワークの得意とするところだ。自動翻訳ではこの分野が長年研究されてきが、今回のGoogleのGNMTの一般公開は他の研究者に大きなショックを与える進歩だろう。

GNMT(Googleニューラル機械翻訳)は機械学習の翻訳への応用として最新かつ格段に効果的な手法だ。GNMTは文全体を視野に入れながら個々の語句にも細かい注意を払っている。

Google's animation shows how the parts of a Chinese sentence are detected and their relevance to the words to be translated weighed (the blue lines).

アニメによる中国語の翻訳の説明。中国語の単語が探知されると翻訳されるべき言語との関連で重み付けがなされる(青い線)。

全体を眺めながら細かい部分も意識しているという点で、われわれが画像を認識するときの頭脳の働きに似ている。しかしこれは偶然ではない。ニューラルネットワークは人間の認識のプロセスを模倣して対象が何であるか判別できるよう訓練される。したがって画像をゲシュタルトとして認識することと文の意味を認識することの間には単なる表層的なもの以上の類似点がある。

興味ある点だが、ニューラルネットワークの応用としては、言語のみに特有な点はほとんどない。このシステムは未来完了形と未来進行形の区別はできないし、語句の語源やニュアンスについても知らない。すべては数学モデルであり、統計処理として実行される。いわゆる人間の感性は入って来ない。翻訳という人間的作業をメカニカルな統計処理に分解してしまう手際には感嘆せざるを得ないが、ある種の気味の悪さも感じる。もちろんGNMTはそのようなメカニカルな翻訳で十分であり、それ以上の技巧や深い解釈は必要とされない分野に対応したシステムだという点に注意が必要だろう。

技巧を取り除くことによって技術を進歩させる

GNMTついての論文には、計算処理量の縮減という技術的ではあるが、重要な進歩がいくつか紹介されている。計算量のオーバーヘッドが大きくなり過ぎるというのは言語処理のシステムでよく見られる陥穽だ。

例えば、言語システムはめったに使われない珍しい単語によって窒息することがある。使用頻度の少ない語句は他の語句の文脈の中に適切に位置づけることが難しい。GNMTは珍しい語句をほぼ同じ意味で使用頻度の高い語句に分割し、置き換えることによってこの困難を迂回する。システムは置き換えられた語句を他の語句との関連で組織する。

正確性をある程度犠牲にすることによって実際の計算時間が短縮される。この処理にはニューラルネットワークを訓練することを念頭に置いて設計されたカスタム・ハードウェアであるGoogleテンソル計算ユニットが用いられる。

機械学習におけるインプット・システムとアウトプット・システムは大きく異る。しかし両者が接触するインターフェイスを通じて情報をやり取りし、協調して訓練されるることによって統合的な結果を生成するプロセスだという点は共通だ。ともあれ私が理解できた範囲ではそういうことになる。論文にはさらに詳しい情報が掲載されているので、そういう情報が必要な読者は参照されるとよいだろう。

結果としてニューラルネットワーク機械学習システムはは語句ベースの置き換えシステムをはるかにしのぐきわめて正確な結果をもたらす。翻訳品質は人間の作業のレベルに近づく。自らのビジネスの本質に関わる検索という分野でGoogleがウェブとアプリで動作するシステムを一般公開するのであれば高品質でなければならないというのはよく理解できる点だ。しかもターゲットは中国と英語という変換作業が非常に困難な組合せだ。

image00

スペイン語とフランス語についても良好なテスト結果が得られているという。おそらくここ数ヶ月のうちにGNMTはそれらの言語に拡張されるはずだ。

ブラックボックス化というトレードオフ

こうした手法のデメリットの一つは、機械学習を利用した予測モデルに往々にして生じる問題だが、内部でどのような処理が行われているのか実際のところ誰も確かめることが出来ないという点だ。

GoogleのCharina ChoiはTechCrunchの取材に対して「GNMTは他の大規模なニューラルモデル同様、膨大なパラメーターの集合であり、訓練の成果がどのような内部処理となっているのか見通すことが難しい」と述べた。

もちろんこれはGNMTをデザインしたエンジニアがこのシステムが何をしているのか理解できないという意味ではない。しかし語句ベースの置き換え型翻訳は、結局のところ人間が個別パーツをプログラムしている。したがってある部分が間違っていたり時代遅れになっていることが判明すれば、そのパーツをまるごと削除したりアップデートしたりできる。ところがニューラルネットワーク利用システムの場合、何百万回もの訓練セッションを通じてシステム自身が自らをデザインするため、何かがうまく行っていないことに気付いても、簡単にその部分を置き換えることができない。訓練によって新しいシステムを作り出すのは困難を伴う作業となる。もちろんそれは実行可能だし、場合によっては短時間しかかからないはずだ(また、そのように構築できるなら新たな課題が発見されるたびに自らを改善していくシステムとなっているだろう)。

Googleは機械学習に同社の将来の大きな部分を賭けている。今回公開されたウェブおよびモバイルでの自動翻訳検索はGoogleのニューラルネットワーク応用システムの最新かつもっとも目立つ一例だ。ニューラルネットワークはきわめて複雑、難解でいく分か不気味でもある。しかしこの上なく効果的であることを否定するのは難しい。

画像: razum/Shutterstock

〔日本版〕原論文はコーネル大学のアーカイブ・サイトにアップされたPDFファイル。誰でも無料でダウンロード可能。名前から判断すると研究者のうち3人は日本人(日系人)らしい。ただし日本語については音声認識における語句切り分け問題に関して言及があるだけで、日本語のGNMT翻訳については特に触れられていない。しかし従来の例から考えて日本語のGNMT応用についても研究は進んでいるはず。近い将来何らかの発表があるものと思われる。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

コンピューターアートをきっかけにロボットが受け入れられるようになる?

These robots can play any tune requested by an audience, according to their creator, Didier Jouas Poutrel.

【編集部注】執筆者のMotti Nisaniは、emazeのCEO。

多くの人は、ロボットで溢れる未来がゼロサムゲームだと考えている。つまり、人間かロボットのどちらかが世界を動かすことになるという考え方だ。陰謀論に関するウェブサイトだけでなく、ニュースのヘッドラインを見てみても「30年以内にほとんどの仕事がロボットに奪われてしまう」や「将来たくさんのロボットがいる中、人間の仕事は少ししか残されていない」といった悲惨な予測で溢れている。中には、自分の仕事が「クリエイティブ」や「人間中心」の分野だから大丈夫だと考えている人もいるかもしれないが、このリストを見るとそんな人たちも心配になるかもしれない。

もはやアートの世界でさえも安全ではないのだ。コンピューターがアルゴリズムを使って芸術作品をつくりだす「コンピューターアート」の技術が現在盛り上がっている。今年新たなプラットフォームであるMagentaを発表したように、Googleが関わりだすとその分野への取り組みが本気なのだと気付かされるだろう。「Magentaは、音楽やアートをつくるためのマシン・インテリジェンスに関する最新技術を推進する研究プロジェクトです。機械学習の技術は、既に音声認識や翻訳などの分野で、コンテンツを理解するために広く利用されています。私たちは、Magentaを使って現在行っていることの反対側、つまり音楽やアートのつくり方を学習し、最終的には人を惹きつけるような芸術作品を自分自身で生み出すことができるようなアルゴリズムの開発を行いたいと考えています」とGoogleはMagentaについて語っている。

では人間のクリエイティビティの時代は終わったのか、というとそうでもない(少なくともまだそうではない)。Googleが6月にMagendaを発表した際、その初めての作品となる1分23秒の曲も同時に紹介されていた。それを聞いた人は、ひとつの曲としてはそこまで評価していなかったものの、コンピュータ自らが作曲を行ったという事実には感銘を受けていた。Magentaやその他のコンピューターアート関連プロジェクトでは、ニューラルネットワーク技術を利用して作品が作られており、ルーブル美術館に展示されるほどのレベルにはまだ達していないが、そのソースとなっているものを考慮すると、なかなかの可能性を秘めている。

ロボットは多くのことに長けているが、全て上手くこなせるわけではないということが分かってきた。

しかし、人間もまだまだ終わりではない。ロボット技術は、多くの人が信じる程の脅威にはならないという議論も存在するのだ。このような意見を持つ評論家によれば、ページビューを目的としたジャーナリストやブロガー、もしくは、最低賃金や政府の補助金増額といった、ロボットに仕事が奪われるようになると当然必要になってくるお金を目的とした福祉国家賛成派によって、ロボットの脅威に関する情報は誇張されているかもしれない

ロボット技術にそろそろブレイクスルーが起き、人間の仕事を奪う(または人間を檻に閉じ込めてしまう)ことになると感じている人がいる一方、この盛り上がりは、投資家に今ロボット業界がアツいと信じこませるための策略に過ぎないのかもしれない。ちょうど同じようなことが数年前にビッグデータに関して起きていた(そしてこれもそこまで上手くいかなかった)。

というのも、ロボットは多くのことに長けているが、全て上手くこなせるわけではないということが分かってきたのだ。特に、地図を作ったり、ものをすぐに認識するなど、応用的な動作を行うのに必要な、基本的なタスクの処理にはまだ難点が残る。

MITの教授である、AI専門家のDavit Autorによると、「ジャーナリストやプロのコメンテーターは、機械による人間労働力の代替の度合いを誇張した議論を展開し、生産性の向上や、賃金の上昇、高い技術をもった労働者の需要の高まりといった、機械の発達に伴う補完性を無視しています。柔軟性や判断、常識といったスキルが必要となるタスクで、機械が人間に取って代わる上での課題は、未だに大きなものとして残っています」

それよりも、人間とロボットの「パートナーシップ」が今後発展し、ロボットや、ビッグデータ、拡張現実(AR)、さらには真価を発揮しつつあり、今後も進化を続けるであろうその他の最新技術の力を人間が利用することになるとAutorは考えている。そして、そのパートナーシップの最先端が、驚くべきことにアートなのだ。様々な分野のアーティストたちが、テクノロジーを駆使して、国際的な賞や称賛に値するくらいユニークで素晴らしい新たな作品を生み出している。

そこまでの才能に恵まれていない人も、オンライン・オフラインに関わらず、そこかしこに溢れている最新のツールを上手く利用することで、芸術力の底上げができる。

例えば、アメリカで最も有名なアーティストの1人であるJeff Koonsは、キャンバスアートや彫刻、「雑貨」の制作にテクノロジーを用いていることで有名だ。2013年に発表された彼の作品のひとつである「Balloon Dog Orange」がオークションで5840万ドルで落札され、彼は存命する中で最も作品に高値がつくアーティストとなった。2014年には、ニューヨークのホイットニー美術館で、Koonsの作品の回顧展が初めて行われた。初めてというのも、Koonsの作品をきちんと展示するのに必要なテクノロジーを用意するのは、とてつもなく大変な作業なのだ。なぜそこまでテクノロジーに頼った作品をつくるのかという理由に関して、あるインタビュー中にKoonsは、「私が作品の作りはじめに持っているビジョンが、制作中も、完成したときにも変わらずにあり続けることができると安心できるからです」と語った。

Koonsのように、コンピューターやテクノロジーを使って、美しくて素晴らしい芸術作品を生み出している人間のアーティストはたくさん存在する。もちろん、全てのアーティストがKoonsのようなキャリアを築けるわけではないが、そこまでの才能に恵まれていない人も、オンライン・オフラインに関わらず、そこかしこに溢れている最新のツールを上手く利用することで、芸術力の底上げができる。これは「イカサマ」ではなく、彼らはこれまでとは違う新しいメディア上で作品をつくっているに過ぎない。作品はアーティストが手がけており、もしもオンラインツールを使うことで作品がより良くなるのであれば、それを利用するまでだ。

Googleでさえ、アートを人間とテクノロジーのパートナーシップの賜物だと捉えている。Magentaは、現在自分で作品をつくれるように「トレーニング」されているところだが、Googleによると、このプラットフォームの本当の目的は、「アーティスト、コーダー、そして機械学習の研究者から成るコミュニティをつくることにあります。Magentaのコアチームは、今後音楽やアートをつくるためのオープンソースのインフラ開発を行う予定です。まずは、音声と動画を対象として、MIDIのようなフォーマットに対応したツールを準備し、さらにはアーティストと機械学習モデルを結びつけることができるようなプラットフォームをつくっていきます」

「アーティストやミュージシャンが新しいツールを使ってどのような事をするのかは分かりませんが、今後それを紐解いていくのが楽しみです」とGoogleは語る。人間のアーティストがテクノロジーを使って考えだす作品は、恐らくコンピューターだけでつくり出した作品よりもずっと面白いものになるだろう。結局のところ、RickenbackerやGibsonといったエレキギターブランドも、当時の革新的な技術が搭載された製品を開発した際に、「ジミ・ヘンドリックスやセイント・ヴィンセントなどの登場を予期していなかったんです」とGoogleは言う。

このように、アートは社会全体に手本を示すことさえできるのだ。ロボットだけでもできるが、ロボットと人間が一緒にやればもっと上手くできる。こんなにアートを身近に感じられることがあっただろうか。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

その言葉は本気かそれとも皮肉か?、ニューラルネットワークがそれを見つける

shutterstock_94007068

テキストによるコミュニケーションには、皮肉やジョークを本気と読み誤る危険性がある。誰にも、その被害者や加害者になった経験があるだろう。そのことに相当懲りたポルトガルの研究者たちは、ニューラルネットワークを利用して、話者の意図が皮肉や嫌味であることを、判断しようとしている。

それは、日常の会話における誤解を防止することだけが目的ではない。コンピューターがメッセージのトーンと意味を正しく判断することは、いろんなことで重要だ。

たとえば、今のコンピューターには正しい感情分析ができない。誰かが何かを好きとか嫌いとか言ったとき、それが冗談か本気かを、事前に人間が知っていなければならない。英語の日常会話で頻用される感嘆詞”great!”も、それが本気か、それとも幻滅を意味する皮肉かを、未来のコンピューターの自然言語処理は正しく見分けなければならない。

でもそれは、容易な問題ではない。まったく同じ文や句読点が、話者が違えばまったく違う意味を表すこともある。たとえば、“Make America great again”(アメリカを再び偉大にしよう)を、Trumpの支持者と彼に反対する者がツイートしたら、それぞれどんな意味になるか。同じ語が、まったく違う意味を持ってしまうのだ。

研究者の一人、リスボン大学のSilvio Amirがこう書いている: “話者の意図が皮肉であることを見分けるには、語彙の意味だけでは不十分である。言葉というものを持つ人間の場合ですら、発話のコンテキスト(文脈)を正しく認識することが不可欠だ”。

彼らの論文が記述しているコンテキストの把握方法は、ニューラルネットワークを使って話者の“埋め込み(embeddings)”*を見つける。それは、コンテキストの鍵となる別の発話内容で、たとえば前のツイートの内容、関連する関心事や別の発話などだ。これらのさまざまな要素を使って話者と他者の関係や立ち位置を判定し、また(できれば)彼らが形成している集団の性質〔例: ジョークを言い合える関係〕を見つける。〔*: embeddings, 埋め込み, 言語学の概念で、発話Aの中に別の発話Bが埋め込まれていること。〕

たとえば、下の小さな雲状グラフは、Twitterの上の、政治家たちとフォロワーの関係を表している。

chart_twittersarc

同じひとつの雲に属するある人のツイートの感情が、多数のフォロワーたちのそれと一致しないときには、それが皮肉である可能性が高い。

この方法にさらに、皮肉を暗示しているテキストの要素を組み合わせると、これまでの方法に比べてやや高い確度で皮肉を見分けられるようになった。‘やや’というのは、従来の方法で85%だった確度が、約87%まで上がった、という意味だ。しかしニューラルネットワークはいったん動き出せば人間による構成や監視の労力があまり要らないので、さまざまなソーシャルネットワークの上でデプロイできるよう拡張するのも、比較的容易だろう。

普遍的な皮肉検出システムは、まだまだ遠い先の話だが、でも不可能ではない。来月行われる、コンピューターによる自然言語学習のカンファレンスCoNLLで、Amirらのペーパーがプレゼンされる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

似顔絵から写真を再現、オランダの研究チームが逆発想のソフトウェアを開発

algo-photos

スマートフォンで撮影した写真を絵画調のアート作品へと加工するアプリ「Prisma」を愛用している人は多いだろう。しかしその逆のプロセス、つまりアート作品を写真へと変換させることも同様に面白い。そして、そんな逆発想のテクノロジーの実現はそう遠くないと、オランダの研究者たちは断言する。

オランダ、ラドバウド大学の4名の神経科学者は、ディープ・ニューラル・ネットワーク(深層神経回路網)を利用し、似顔絵を写真のようにリアルな顔の画像に転換するモデルに取り組んでいる。この研究(Convolutional Sketch Inversion)の結果は、最初にオンラインアーカイブ「arXiv」にて公表された。10月にアムステルダムで開催予定の「European Conference on Computer Vision」にも先日受理されている。

科学者達によると、このモデルは様々な形で応用が期待できるという。例えば、芸術分野で似顔絵を写真に近い形に変えたり、あるいは科学捜査で、目撃者の情報をもとに書いた犯人の似顔絵を、画像認識ソフトで検知可能なデータにするといったことなどだ。

「最近発表された、ニューラルスタイル変換(neural style transfer)という、写真をアート作品へと変換するアルゴリズムの研究に触発されました」と、29歳のYağmur Güçlütürkと30歳のUmut GüçlüはTechCrunchへのメールに書いた。認知神経科学の博士課程学生である二人は、Marcel van GervenとRob van Lierと共に今回の研究を行った。

VanGogh-shutterstock

GüçlütürkとGüçlüが参考にした論文には、ドイツの街テュービンゲンを、フィンセント・ヴァン・ゴッホの名作「星月夜」の絵画スタイルで再現するテクニックが記されていた。「これを読んだ時、逆の場合はどうなのかと考え始めました。つまり、このフィンセント・ヴァン・ゴッホの作品を写真にするとどうなるか、ということです」とGüçlütürkとGüçlüは書く。

GüçlütürkとGüçlüによると、人工神経回路網を利用した独自のソフトウェアは以下のように機能する:

「例えば、科学者である私が、人工神経回路網であるあなたに、スケッチ(インプット)を写真(アウトプット)に変換する方法を教えたいとしましょう。まず、スケッチと写真のペアを取り込んだ膨大なデータセットを構築します。そしてあなたにスケッチのみを渡し、写真に変換するよう依頼します。あなたは適当に1つ戦略を考え、写真を再現します。初めのうちは、作成した写真とデータセットの写真はかけ離れています。私は、あなたが描いた写真とデータセットの写真を比べ、間違いを指摘します。そのフィードバックをもとに、あなたは戦略を変え、改めて写真を作り直します。すると徐々に、写真のクオリティが高まっていくのです」。

Examples of the synthesized inverse sketches from the LFW dataset. First image in each column is the ground truth, the second image is the generated sketch and the third one is the synthesized inverse sketch. (Source: "Convolutional Sketch Inversion" Study)

LFWデータセットから合成した似顔絵の例。最初の列が本物、2番目が生成されたスケッチ、そして3番目の列がスケッチから合成した顔写真。(論文「Convolutuonal Sketch Inversion」より)

今回、スケッチと写真を一致させるモデルの習得プロセスにおいて、反復学習がとても重要な役割を果たした(これは神経回路網を訓練させるスタンダードな方法でもある)。

「この最後の2つのステップを何度も繰り返します」とGüçlütürkとGüçlüは書く。「最終的に、合成した写真はデータセットの写真と似てきます。上手くいけば、習得した新たなスキルを使って、すでに見たことのあるスケッチだけでなく、まだ見たことがないスケッチでも素早く高画質な写真へと変換することが可能になるのです」。

このアルゴリズムの訓練とテストを実施するため、研究者達はまずウェブ上で公開されているデータをもとに似顔絵をコンピューターで生成した。使用したのは、CelebAにある20万枚以上の芸能人の写真が保管されたデータセットと1万3000枚の顔写真が保管されているLFWデータセットだ。さらに、手描きのスケッチをCUFSデータセットから入手した。

2人の博士課程の学生がまず始めに試したのは、Güçlütürkが描いた彼ら自身の似顔絵を変換することだった。さらに、このアルゴリズムを使うことで、2人は有名なオランダ人アーティスト3人(レンブラント、ヴァン・ゴッホ、エッシャー)の自画像をもとに、写真のようにリアルな顔の画像を構築することを試みた。

Self-portrait sketches and synthesized inverse sketches along with a reference painting or photograph of famous Dutch artists: Rembrandt (top), Vincent van Gogh (middle) and M. C. Escher (bottom). (Source: "Convolutional Sketch Inversion" Study)

左の列から有名オランダ人アーティストの自画像、スケッチから合成した顔写真、参考写真又は絵。レムブラント(上)、フィンセント・ヴァン・ゴッホ(真ん中)、M. C. エッシャー(下)(論文「Convolutional Sketch Inversion」より)

彼らは現在、この成果を市場に投入する方法を探している。芸術や科学捜査などの領域での収益化を目指している。

「今回の研究からスピンオフして設立した会社Neurantは、そういったアプリケーションの開発をすでに行っています。近いうちに市場に参入したい考えです」とGüçlütürkとGüçlüは締めくくった。

[原文へ]

(翻訳:Tomoya Mori)