この利口なAIは課せられたタスクをやり遂げるずるい方法を人の目から隠した

スタンフォード大学とGoogleのこの共同体研究は、見る人によって怖かったり、素晴らしかったりするだろう。航空写真から街路地図を作ったり、その逆もやる機械学習のエージェントが、“人間にはほとんど感知できない高周波の信号”を画像中に隠しておくことによって、ある種の騙し技(だましわざ)ができるようになるのだ。すごく賢い子に!

この現象は、コンピューターに最初からつきまとっている問題をあらためて思い出させる。コンピューターは、やれと言われたことを、そのとおりにやってしまうのだ。

研究者たちの意図は、読者にもすでにお分かりだろう。衛星画像をGoogleの正確なことで有名な地図に換える処理を、彼らはもっと速くしたいのだ。そのためにチームが作ったニューラルネットワークCycleGANは、大量の実験を経て、タイプXの画像(例: 航空写真)をタイプYの画像(例: 街路地図)に、正確かつ効率的に変換する。

初期の結果は、良好だったが、どこかがおかしかった。気になったのは、街路地図から元の航空写真を再構築するとき、前者(街路地図)にはない細部が大量に再現されてしまうことだ。たとえば、屋根からの太陽光の反射は街路地図を作るとき排除されるが、再構築された航空写真には魔法のように再現されている。

左が最初の航空写真、中央がそれから生成された街路地図、右は街路地図だけから生成された航空写真。どちらの航空写真にもあるドットが、街路地図にはない。

ニューラルネットワークが行なう処理の内部を覗き見することはきわめて困難だが、それが生成するデータを調べることは容易にできる。そしてささやかな実験から分かったのは、CycleGANが実は、人を騙していることだった。

エージェントに期待されているのは、各タイプのマップの特徴を正しく解釈して、それらを他方のマップの正しい特徴へマッチさせることだ。しかしエージェントの実際の評価では、再構築された航空写真がオリジナルに近いことと、街路地図の明確さが重視される。その重視のもとに、ニューラルネットワークの訓練も行われる。

そこでエージェントが学習したのは、XからY、YからXを作ることではなく、元の画像の特徴を変換後の画像のノイズパターンへと秘かにエンコードすることだった。航空地図の細部が、街路地図の視覚的データの中へこっそりと書き込まれた。それらは、人間の目には気づかない何千もの小さな色の変化として書き込まれたが、コンピューターはそれらを容易に見分けることができる。

そういう細部情報を街路地図の中へ忍ばせることはコンピューターの得意技のひとつだから、それは、“航空地図を街路マップの中へエンコードする”ことを学習した!。もはや、“リアルな”街路地図を作ることなど、彼の念頭にはない。航空地図の再構築に必要なすべてのデータを、完全に別の街路地図の上にも無害に書き込めることを、研究者たちは確認した:〔下図の下が“完全に別の街路地図”〕

右の航空写真が、変更や加工なしで左の地図の中へエンコードされた。

上の’c’のカラフルなマップは、コンピューターが意図的に導入したわずかな違いを視覚化している。どちらも航空地図の形を維持していることが分かるが、それは誇張や強調など、特殊な視覚化処理をしたから人間の目にも見えるだけである。

データを画像中にエンコードする技術は、ステガノグラフィ(steganography)と呼ばれ、画像の透かしや写真のメタデータ(撮影データ)として前から利用されている。しかし、コンピューターが自分に課せられた学習から逃れるために自分でステガノグラフィ作るのは、これが初めてではないか。この研究が発表されたのは昨年(2017)だから、‘最新’とは言えないかもしれないが、相当新しいことは確かだ。

これを、“機械が自力で賢くなった”として、もてはやす人もいるかもしれないが、実態はむしろその逆だ。機械は、高度な画像の各種タイプを互いに変換する難しい仕事ができるほど賢くはないから、人間にばれないような騙し技を見つけたのだ。エージェントの結果を、もっと厳しく評価していたら、それは避けられたかもしれない。研究者たちは、その方向へ進んだ。

例によって、コンピューターは求められたことを正確に行なう。だから、コンピューターへの指示は、きわめて詳細でなければならない。今回の場合、コンピューターが見つけたソリューションは、このタイプのニューラルネットワークの弱点に光を当てたという意味で、興味深い。コンピューターは、明示的に禁止されていないかぎり、詳細情報を自分に伝える方法を見つけて、与えられた問題を迅速簡単に解こうとするのだ。

実はこれは、コンピューティングの古い格言、PEBKACが教えていることでもある。“Problem Exists Between Keyboard And Computer”…問題はキーボードとコンピューターの中間にある*。人間に反逆するコンピューターHALも、“問題はすべて人間のエラーが原因だ”と言っている。〔*: 正しくは、Problem Exists Between Keyboard and Chair, キーボードと椅子の間、すなわち人間。〕

彼らのペーパー“CycleGAN, a Master of Steganography,”(ステガノグラフィの達人CycleGAN)は、2017年のNeural Information Processing Systemsカンファレンスで発表された。Fiora EsotericaとRedditのおかげで、このちょっと古いけどおもしろいペーパーを知ることができた。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

この顔認識システムは、映画の観客が喜んでいるかどうかを追跡する

映画制作がアートと同じくらいサイエンスになってきた今、映画会社は観客の反応を測定するためにかつてない方法を必要としている。喜んでくれたのだろうか? どのくらい…正確には?42分の時点で? カリフォルニア工科大学とDisney Researchは、表情認識ニューラルネットワークを使って、観客の反応を知り、予測しようとしている。次世代のニールセンレーティングの基盤になるかもしれない。

この研究プロジェクトは、ハワイで行われたIEEEコンピュータービジョンおよびパターン認識会議で発表され、劇場での表情を確実かつ比較的簡単にリアルタイムで追跡する新しい方法を演示した。

認識には、factorized variational autoencoderと呼ばれるものを使う。数学的背景は説明しようとも思わないが、動きのある表情のように複雑なものの本質を抽出することに関して、従来の方法よりも優れている。

研究チームは映画(もちろんDisney作品)を見ている観衆を録画することで、大量の表情データを収集した。高解像度赤外線カメラで観客の動きと顔を撮影し、得られたデータ(約1600万個のデータポイント)をニューラルネットワークに送り込む。

システムの訓練が終わったら、映画を見ている観客をリアルタイムで追跡して、様々な時点で見せる表情を予測する。研究チームによると、システムが観衆に慣れるのに10分ほどかかり、その後は笑いや微笑みを確実に予測できるようになるという(泣き顔や恐怖はまだ追えていないようだ)。

もちろんこれは、この種のテクノロジーの応用例の1つにすぎない ―― 群衆の監視や、その他の複雑なデータをリアルタイムで解釈する場面にも適用できるだろう。

「人間の行動を理解することは、行動的社会的に優れた知識を持つAIシステムを開発する上で基礎をなす」と同大学のYisong Yueはニュースリリースで言った。「例えば、高齢者を見守り世話をするAIシステムを開発するには、ボディーランゲージのわずかな動きを捕らえる能力が必要だ。人間は不満足であったり問題を抱えていることを明示的に言うとは限らないのだから」。

[原文へ]

(翻訳:Nob Takahashi / facebook

ニューラルネットワークに塗料の色の名前をつけさせたら、不可解だけど笑える結果ばかり!

今や、どんなものでも機械学習にやらせようとしている。しかも機械学習は、なんでもあっさりとやってのける。でも、そうでなかった仕事もある。それは、ニューラルネットワークを使って、塗料の色に気取った名前…“春の雨”、“港の霧”など…をつける、という試みだ。だって、そのニューラルネットワークが命名した“dorkwood”色や“stanky bean”色の塗料を使って、自分の家を塗装したい人なんか、いるわけないもんね?。〔訳注: どちらもワイセツな含意があるので日本語訳を控えます。〕

塗料の色の命名に機械学習を利用しようとして、今回失敗した研究者Janelle Shaneは、フルート奏者としてニューラルネットワークと“共演”することも、ときどきあるそうだ。

そのニューラルネットワークは、さまざまなRGBの値に対応する7700種の色の名前を教育訓練され、色と言葉とのあいだにある秘密の関係を会得した(はずだった)。

最初のうちは、まあまあだった。システムはどうやら幼稚な論理を編み出したようだが、色の名前として、実在する言葉を選んでいない:

上の3つめの例で”a”が抜けているのは、紫っぽい色調を表しているのだろうか? 三回登場する”Caae”は、共通する中間調の明度に対応しているのか? それはわれわれには分からないけど、ニューラルネットワークの中で立派な芸術的文法が生まれようとしているのかもしれない。

何度もデータを与えると、ニューラルネットワークはだんだんクリエイティブになり、独創的な色名を作り出すようになった。ホームセンターで売ってる塗料の、“greige”(生成り色)とか“royal purple”(王室紫)みたいな、平凡陳腐なやつは一つもない:

Dondarf? Burble Simp? Bank butt? Catbabel? … 独創的すぎる!

Bunflow? Rose Hork? Dope? …Turdly? … なんと思い切った名前!

StargoonやCaring Tan、Snowbonkなんかは、ぼくも本当に気に入ったけど、でも彼女のクリエティビティに、早産は禁物だったようだ。もっと気長に、教育訓練すべきだね。それまでは、Shaneの貴重な仕事をTumblrに再投稿してその回数を増やし、彼女への感謝のシルシにしよう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのAI翻訳ツールは独自の内部的言語を発明したようだ、そうとしか言えない不思議な現象が

terminat-visio2-620x340

まあ、パニックになる必要もないけど、今やコンピューターが自分たちの秘密の言語を作って、たぶんまさに今、われわれについて話しているんだ。ちょっと話を単純化しすぎたし、最後の部分はまったくのフィクションだけど、GoogleのAI研究者たちが最近、おもしろそうで、しかも人間にとって脅威になるかもしれない、事態の進展に、遭遇しているんだ。

憶えておられると思うが、Googleは9月に、同社のNeural Machine Translation(ニューラルネットワークによる機械翻訳)システムが稼働を開始したと発表した。それは、ディープラーニングを利用して複数の言語間の翻訳を改良し、より自然な翻訳にする、というものだ。そのこと自体はクールだが…。

これの成功のあと、その翻訳システムの作者たちは、あることが気になった。翻訳システムに、英語と韓国語双方向と、英語と日本語双方向の翻訳を教育したら、それは韓国語を日本語へ、あいだに英語を介さずに翻訳できるのではないか? 下のGIF画像を見ていただきたい。彼らはこのような翻訳方式を、“zero-shot translation”(ゼロショット翻訳、分枝のない翻訳)と呼んだ(オレンジ色のライン):

image01

そして — その結果は!、明示的なリンクのない二つの言語でありながら、まあまあの(“reasonable”)翻訳を作り出したのだ。つまり、英語はまったく使っていない。

しかしこれは、第二の疑問を喚起した。形の上では互いにリンクのない複数の概念や語のあいだの結びつきをコンピューターが作れるのなら、それは、それら複数の語で共有される意味、という概念をコンピューターが作ったからではないのか? 一つの語や句が他のそれらと同じ、という単純なレベルではなく、もっと深いレベルで。

言い換えると、コンピューターは、言語間の翻訳に自分が用いる概念(共有される意味概念)を表現する独自の内部的言語を開発したのではないのか? ニューラルネットワークの記憶空間の中では、さまざまなセンテンスがお互いに関連し合っているのだから、その関連の様相から見て、言語とAIを専門とするGoogleの研究者たちは、そうだ、と結論した。

A visualization of the translation system's memory when translating a single sentence in multiple directions.

翻訳システムの記憶の視覚化: 一つのセンテンスを複数方向へ翻訳している

この中間言語(“interlingua”)は、日・韓・英の三言語の文や語の類似性を表している表現の、ずっと深いレベルに存在しているようだ。複雑なニューラルネットワークの内部的処理を説明することはおそろしく難しいから、今これ以上のことを言うのは困難だ。

非常に高度なことをやってるのかもしれないし、あるいは、すごく単純なことかもしれない。でも、それがとにもかくにもある、という事実…システムが独自に作ったものを補助具として使って、まだ理解を訓練されていない概念を理解しようとしている…もしもそうなら、哲学的に言ってもそれは、すごく強力な‘才能’だ。

その研究論文は、Arxivで読める(効率的な複数言語翻訳に関する論文だが、謎のような中間言語にも触れている)。システムが本当にディープな概念を作ってそれを利用しているのか?、この疑問への答は今後の調査研究の課題だ。それまでは、最悪を想定していよう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

Yahooがポルノを検出するニューラルネットワークをオープンソース化、ただし訓練はあなたの仕事

nsfw_score

インターネットの上のものに、どうやってNSFWを指定するのか? Yahooに聞こう。Yahooはそれをやっている。わいせつなコンテンツで訓練した、同社特製の、ポルノ検出ニューラルネットワークだ。そして今回、そのシステムがオープンソースになったから、誰もが使える。そう、そのとおり、フォークするのも自由だ。

それはもちろん冗談。Yahooのアルゴリズムは万能ではない。画像を見てNSFWだ、と判断するのは、もっとも手強い難問の一つだ。昔から、見れば分かるさと誰もが言うが、そう言える人は、全生涯をポルノを見て過ごした人だけだ。コンピューターには、そんな経験はない。

純潔無知なマシンもしかし、Yahooに捕まって何千もの画像で訓練され、画像認識エンジンにされてしまうと、腐敗のきわみに達する。もう、彼の純情は永遠に盗まれてしまった。しかしそれと引き換えに、あなたがネットで検索したとき、結果にいやらしいものが紛れ込む確率は低くなる。

でも、まじめな話、畳み込みニューラルネットワーク(convolutional neural networks, CNN)は画像を分類するための優れたツールだ。そのことは、これまでの数多い研究によって証明されている。特定のタイプの画像のデータベースで訓練すると、アルゴリズムは一定のパターンに対して敏感になる。犬を見分けるCNNなら、尻尾や鼻や、とがった口をたくさん見せられるだろう。車なら、車輪やドアの取っ手やラジエーターグリルを認識する。そしてポルノなら何を、…それはご想像におまかせしよう。

Yahooのシステムはいろんな画像を見て、それらに0から1までの点をつける。ポルノだと判断した画像の点は、1に近い。検閲目的だけでなく、いろんな状況で使えそうだ。刺激的な画像が歓迎される場面もあるが、Web上の大量のデータを相手にするときは、それらを篩い落とせた方が便利だ。

メールやメッセージを、プライバシー侵害にならずに、チェックすることもできる。同僚がいたずらで送ってきたNSFW画像を、職場でうっかり開く醜態は、たぶんなくなる。

オープンソースのコードをビルドしてエンジンができても、まだそれは全然訓練されていない。たくさんポルノを見せて訓練するのは、あなたの役目だ。でも今のインターネットの上なら、それは問題ないだろう。詳しい説明はYahooのブログ記事にある。そしてコードのダウンロードはGitHubからだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

子どもの言語障害の早期発見を機械学習が支援、家庭でスマホで検診ができる

shutterstock_435914203

言語障害の検診は早めに、しかも複数回やれ、と言われる。でも、すべての子どもをタイミングよく検査できる設備と要員が完備している地域は、そう多くない。しかし、ここでご紹介するMITの研究結果が正しければ、少なくとも基本的な検査は、自動化され、家庭でもできるようになるだろう。

サンフランシスコで行われたInterspeech カンファレンスで、同校のコンピューター科学者たちが、その新しいテクニックを説明した。まだ開発の初期的な段階だが、かなり期待を持てそうだ。

神経の障害のために、会話(発話と相手の言葉の理解)がうまくできない子どもたちは、ある種のテストで一定のパターンを示す。それは、複数の画像を見せ、それらについてお話をさせるテストだ。休止や、特定の時制や代名詞でのつまづき、そういった小さなことが、深刻な問題の指標であることもある。

院生のJen GongとJohn Guttag教授が作ったそのシステムは、まず、子どもたちのそんなお話の録音を多数、機械学習システムに聞かせる。そのデータ集合を細かく分析することによって、システムはいくつかのパターンを学習する。それらは、健常者のパターン、発達障害に顕著なパターン、初期の言語障害を示すパターン、などだ。それらは、これまでの研究で確証されているパターンなので、問題はない。

専門教育を受け、訓練を積んだ専門家に代わるものではないが、でも専門家をアプリに詰め込むことはできない。システムは、現状で精度も実用レベルに達しており、どんなスマートフォンからでもできる検診なので、障害の早期発見早期治療に貢献するだろう。

でも、まだまだやるべきことはある。

“大量の良質なデータにより、今後ともシステムを訓練していく必要がある”、とGongは述べている。“子どもたちの発達過程はきわめて多様だから、健常と障害の両方について、いろんな子どもたちのデータを集めることが、システムのより良質な判断力を育てる”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

一挙に5000万ダウンロードに達した大人気のアートフィルターアプリPrismaにオフラインモードが登場

img_2603

アートフィルターアプリで一大センセーションを巻き起こしたPrismaは、この夏の2か月でそのiOSAndroidアプリのダウンロードが、無から驚異の5500万あまりへと急拡大した。そしてこのたびPrismaに、オフラインモードが誕生し、サーバーに接続しなくてもほんの数秒で、あなたのスナップ写真をムンクの絵みたいに変えてしまえることになった。

本誌TechCrunchがPrismaのローンチを記事にした6月に、CEOで協同ファウンダーのAlexey Moiseenkovは、ニューラルネットワークを使ってスマートフォンの写真を美術的フィルタを通した画像に変えている、と説明した。その多種類のフィルタを備えたニューラルネットワークは、サーバーの上で動いている。

しかし今回は、一定数のフィルターを選ぶことによって、そのたいへんな処理をユーザーのスマートフォンでできることになった。数百万のユーザーへとスケールするための方法としては、これもありだろう。

Moiseenkovによると、今デバイス上にあるのは16のフィルタだ。もちろんそれは、ユーザーのiPhoneの上でニューラルネットワークが動かしているのだ。

あなたの予想通り、数百万のユーザーで混みあうクラウド上よりも、オフラインの方が速い可能性がある。もちろんスピードは、スマートフォンのハードウェアの性能にもよる(私のはiPhone 6sだ)。

Moiseenkovによれば、まあまあなのはiPhone 5s以上、それより遅い機種ならサーバーにアクセスした方が速い。ここらが、このオフラインモードの限界だ。

彼が美術的な処理のアルゴリズムをモバイル上で提供したいと考えたとき、そのアルゴリズムはネット上では非常に遅かった。そして処理を最適化した結果、インターネットに接続したスマートフォンの上で、Instagram世代の連中に、インスタントに満足感を与えられるまでになった。

スマートフォン向けの最適化は今でも続けられていて、近いうちに、iPhone 5s以上の機種ならすべての処理をデバイス上でできるようになる、と彼は語る。

オフライン機能がAndroid機に来るのは、たぶん2週間後、だそうだ。

そのほかにPrismaのチームは、ビデオのフィルタリングに取り組んでいる。Moiseenkovによると、それは今月内の立ち上げもありえ、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

その言葉は本気かそれとも皮肉か?、ニューラルネットワークがそれを見つける

shutterstock_94007068

テキストによるコミュニケーションには、皮肉やジョークを本気と読み誤る危険性がある。誰にも、その被害者や加害者になった経験があるだろう。そのことに相当懲りたポルトガルの研究者たちは、ニューラルネットワークを利用して、話者の意図が皮肉や嫌味であることを、判断しようとしている。

それは、日常の会話における誤解を防止することだけが目的ではない。コンピューターがメッセージのトーンと意味を正しく判断することは、いろんなことで重要だ。

たとえば、今のコンピューターには正しい感情分析ができない。誰かが何かを好きとか嫌いとか言ったとき、それが冗談か本気かを、事前に人間が知っていなければならない。英語の日常会話で頻用される感嘆詞”great!”も、それが本気か、それとも幻滅を意味する皮肉かを、未来のコンピューターの自然言語処理は正しく見分けなければならない。

でもそれは、容易な問題ではない。まったく同じ文や句読点が、話者が違えばまったく違う意味を表すこともある。たとえば、“Make America great again”(アメリカを再び偉大にしよう)を、Trumpの支持者と彼に反対する者がツイートしたら、それぞれどんな意味になるか。同じ語が、まったく違う意味を持ってしまうのだ。

研究者の一人、リスボン大学のSilvio Amirがこう書いている: “話者の意図が皮肉であることを見分けるには、語彙の意味だけでは不十分である。言葉というものを持つ人間の場合ですら、発話のコンテキスト(文脈)を正しく認識することが不可欠だ”。

彼らの論文が記述しているコンテキストの把握方法は、ニューラルネットワークを使って話者の“埋め込み(embeddings)”*を見つける。それは、コンテキストの鍵となる別の発話内容で、たとえば前のツイートの内容、関連する関心事や別の発話などだ。これらのさまざまな要素を使って話者と他者の関係や立ち位置を判定し、また(できれば)彼らが形成している集団の性質〔例: ジョークを言い合える関係〕を見つける。〔*: embeddings, 埋め込み, 言語学の概念で、発話Aの中に別の発話Bが埋め込まれていること。〕

たとえば、下の小さな雲状グラフは、Twitterの上の、政治家たちとフォロワーの関係を表している。

chart_twittersarc

同じひとつの雲に属するある人のツイートの感情が、多数のフォロワーたちのそれと一致しないときには、それが皮肉である可能性が高い。

この方法にさらに、皮肉を暗示しているテキストの要素を組み合わせると、これまでの方法に比べてやや高い確度で皮肉を見分けられるようになった。‘やや’というのは、従来の方法で85%だった確度が、約87%まで上がった、という意味だ。しかしニューラルネットワークはいったん動き出せば人間による構成や監視の労力があまり要らないので、さまざまなソーシャルネットワークの上でデプロイできるよう拡張するのも、比較的容易だろう。

普遍的な皮肉検出システムは、まだまだ遠い先の話だが、でも不可能ではない。来月行われる、コンピューターによる自然言語学習のカンファレンスCoNLLで、Amirらのペーパーがプレゼンされる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

地図上の地形的特徴でクェリすると各都市のマッチ結果(野球場、テニス場、etc.)を返してくれる画像検索エンジンTerrapattern

terrapattern

Terrapatternは画像検索エンジンだが、誰もがそれを初めて使ったとき、“何でGoogleがこれを10年前からやってないの?”、と不思議に思うだろう。地図上の特徴(施設など)…野球場、マリーナ、ロータリー、などなど…をクリックすると、アルゴリズムが複数の都市の「それはここだ!」と信じたものの写真を見せてくれる。速いし、使い方は簡単、そして可能性としてはとっても役に立つ。

実際に試してみると、その検索がとても自然であることが分かるだろう。どんな原理なのか? ひとにぎりのデジタルアーチストとデベロッパーが、35000ドル足らずでどうやって作ったのか?

最近のおもしろいヴィジュアルコンピューティングプロジェクトの多くがそうであるように、このプロジェクトも畳み込みニューラルネットワーク(convolutional neural network)を使っている。基本的にはそれはAIのようなプログラムで、画像からあらゆるデテール(細部情報)を取り出し、さまざまな構造体の中に、そのパターンを探す。それは、人間の目が相似のパターンを探すやり方と同じだが、その精妙さと柔軟性は、人間の脳が上だ。

Terrapatternの場合は、小さな矩形の地形図を見て、それをOpenStreetMapが提供している地図上の特徴のタグ付き画像の、巨大なデータベースと比較するよう、ニューラルネットワークを訓練する。それは、地形図上の情報を何らかのコンセプトに結びつけることを学習する。

たとえばカメラが人間の顔を認識して、その顔が瞬(まばた)きしてるか微笑んでいるかを判断するとき、何をどうやっているのか。それは顔や微笑みや目などを“知っている”のではなくて、それらを画素の何らかのパターンに結びつけ、相似性の高いものを拾い上げているだけだ。

terrapattern patterns

Terrapatternを訓練して、船や貯水塔など、ありとあらゆる地理的特徴を認識しカテゴライズできるようになると、それに、ニューヨークやピッツバーグ、デトロイト、サンフランシスコなどの大きな詳細地図を見せる。するとTerrapatternはそれらの地形図を舐めるように見て、特徴と類似性の巨大なデータベースを作る。そしてそれに対して、小さな矩形の地形図でクェリすると、相似物が直ちに返される。ユーザーが地形図(施設など)をクリックしたときニューラルネットワークは“考える”のではなくて、データベースのデータ集合を照合するだけだ。

そうやってユーザーはたとえば、“オークラウンドのテニス場”を見つけたり、いろんな視覚的検索が完全にできるが、Terrapatternが探すのはあくまでもパターンの相似だから、原っぱの真ん中の家、とか、行き止まりの袋小路、とか、枯れた芝生、円形の駐車場などなども、そんなパターンが見つかれば検索結果として返す。Terrapatternにとってそれは、空港やフェリーのターミナルを探すことと、なんら変わらない。それらはすべて、ニューラルネットワークにとっては、特徴の集まり〜組み合わせにすぎない。

TerrapatternはGolan Levin, David Newbury, Kyle McDonaldの三名がKnight FoundationのPrototype Fundから得たお金で作った。彼らの資金と時間では、4つの都市の特徴マップデータベースを作るのが精一杯だったが、今後はほかの都市もやっていくつもりだ。そしてうまくいけば、もっと高いレベルと低いレベルの特徴を検出したい。野球場を見つけるのはふつうのレベルだが、小さな交差点(低レベル)や刑務所(高レベル)を見つけるのは難しい。

この作品はCreative Commons 4.0のライセンスにより、無料で利用できる。彼らのコードは、GitHubにある

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))