昨年の11月に、Googleはファンキーな機械学習実験のいくつかを発表した。中でも目立っていたのがQuick, Draw!だこれは、あなたが何かをスケッチすると、画像認識システムがそれが何かを推測するゲームだ。そして今Googleはこのゲームのプレイヤーたちが残した膨大な結果を、AI研究者たちが利用できるように、オープンデータとしてリリースした。
さて、この膨大な(5000万にも及ぶ)帽子、靴、そして猫のヘタクソな絵の集まりをただ眺めていくのは、とても退屈そうだ。だが安心して欲しい。それがこの記事の本題ではない。
ここでの本題はメタデータに関するものだ。これらの絵はさまざまな国から来たもので、例えばドイツと韓国ではネコの捉え方がどう異なっているのかを見るのは楽しい。あるいは椅子とか!
よく見てみよう。そこには注目に値するパターンが存在する。明らかに、韓国語とロシア語の人たちは、椅子を斜めにまたは横方向から描く傾向があった。何故か?それこそが、このデータを用いてこの先作られる機械学習システムが、発見することを期待されていることだ。
実際、興味深い違いがたくさん存在する。Googleの投稿が指摘しているように、スニーカータイプのシューズへの大きなバイアスがかかっていたため、システムはハイヒールやサンダルの認識に問題があるだろう。そして、ネコはどうだろう?確かに人びとが、ネコたちを描く際に選んだサブ(ネコ)カテゴリが存在している。実際私が1回これを試した時には、ネコの全身を描いた。私は珍しく丁寧な例外なのだろうか?ああ、もし私が、ヒントを見い出すための機械学習システムの作り方を知っていたなら。
Googleは、彼らの新しいファセットツールを使用して、セット内の膨大なデータを視覚化することを勧めている。そして、そこがこの全体の中でも、本当に興味深いところだ。このように膨大なデータセットを持っている場合、たとえ全体レベルからでも、粗いパターンや追求する価値のあるアイデアを見つけられるようにするために、どのようにそれらを並べ替えて、観察することができるだろうか?そして、体系的なバイアスや、改善のチャンスのようなものは、どのように見つけ出すことができるのだろうか?
今回の5千万枚の絵は単なる始まりに過ぎない。他の7億5000万枚以上の絵がこの先徐々にリリースされる予定だ。そしておそらく、他のプロジェクトの興味深いデータもリリースされることだろう。最新情報のために、Google Researchブログ(もちろんTechCrunchにも)注目していて欲しい。
[ 原文へ ]
(翻訳:Sako)