GoogleとKaggleが今日(米国時間2/15)、機械学習の技術でビデオのタグ付けを自動化する方法の懸賞を発表した。
優勝賞金は3万ドルで、2位から4位まではそれぞれ2万5千、2万、1万5千、1万ドルの賞金をもらえる。応募するデベロッパーは、Googleが最近アップデートしたビデオデータの集合、YouTube-8M V2のビデオを分類してタグ付けする。700万本のYouTubeビデオから成るこのデータ集合は、計45万時間ぶんのビデオに相当する。ラベルはすでに付いているから、デベロッパーはそれを訓練データとして利用できる。ただし、まだ誰も見ていないビデオが70万本あるから、それらのタグ付けが難関だ。
[ビデオのURL700万 総時間45万時間 オーディオ/ヴィジュアルフィーチャー32億 クラス4716 平均ラベル数3.4]
この懸賞を発表したまさに同じ日に、GoogleはTensorFlowの1.0をリリースしたが、おそらくそれは偶然ではない。懸賞で使用する機械学習フレームワークは、TensorFlowに限定されない。何を使ってもよい。しかしフルフレームで1.71TBにもなるこのデータ集合はGoogleのCloud Platform上にあるから、モデルの訓練にもGoogleのサービスを使うデベロッパーが多いだろう。しかも今回は、Cloud Platformを無料で使えるオプションもある。
先週Googleは、ビデオデータ集合YouTube-BoundingBoxesをローンチした。名前が示すとおり、このデータ集合(500万本のビデオ)には下図のように、各フレームにオブジェクトを指示するバウンディングボックス(囲み枠)がある。今回の懸賞でデベロッパーがそれらを使うことはないが、Googleがビデオの分類に関心を持っていることの表れでもある。日増しに成長を続けているYouTubeは、そこだけでの検索件数が、Google検索と競合するほかのどんな検索エンジンよりもたぶん多いのだ。