Yahooは今朝、Yahoo Labs Webscopeからこれまでで最大となる機械学習のためのデータセットを学術研究コミュニティーに解放すると発表した。この新たなデータセットの容量は驚きの13.5テラバイト(圧縮していない)で、匿名化したユーザーのインタラクションデータで構成されている。具体的には2015年2月から2015年5月までにYahooのホームページ、Yahooニュース、Yahooスポーツ、YahooファイナンスとYahoo不動産を訪れた2000万人のインタラクションデータだ。
これらのユーザーのインタラクションデータに加え、データセットには、年齢層、性別、一般化された位置情報といったデモグラフィック情報があり、データセットのアイテムには記事タイトル、要約、該当記事のキーフレーズ、ローカルのタイムスタンプとデバイス情報も部分的に含んでいる。
Yahoo LabsでPersonalization Scienceのディレクターを務めるSuju Rajanは、「データは機械学習研究における生命線です。しかし、これまで本当に大規模なデータセットを活用することができたのは、大企業で働く機械学習の研究者やデータサイエンティストだけです。多くの学術的な研究者はアクセスすることができませんでした」。
読者が想像するように、「現実世界」のデータで試すことができない状態はイノベーションを阻んでしまう。それでは、進歩が遅くなってしまうだろう。
カーネギーメロン大学、カリフォルニア大学サンディエゴ校、そしてUMass Amherst Centerのデータサイエンス部門の研究者は、彼らの研究で新しくリリースされたデータセットを使用していくと発表した。例えば、カーネギーメロン大学の研究者は、どのユーザーがどのようなニュース記事に興味を持つか自動で判断するための研究ができると機械学習学部の学部長を務めるTom Mitchellは記している。
またYahoo Labsの従業員もこのような規模のあるデータセットを活用し、コンシューマー向けのプロダクトで見られた大規模な機械学習の問題に取り組んでいるとRajanは言う。特に、検索ランキング、コンピューター処理による広告表示、情報検索と中核となる機械学習の分野だという。
Yahooの目的は「商業と学術研究を同じ土俵に持って行くこと」とし、そのために新たなデータセットを広いコミュニティーに解放することにしたと伝えている。
Yahooが機械学習コミュニティーに大きな貢献をするのは望ましいことだが、完全に利他的な目的からというわけでもないだろう。Yahooの最大の目的は、機械学習研究の進歩にある。つまり、AI研究から出てきた新しい技術、そしてデータから学んで、次を予測することができるアルゴリズムの開発に注目している。研究者のイノベーションを加速させることができるなら、Yahooも自社プロダクトにそこで得られた学びを適用し、研究成果から恩恵を得ることができるだろう。
もちろんこのような大規模な貢献をしている大手テクノロジー企業はYahooだけではない。11月にGoogleは、 TensorFlowという機械学習テクノロジーをオープンソース化した。これは、Google Photoの検索、Gmailの「スマート返信」、Googleアプリの音声認識などに使われているものだ。また、IBM Watson、Amazon Machine Learning、Azure Machine Learningを始め、この分野には他にも有力企業がいる。
YahooのWebscopeプログラムは新しいものではなく、これまでも非営利目的に限って匿名化したユーザーデータを提供していた。しかし、13.5テラバイトもの機械学習データの解放はこれまでで最大のものだ。彼らのサイトで利用可能な他のデータセットの単位はGBで、TBではない。例えば、HTMLフォームのサンプルで構成された50GB以上のデータセットなどがある。
「このような規模のデータセットへのアクセスは、機械学習アルゴリズムと真にビッグデータのためにスケールするテクノロジーの設計と開発になくてはならないものです」とカリフォルニア大学サンディエゴ校、電気とコンピューター・エンジニアリング学部の教授であるGert Lanckrietは声明で伝えた。「それらのデータは、UCサンディエゴ校のJacobs School of Engineeringで現在行われている機械学習、人口知能、情報検索、ビッグデータのアプリケーションにおける幅広い研究において大きな利益をもたらすことになるでしょう」。
[原文へ]