大量の一般公開データセットを検索できるGoogle Dataset Searchがベータから公式リリースへ

Google(グーグル)は米国時間1月23日、Dataset Searchのベータ終了を発表した。この一般に公開されている2500万近いデータの集合を検索できるサービスは、2018年の9月にローンチした

研究者たちが利用できるこれらのデータセットは、オランダに2010年から2018年まで猫が何匹いたかといった小さなものから、自分たちの仮説をチェックしたり機械学習のモデルを訓練およびテストするための、注釈入りのオーディオと画像の大型集合までいろいろだ。このツールは現在、約600万のテーブルを索引データ化している。

今回のリリースからDataset Searchにはモバイルバージョンが加わり、新機能も追加された。まず第一に、テーブル、画像、テキストなどデータのタイプを指定するフィルターだ。もちろんこれで求めるデータが見つけやすくなる。また、データセットに関する情報が増え、その出どころも明記された。

検索インデックスの中のデータの多くは、政府の省庁が出どころだ。現在インデックス中のデータとしては、米国政府のデータセットが約2百万件ある。ただしGoogleのKaggleも頻繁に姿を見せるし、そのほかの公共および民間の団体もデータを提供している。

Googleによれば、面白いデータセットを持ってる人は誰でも、それを提供して索引データ化してもらえる。そのプロセスには、データを詳しく説明できるschema.orgの標準マークアップが使われる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。