クラウドデータウェアハウスとデータサイエンスコミュニティを統合して仕事が楽に

Googleは2017年に、Google Cloud上のビッグデータ処理ツールのためにデータサイエンスのコミュニティを作りたくてKaggleを買収した。そして今日(米国時間6/24)同社は、Kaggleと、GoogleのクラウドデータウェアハウスBigQueryの直接的な統合を発表した

具体的には、データサイエンティストはKaggleのJupyter Notebook、通称Kaggle Kernelsでモデルを作れる。それからそのツールのAPIを使ってBigQueryにダイレクトにリンクでき、データウェアハウスのデータにSQLでずっと簡単にクエリを送れる。SQLは、データサイエンティストたちにとって、きわめてお馴染みの言語だから。

この方式の利点はGoogleによると、データに対しクエリを送ったり機械学習を実行したりするためにわざわざデータの移動やダウンロードをしなくてもよいことだ。この統合を紹介するブログ記事でGoogleは次のように書いている。「あなたのGoogle CloudアカウントがKernelsのノートブックやスクリプトにリンクしたら、BigQuery APIのクライアントライブラリを使ってノートブックの中で直接クエリを構成でき、BigQueryに対するクエリの実行やデータのさまざまな分析もできるようになる」。

データサイエンティストの仕事のやり方は独特だが、そのやり慣れたやり方で仕事ができるし、モデルを作って機械学習を実行することに伴う摩擦を軽減できる。いろんなツールをとっかえひっかえ使うのではなく、仕事全体をスムーズでよく統合化されたやり方でできるようになる。長期的には時間と精力の節約になるだろう。

しかも、Kaggleはデータサイエンティストたちのオープンなコミュニティだから、Kernelsを共有することもできる。逆に、公開されているリポジトリを検索するときKernelsを開始点として使ったり、さまざまなタイプのデータセットで実験するときの参照モデルとすることもできる。

Kaggleでは、ほかのデータサイエンティストたちといろんな問題をオープンに議論できる。コミュニティには300万のユーザーがいて、その公開リポジトリにはおよそ20万のKernelsがあなたの探求を待っている。

関連記事: Google、データサイエンス、機械学習のKaggle買収を確認

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。