クラウドデータウェアハウスとデータサイエンスコミュニティを統合して仕事が楽に

Googleは2017年に、Google Cloud上のビッグデータ処理ツールのためにデータサイエンスのコミュニティを作りたくてKaggleを買収した。そして今日(米国時間6/24)同社は、Kaggleと、GoogleのクラウドデータウェアハウスBigQueryの直接的な統合を発表した

具体的には、データサイエンティストはKaggleのJupyter Notebook、通称Kaggle Kernelsでモデルを作れる。それからそのツールのAPIを使ってBigQueryにダイレクトにリンクでき、データウェアハウスのデータにSQLでずっと簡単にクエリを送れる。SQLは、データサイエンティストたちにとって、きわめてお馴染みの言語だから。

この方式の利点はGoogleによると、データに対しクエリを送ったり機械学習を実行したりするためにわざわざデータの移動やダウンロードをしなくてもよいことだ。この統合を紹介するブログ記事でGoogleは次のように書いている。「あなたのGoogle CloudアカウントがKernelsのノートブックやスクリプトにリンクしたら、BigQuery APIのクライアントライブラリを使ってノートブックの中で直接クエリを構成でき、BigQueryに対するクエリの実行やデータのさまざまな分析もできるようになる」。

データサイエンティストの仕事のやり方は独特だが、そのやり慣れたやり方で仕事ができるし、モデルを作って機械学習を実行することに伴う摩擦を軽減できる。いろんなツールをとっかえひっかえ使うのではなく、仕事全体をスムーズでよく統合化されたやり方でできるようになる。長期的には時間と精力の節約になるだろう。

しかも、Kaggleはデータサイエンティストたちのオープンなコミュニティだから、Kernelsを共有することもできる。逆に、公開されているリポジトリを検索するときKernelsを開始点として使ったり、さまざまなタイプのデータセットで実験するときの参照モデルとすることもできる。

Kaggleでは、ほかのデータサイエンティストたちといろんな問題をオープンに議論できる。コミュニティには300万のユーザーがいて、その公開リポジトリにはおよそ20万のKernelsがあなたの探求を待っている。

関連記事: Google、データサイエンス、機械学習のKaggle買収を確認

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Googleが三月の狂気(march madness)でリアルタイムの試合展開予想をCMで提供

Googleは、同社のデータサイエンスの技術をリアルタイムで試してみたいようだ。今週末(米国時間3/30〜)同社は、サンアントニオで行われるファイナルフォー(Final Four, 全米男子大学バスケ選手権)で、データ分析と機械学習の技術を駆使して、試合中にさまざまな予測を行う。そしてハーフタイムに放映されるテレビコマーシャルでは、そのゲームの後半戦について予言する。

その詳しい計画は同社の今朝(米国時間3/30)のブログ記事に載っていて、そこでは、Googleのクラウド技術を使ったスポーツデータの統計分析などで同社とNCAA(全米大学体育協会)はすでに関係があり、今回の企画もそのご縁から生まれた、と言っている。そしてGoogleはこの機会を、NCAAのデータのより高度な活用の機会と捉えている。

チームはデータサイエンティストと技術者とバスケットボールのファンたちで構成され、GoogleはGoogle Cloud PlatformとBigQuery、Cloud Datalabなどの技術を利用するデータ処理のワークフローを構築した。データは非常に細かくて、各人の毎分のショットブロック数、動物をマスコットにしているチームの逆転負け率、などもある。Googleはそれらのデータを総動員して、今行われているゲームの経過や結果を予想する。そのためには、ゲームの前半から得られたデータをリアルタイムで分析し、それに基づく予想を数分後にコマーシャルで発表する。

Google Cloudのチームが試合中の会場にいて、前半のデータをワークフローに放り込み、NCAAの過去のデータも利用して分析する。ハーフタイムになったら、データをさらに分析して予想を作りだす。その技術的な詳しい説明は、Google Cloud Big Data and Machine Learningのブログで共有されている。

ハーフタイムが終わる前にGoogleは、出来立てほやほやのテレビコマーシャルをCBSとTurnerに渡し、後半が始まる直前にそれが放映される。

“スポーツイベントの実況中に自社のリアルタイム予測分析技術を利用してコマーシャルを作る企業は、うちが世界で初めてだろう”、とGoogleは言っている。

この実験はGoogle Cloudなどの技術を宣伝する方法としても巧妙だが、ファイナルフォーの予想をするテクノロジー企業はGoogleだけではない。

すべてのバーチャルアシスタント(スマートアシスタント、音声アシスタント)が、独自の予想をしている。GoogleのGoogle Assistantだけでなく、AmazonのAlexaも、MicrosoftのCortanaも、AppleのSiriも。でもそれらの一部は、本物のデータサイエンスを利用した予測というより、人が書いた意見のようだ。

このGoogleとNCAAのデータサイエンス/機械学習の実験には、そのためのWebサイトもある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

需給ギャップが大きいデータサイエンス技術者をオンラインコースで育てるDataCampがシード資金$1Mを調達

shutterstock_144037288

データサイエンスとその技能の持ち主をもっと多くしたい、と願う教育サービスDataCampが、Accompliceがリードするシードラウンドで100万ドルを獲得した。すでに30万ドルを獲得している同社にとってこれは、二分割二度目のシード資金になる。

DataCampはGeneral AssemblyCodeacademyのように一般的なプログラミングを教えるのではなく、もっぱらデータサイエンスのスキルを教える。

ファウンダのJonathan Cornelissen曰く、今データサイエンススキルに関しては需給ギャップがとても大きい。“うちはこの、データを扱える者が今はものすごく少ない、という問題を解決したい”。

AccompliceのChris Lynchも、こう語る: “うちがDataCampに投資したのも、データサイエンスが1000億ドルの市場で、年率30%で成長しているからだ。今、データサイエンティストは10万人ぐらいしかいない”。データサイエンスの人材は今圧倒的に売り手市場だから、DataCampのような企業は投資家にとっても魅力が大きい。

データサイエンスのためのプログラミング言語といえばRだが、DataCampは6部13モジュールから成るRのコースを立ち上げた。生徒たちはデータ分析の基本を学びながら、Rによるデータの操作、モデリング、視覚化などの技法を身につけていく。

ただしこれは、あくまでも入門編だ。

来年は実践編として、実際にSparkやHadoopなどのソフトウェアツールを使うデータサイエンススキルのコースを立ち上げる。コースのこのような拡張や多様化は、最初から計画されている。

学費は月額25ドルで、DataCampのすべてのリソースに無制限でアクセスできる。一部のコースは、試行用として無料だ。個人がそうやって‘入学する’形のほかに、Microsoftなどの企業が社員教育のために同社とパートナーするケースもある。

2年近く前にベルギーで起業した同社は、昨年ニューヨークにやってきてTechStarsの育成事業に参加し、同時に合衆国への進出を果たした。これまでもトラフィックのほとんどが合衆国から、そしてパートナー企業も合衆国企業が大半だったから、アメリカ進出は同社の既定路線だったとも言える。

提供するコースには、同社が作るものと、パートナー企業が提供するものがある。たとえば金融分野専門のデータサイエンスコースが必要になれば、その道のエキスパート企業を起用することになるだろう。

Accompliceがマサチューセッツ州ケンブリッジの、起業初期専門のVCなので、そのご縁でDataCampは州都ボストンにオフィスを構えた。ウェストコーストに比べると故国のベルギーに近いことも、ここを選んだ理由の一つだ。

[原文へ]
(翻訳:iwatani(a.k.a.
hiwa