クラウドデータウェアハウスとデータサイエンスコミュニティを統合して仕事が楽に

Googleは2017年に、Google Cloud上のビッグデータ処理ツールのためにデータサイエンスのコミュニティを作りたくてKaggleを買収した。そして今日(米国時間6/24)同社は、Kaggleと、GoogleのクラウドデータウェアハウスBigQueryの直接的な統合を発表した

具体的には、データサイエンティストはKaggleのJupyter Notebook、通称Kaggle Kernelsでモデルを作れる。それからそのツールのAPIを使ってBigQueryにダイレクトにリンクでき、データウェアハウスのデータにSQLでずっと簡単にクエリを送れる。SQLは、データサイエンティストたちにとって、きわめてお馴染みの言語だから。

この方式の利点はGoogleによると、データに対しクエリを送ったり機械学習を実行したりするためにわざわざデータの移動やダウンロードをしなくてもよいことだ。この統合を紹介するブログ記事でGoogleは次のように書いている。「あなたのGoogle CloudアカウントがKernelsのノートブックやスクリプトにリンクしたら、BigQuery APIのクライアントライブラリを使ってノートブックの中で直接クエリを構成でき、BigQueryに対するクエリの実行やデータのさまざまな分析もできるようになる」。

データサイエンティストの仕事のやり方は独特だが、そのやり慣れたやり方で仕事ができるし、モデルを作って機械学習を実行することに伴う摩擦を軽減できる。いろんなツールをとっかえひっかえ使うのではなく、仕事全体をスムーズでよく統合化されたやり方でできるようになる。長期的には時間と精力の節約になるだろう。

しかも、Kaggleはデータサイエンティストたちのオープンなコミュニティだから、Kernelsを共有することもできる。逆に、公開されているリポジトリを検索するときKernelsを開始点として使ったり、さまざまなタイプのデータセットで実験するときの参照モデルとすることもできる。

Kaggleでは、ほかのデータサイエンティストたちといろんな問題をオープンに議論できる。コミュニティには300万のユーザーがいて、その公開リポジトリにはおよそ20万のKernelsがあなたの探求を待っている。

関連記事: Google、データサイエンス、機械学習のKaggle買収を確認

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

データ管理サービスSegmentの顧客の多くがウェアハウジングのベースとしてGoogle BigQueryを利用

unnamed2

Segmentは、Google AnalyticsやMixpanel、Salesforceなどのサービスの利用から発生するデータの管理を助け、そのデータをアトリビューション・プロダクトやデータウェアハウスなどに送る。

同社は昨日(米国時間12/8)、そのサービスをGoogleのデータウェアハウジングサービスBigQueryと統合して、プロダクトの拡張を図る、と発表した。Segmentはすでに、PostgresやAmazonのRedshiftなど、そのほかのウェアハウジングプロダクトをサポートしているから、それほど重要な発表ではない、と思われるが、しかしCEOのPeter Reinhardtによるとそれは、“クラウド戦争”の大きな様相変化を表している。

“このところ、BigQueryの需要が急増しており、それはRedshiftにとって初めての、本物の脅威だ”、と彼は語る。

Segmentの7500社の顧客がすべてデータウェアハウジング機能を使っているわけではないが、しかしReinhardtによると、エンタープライズ顧客の“ほとんど100%が”利用しており、セルフサービス的な利用も少なくない。彼の推計では、データウェアハウジングを利用している顧客は、Postgresが半分、Amazonが半分という感じだったが、1か月あまりのベータテストのあとには、BigQueryが10%の顧客を奪っていた。

BigQueryのアドバンテージの中でとくに強力なのは、Reinhardtによると、シンプルで使いやすいこと、そして中小企業にとって魅力的な料金体系であることだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleのリアルタイムビッグデータ分析サービスBigQueryが大幅値下げと能力アップ

非常に大きなデータ集合を高速に分析するためのGoogleのクラウドツールBigQueryが今日(米国時間3/25)、最大85%という大幅値下げをした。そしてそれと同時に、Amazon Kinesisなどの競合サービスと互角に戦うための重要な新機能も加えた。もうすぐデベロッパたちは、最大で毎秒10万行までのリアルタイムデータをBigQueryに送り、リアルタイムで分析してもらえるようになる。

これで、リアルタイム分析に依存する多種多様なサービスにとって、BigQueryが使うツールの候補になる。今日行われるCloud PlatformのイベントでGoogleは、電力会社がこのツールを使うと、地域の電力利用状況をリアルタイムで刻々分析しながら、数分後の停電の可能性を検知できる、という例を見せる。あるいは電力会社はBigQueryを使って数マイル範囲内のメーターの今の状態を知り、過去5分間に電気の利用がなかったところを判別できる。

そのほか、マーケティングや金融業などでも、データやログ、さまざまな計測値などをリアルタイムで分析できる。

ビッグデータ分析の世界でGoogleのサービスは、比較的安い。オンデマンドのクェリは1テラバイトあたり5ドル、毎秒5GBの予約クェリは月額料金が“わずか”2万ドルだ。これらの額は、ほかのサービスプロバイダよりも75%安い、とGoogleは主張している。

BigQueryのこれまでのリアルタイムストリーミング機能はあまり強力ではなくて、 その最大消化能力は1テーブルあたり毎秒1000行だった。それで十分なアプリケーションもあるが、それはAmazon Kinesisの足元にも及ばない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


GoogleのBigQueryが分析関数を強化, UIを一新, 料金を値下げ

Google BigQueryは、いくつかの新たなアップデートにより、大量データの低料金かつ迅速な分析サービスを、より使いやすくしようとしている。BigQueryはテラバイトのオーダーのデータを処理するが、今日(米国時間6/11)発表されたアップデートで、大きなデータベースのアドホックな分析における柔軟性が増し、またより高度な分析ができるようになった。

新たな機能は6つある: 1)クェリの出力量の制限を撤廃、2)高度なウィンドウ関数、3)再計算における時間とコスト節減のためのキャッシングの改良、4)クェリのコスト情報を瞬時に提供、5)ストレージ費用の低減、6)大型ワークロードのサポート(全ユーザに対し対話的クェリのクォータを倍増)。

BigQueryの新しいウィンドウ関数によってユーザは、“結果のランキング、分布や百分位を知る、JOINをせずに結果全体を横断する”、などができる。

データ量が大きいと費用も無視できない。その点、新しいユーザインタフェイスによって、データの管理がやや容易になり、時間節約が可能になった。正しいシンタクスのクェリに対してUIは、そのクェリの実行コストを事前に教えてくれる。

ストレージの費用は1ギガバイトあたり月額12セントが8セントに値下げされた。大型ユーザのためにはクェリ単位の料金設定もできるようになる。

BigQueryは、数十億行ものデータを処理する。そのベースとして使用しているGoogle Dremelは、リアルタイムのアドホッククェリシステムとして、Hadoopの分析能力を上回る、と言われている。

Dremelをオープンソース化しよう、という動きもある。ApacheのDrillは、Dremelの技術をオープンソースで実装している。ClouderaのImpalaも、オープンソースのリアルタイムクェリエンジンだ。2月にローンチしたCitus DataCitusDB for Hadoopは、数ペタバイトのデータを数秒で処理するサービスだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))