Googleが今日(米国時間4/16)、ブラッセルで行われたHadoop Summitで、同社がクラウドから提供しているビッグデータプロダクトのアップデートを発表した。まず、公開ベータで立ち上がるCloud Dataflowは、大量のデータを処理するGoogleの新しいサービスだ。そしてビッグデータ(Googleが提供するビッグデータデータベース)へのクェリを提供するBigQueryが同社のヨーロッパデータセンターにも展開され、また行(row)レベルのパーミッションも導入される。
Cloud Dataflowがデビューしたのは昨年6月のGoogleのデベロッパカンファレンスだったが、これまではずっと非公開アルファで、一般に利用できるプロダクトではなかった。しかしこれからは、関心のあるデベロッパなら誰でもこのサービスをトライし、使用を開始できる。ただしまだベータだから、公式のSLAはない。
Googleのプロダクトマネージメント部門のディレクタTom Kershawによると、ビッグデータに対するGoogleの基本的なポリシーは、複雑性をできるかぎり取り除くことだ。これまで業界を苦しめてきたのは、ビッグデータの取り扱いがきわめて難しいことだった。企業は自分たちが毎日作り出しているデータに大きな価値があることをそろそろ理解してきたが、まだ多くのデベロッパがそれらのデータを扱うるツールの開発で難儀している。Kershawは曰く、“ビッグデータの利用は、もっと民主化される必要がある。Googleにはビッグデータ処理のためのソフトウェア資産が蓄積しているので、これからはそれらを、ものすごく使いやすい形で提供していきたい”。
Cloud Dataflowは、データをストリームとしても、あるいはバッチでも、処理できる。スケーリングは、ニーズに応じて自動的に行われる(ただしユーザが押しこむデータの量があまりにも膨大になったら、Googleからの“適正な”課金が行われる)。デベロッパはCloud Dataflowを利用するためのコードを一度だけ書き、そのあとはGoogleが彼らに代わってインフラストラクチャの設定や操作等をすべて行う。
Cloud Dataflowは一般ユーザ/デベロッパにとって新しいと言えるが、しかしBigQueryは2010年からある。しかし今日からは、ユーザは自分のデータをGoogleのヨーロッパデータセンターでホストできる。Kershawによると、これまでその要望がとても多かったそうだ。データに対するユーザの主権についてうるさいヨーロッパで、Googleがもっと早くそれをやらなかったのが、不思議なぐらいだ。
BigQueryのもうひとつのアップデートは、データベースが行(row)レベルのパーミッションをサポートすることだ。ささやかなアップデートのようだが、Kershawが言うように、実用レベルではとても重要な機能だ。
ひとつのビッグデータデータベースをいろんな部課が利用する、という企業が少なくない。でもたとえばマーケティング部門には、彼らが必要とするデータにはアクセスを許可しても、そのほかの機密性のあるデータにはアクセスさせたくない。ITはそのために、必要なデータのコピーを作って渡す、という方法を採ってきた。しかしそのコピーは通常、データベース本体のアップデートと同期しない。だからマーケティング部門は、正しくない古いデータを使うことになる。しかし行レベルのパーミッションがあれば、データベース本体に安全にアクセスさせられる。〔もちろん、列(column)レベルのパーミッションもある。〕
今回のアップデートにより、BigQueryはテーブル上の行を最大毎秒10万行読み込むことができる。ビッグデータ、たとえばログファイルの巨大な集まりなどを分析するときは、これぐらいのスピードが必要だ。実際、Kershawによると、BigQueryはその目的のためにも、よく使われているそうだ。
Googleのビッグデータツールは現在、BigQueryとCloud DataflowとメッセージングサービスCloud Pub/Subの三本柱だ。Google自身がかねてから、社内的にビッグデータのエキスパートだから、おそらく来月のGoogle I/Oではさらに新しいアップデートやビッグデータプロダクトが発表されるのではないかな。