ビッグデータプログラミングを単純化するGoogleのCloud DataflowがClouderaの協力でApache Sparkに統合

Googleの今日(米国時間1/20)の発表によると、同社はHadoopのスペシャリストClouderaとパートナーして、Googleのデータ処理プログラミングフレームワークCloud DataflowをApacheのクラスタ化データ処理エンジンSparkに統合する努力を開始する。

デベロッパがGoogleのCloud Dataflowを使うと、低レベルのクラスタのことを気にする必要なく、データ処理パイプラインを開発しモニタできる。例によってGoogleは次のように強調する: このデータ処理SDKはインターネット上で大規模なデータ集合を処理するための同社の内部的ツールから生まれたものである。データ処理のタスクはいつも同型であるとはかぎらないので、クラウドやオンプレミスを使い分けながらいろいろなデータ処理エンジンを使う必要がある。しかしCloud Dataflowというプログラミングインタフェイスを使えば、理想的には、データアナリストはパイプラインがその上で動くアーキテクチャの違いを気にすることなく、同一のシステムを使ってさまざまなデータ処理パイプラインを作れる。

GoogleがクラウドサービスとしてのDataflowを発表したのは昨年の夏だが、それはインフラがGoogle自身のプラットホーム…Compute EngineCloud Storage、およびBigQueryだった。しかしちょうど1か月前に同社はこのサービスのJav SDKをリリースして、デベロッパがそれをほかの言語や環境に統合できるようにした。そして今回はClouderaの協力によりそれと同じことを、SparkをデータエンジンとするオープンソースのDataflowとして実装しようとしている。それによりデベロッパはCloud Dataflowを、自分たちのローカルマシン上、(まだ非公開アルファだが)Googleのクラウドサービス上、そしてSparkの上でも使えるようになる。

Googleは今日の発表の中で、こう述べている: “Dataflowを利用するプログラムはデータをより有効に利用できるようになり、しかもその便宜を、クラウドやオンプレミスなど多様な環境で享受できる”。

SparkバージョンはGitHub上で入手できる。Clouderaはそれを、試験と実験に限定される“育成プロジェクト”と見なしている。本番利用のリスクは、デベロッパの自己責任となる。GoogleもDataflowをアルファと見なしているので、SDKは今後変わる余地がある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。