Google、SparkとHadoopのマネージドサービス、Cloud Dataprocを提供開始

google-servers-datacenter

Googleは、Google Cloud Platformのビッグデータサービス群に新たな製品を今日追加する。新サービスのGoogle Cloud Dataprocは現在ベータ版で、データ処理エンジンのSparkやHadoopフレームワークをバーチャルマシン上で直接管理し、Googleプラットフォーム上のデータパイプラインを統合するCloud Dataflowのような完全マネージド型サービスとの中間に位置する。

Google Cloud Platformの製品管理責任者、Greg DeMichillieは私に、DataprocユーザーはHadoopクラスターを90秒以内に立ち上げることが可能で ― 他のサービスより著しく速い ― Googleはクラスター上のバーチャルCPU料金を毎時1セントしか課金しないと言った。これはバーチャルマシンとデータストレージを運用するのにかかる費用に上乗せされるものだが、DeMichilleはGoogleの低価格のプリエンプティブル・インスタンスを利用すれば計算コストを若干節約できると言った。課金は分単位で、最低10分から。

Dataprocでここまで速くクラスターを立ち上げられることから、ユーザーは必要に応じて一時的クラスターを設定することができる上、マネージド型のためGoogleがユーザーに代って運営できる。

「この分野ではあらゆる規模に適合する製品はない。これは当社の総合的ポートフォリオにとって極めて重要な製品だと考えている」とDeMichilleは言った。

KciNhA1_PKSnFIsuVnhhvwmCPGiLfaOfGhPfBAT0I7eykLJI3f1SQcyhRyZs1b5LOUe1yA=s2048

このサービスは標準的なSparkおよびHadoopのディストリビューション(微調整あり)を使用しているため、事実上どの既存Hadoopベース製品とも互換があり、ユーザーは現行業務を容易にGoogleの新サービスに移行できるはずだ。

DeMichillieとGoogleのビッグデータ製品マネージャー、James Maloneは私に、Googleは同社のネットワークインフラのおかげでサービスのスピードを保証できるが、加えてSparkの問題(同社がこのサービスに利用しているオープンソースのYARNリソースマネージャーに関連する)を修復し、最適なイメージを構築したことも貢献していると話した。

DeMichillieは、一部のユーザーはデータパイプラインや処理アーキテクチャーの完全制御を望んでおり、そのために各自のバーチャルマシンを運用、管理したがるだろうと認識している。彼は、Dataprocのユーザーにとって独自インフラを設定するのと比べて実質的なトレードオフはないと考えている。

当然ながら、DataprocはGoogleの他のクラウドサービス、BigQueryCloud StorageCloud BigtableCloud Logging、およびCloud Monitoringとも統合されている。

[原文へ]

(翻訳:Nob Takahashi / facebook

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。