Googleは、Google Cloud Platformのビッグデータサービス群に新たな製品を今日追加する。新サービスのGoogle Cloud Dataprocは現在ベータ版で、データ処理エンジンのSparkやHadoopフレームワークをバーチャルマシン上で直接管理し、Googleプラットフォーム上のデータパイプラインを統合するCloud Dataflowのような完全マネージド型サービスとの中間に位置する。
Google Cloud Platformの製品管理責任者、Greg DeMichillieは私に、DataprocユーザーはHadoopクラスターを90秒以内に立ち上げることが可能で ― 他のサービスより著しく速い ― Googleはクラスター上のバーチャルCPU料金を毎時1セントしか課金しないと言った。これはバーチャルマシンとデータストレージを運用するのにかかる費用に上乗せされるものだが、DeMichilleはGoogleの低価格のプリエンプティブル・インスタンスを利用すれば計算コストを若干節約できると言った。課金は分単位で、最低10分から。
Dataprocでここまで速くクラスターを立ち上げられることから、ユーザーは必要に応じて一時的クラスターを設定することができる上、マネージド型のためGoogleがユーザーに代って運営できる。
「この分野ではあらゆる規模に適合する製品はない。これは当社の総合的ポートフォリオにとって極めて重要な製品だと考えている」とDeMichilleは言った。
このサービスは標準的なSparkおよびHadoopのディストリビューション(微調整あり)を使用しているため、事実上どの既存Hadoopベース製品とも互換があり、ユーザーは現行業務を容易にGoogleの新サービスに移行できるはずだ。
DeMichillieとGoogleのビッグデータ製品マネージャー、James Maloneは私に、Googleは同社のネットワークインフラのおかげでサービスのスピードを保証できるが、加えてSparkの問題(同社がこのサービスに利用しているオープンソースのYARNリソースマネージャーに関連する)を修復し、最適なイメージを構築したことも貢献していると話した。
DeMichillieは、一部のユーザーはデータパイプラインや処理アーキテクチャーの完全制御を望んでおり、そのために各自のバーチャルマシンを運用、管理したがるだろうと認識している。彼は、Dataprocのユーザーにとって独自インフラを設定するのと比べて実質的なトレードオフはないと考えている。
当然ながら、DataprocはGoogleの他のクラウドサービス、BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging、およびCloud Monitoringとも統合されている。
[原文へ]
(翻訳:Nob Takahashi / facebook)