Google(グーグル)は米国時間10月12日の同社Cloud Nextイベントで、フルマネージドサービスとして「Spark on Google Cloud」の提供を発表した。これにより、オープンソースの人気データプロセッシングエンジンをGoogle Cloud上のプレミアムなサービスとして利用できるようになる。
Googleのデータベース、アナリティクス、Looker担当バイスプレジデント兼ゼネラルマネージャーのGerrit Kazmaier(ゲリット・カッツマイヤー)氏は次のように述べた。「このイノベーションで、Sparkがついにクラウドネイティブの世界にやってきます。データエンジニアやデータサイエンティストは、クラスタエンドの構成を心配することなくSparkを扱えるようになります。しかもGoogle Cloudのあらゆるデータサービスとも統合しました。そのため、BigQueryやVertex AI、Dataplexから直接Sparkを使い始めることができます。このようにSparkを簡単に利用でき、お客様は使い慣れたフレームワークやツールキットを使えます。データサイエンスのエクスペリエンスを、これからはクラウドネイティブで活用できるのです」。
Googleは「Google Cloudデータプラットフォーム向けとして世界初の、オートスケーリングでサーバーレスのSparkサービス」と説明している。しかしSparkの人気を考えれば、Sparkの実行や管理を提供する企業はたくさんある。SparkはDatabricksプラットフォームの中心でもあるが、DatabricksはSparkの開発者が創業し、十分な資金を調達しているスタートアップであることを考えれば当然だろう。
あなたはこんなふうにも思うかもしれない。「Google Cloudには、Dataprocの一部としてマネージドのSparkサービスがすでにあるんじゃないの?」(もちろん、あなたがGoogle、Amazon、Microsoftのクラウドのすべてのサービスを覚えている20%のうちの1人ならば、ということだが)
しかしカッツマイヤー氏は筆者に対し、異なる顧客をターゲットにした別のサービスであると説明した。すでにSparkやHadoop、あるいはMapReduceやPrestoなどのシステムを構成して利用しているなら、 Dataprocはこれらすべてをマネージドサービスとして今後提供する。しかし同氏としては、Google Cloudのデータサービスに関して開発しているものはすべてシンプルであることが大切で、特にデータのジャーニーを始めたばかりの企業が簡単に利用できることを重視しているという。
同氏はこう語った。「データチームを編成しているときに、データエンジニアを1人、データサイエンティストを1人雇いますか?最初に『これからストレージシステムを構築します。メタデータのシステムをゼロから作るんです』なんて言いたいでしょうか?もちろんそうではないですよね。しかし現状では、実際にそうせざるを得ません。これからはサーバーレスのSparkがあります。『さあ、やろう』というだけです」。
画像クレジット:Aki Ikonen / EyeEm / Getty Images
[原文へ]
(文:Frederic Lardinois、翻訳:Kaori Koyama)