Google CloudがSparkのマネージドサービスを発表

Google(グーグル)は米国時間10月12日の同社Cloud Nextイベントで、フルマネージドサービスとして「Spark on Google Cloud」の提供を発表した。これにより、オープンソースの人気データプロセッシングエンジンをGoogle Cloud上のプレミアムなサービスとして利用できるようになる。

Googleのデータベース、アナリティクス、Looker担当バイスプレジデント兼ゼネラルマネージャーのGerrit Kazmaier(ゲリット・カッツマイヤー)氏は次のように述べた。「このイノベーションで、Sparkがついにクラウドネイティブの世界にやってきます。データエンジニアやデータサイエンティストは、クラスタエンドの構成を心配することなくSparkを扱えるようになります。しかもGoogle Cloudのあらゆるデータサービスとも統合しました。そのため、BigQueryやVertex AI、Dataplexから直接Sparkを使い始めることができます。このようにSparkを簡単に利用でき、お客様は使い慣れたフレームワークやツールキットを使えます。データサイエンスのエクスペリエンスを、これからはクラウドネイティブで活用できるのです」。

Googleは「Google Cloudデータプラットフォーム向けとして世界初の、オートスケーリングでサーバーレスのSparkサービス」と説明している。しかしSparkの人気を考えれば、Sparkの実行や管理を提供する企業はたくさんある。SparkはDatabricksプラットフォームの中心でもあるが、DatabricksはSparkの開発者が創業し、十分な資金を調達しているスタートアップであることを考えれば当然だろう。

あなたはこんなふうにも思うかもしれない。「Google Cloudには、Dataprocの一部としてマネージドのSparkサービスがすでにあるんじゃないの?」(もちろん、あなたがGoogle、Amazon、Microsoftのクラウドのすべてのサービスを覚えている20%のうちの1人ならば、ということだが)

しかしカッツマイヤー氏は筆者に対し、異なる顧客をターゲットにした別のサービスであると説明した。すでにSparkやHadoop、あるいはMapReduceやPrestoなどのシステムを構成して利用しているなら、 Dataprocはこれらすべてをマネージドサービスとして今後提供する。しかし同氏としては、Google Cloudのデータサービスに関して開発しているものはすべてシンプルであることが大切で、特にデータのジャーニーを始めたばかりの企業が簡単に利用できることを重視しているという。

同氏はこう語った。「データチームを編成しているときに、データエンジニアを1人、データサイエンティストを1人雇いますか?最初に『これからストレージシステムを構築します。メタデータのシステムをゼロから作るんです』なんて言いたいでしょうか?もちろんそうではないですよね。しかし現状では、実際にそうせざるを得ません。これからはサーバーレスのSparkがあります。『さあ、やろう』というだけです」。

画像クレジット:Aki Ikonen / EyeEm / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Kaori Koyama)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。