Amazon Web Services(AWS)が今日(米国時間8/2)リリースを発表したElastic MapReduce(EMR) 5.0.0は、16種のHadoop関連プロジェクト(派生プロジェクト)をサポートする。
AWSはつねに、顧客がクラウド上の多様なエンタープライズ機能を管理するための、さまざまなツールのアップグレードに努めているが、今回のものは、Hadoopでビッグデータプロジェクトを管理しているデータサイエンティストやその関連部署に向けられている。
この分野に強いForresterのアナリストMike Gualtieriの言葉を借りると、Hadoopとは基本的に、“大きなデータ集合を保存し処理するためのインフラストラクチャ的ソフトウェア”だ。
従来のデータ処理ソフトウェアと違ってHadoopは、データの保存と処理を複数のノード(数千に及ぶこともある)に分散して行い、それにより大量のデータ処理を効率化する。
しかもそれは、Apacheのオープンソースプロジェクトとして、きわめて人気が高い。かわいいマスコットまである(上図)。Hadoopを軸に大きなエコシステムができていて、プロジェクトの改良充実にたえず貢献している。また、そこから生まれる派生プロジェクト(“Hadoop関連プロジェクト”)も多い。
今のHadoopはそれらの派生プロジェクトを積極的に取り入れて、ユーザーによる大量のデータ集合の管理を助けている。たとえばHiveはHadoopのためのデータウェアハウスであり、HBaseはスケーラビリティの高い分散データベースだ。AWSは、どちらもサポートしている。
Hadoopによるシステムの実装やデータ処理を助ける企業も続々生まれていて、有名なところとしてはCloudera, Hortonworks, MapRなどが、Hadoopの独自の商用化バージョンを提供している。
AWSは昨年の7月以来、AWS本体ツールの継続的アップデートとともにHadoop関連プロジェクトのサポートのピッチを上げ、顧客の選択の幅を広げようとしている(下図)。
[EMRの更新履歴(4.7.0まで)とHadoop関連プロジェクトのサポート]
AWSは、もうひとつのApacheオープンソースプロジェクトBigtopも使ってきた。これは、プロジェクトのページによると、“Hadoopのビッグデータコンポーネントの、インフラストラクチャのエンジニアやデータサイエンティストによるパッケージングとテストと構成を助ける”、という。AWSのブログ記事によると、AmazonはBigtopの開発のペースアップに協力し尽力してきた。
以上は、データサイエンティストと、クラウド上の大型データ集合を扱う社員たちにとって、良いニュースだ。今回のリリースではオプションの数がぐっと増え、AWS上で有用なHadoop関連プロジェクトを、より見つけやすくなったと言えるだろう。
ビッグデータは今やAWS上の重要なユースケースだから、Hadoop本体はもちろんのこと、ストレージやコンピューティングを効率化するためのさまざまなツールを必要とする。〔そしてそのニーズの多くをさまざまなHadoop関連プロジェクトがサポートする〕。ユーザーから見ると、AWSのようなクラウドベースのインフラストラクチャは文字通りエラスティック(elastic, 伸縮自在)であり、オンプレミスの場合のように、扱いデータの増加とともに新たなリソースの手配をいちいち心配する必要がない。