AWSがHadoopビッグデータのクェリツールImpalaをサポート

Amazon Web ServicesにImpalaのサポートが加わった。これはClouderaがGoogleに倣って開発したクェリツールで、大量のデータを並列処理によりリアルタイムで処理する。Impalaでは、デベロッパがAWSのElastic MapReduceの上で、SQLふうの言語を使ってクェリを行える。それは高速でアクセス性も良く、オープンソースの分散コンピューティングシステムHadoopでSQLの利用が増えていることを示す一つの例でもある。またImpalaは、より広い視野で見ると、この市場ではGoogleの影響がとても大きいことを示す例の一つでもあり、新しいデータプラットホームや従来よりもリッチなアプリケーションエコシステムを作ろうとする人たちの多くが、Googleの先行製品を参考にしている。

昨年世に出たImpalaの場合は、GoogleのDremelがベースだ。これはビッグデータ分析におけるGoogleの先駆的製品、広大なクラウド宇宙の全域にわたって保存されているデータをクェリするMapReduceの後継製品で、GoogleのPM William Vambenepeによれば、DremelはGoogleのデータ分析プラットホームBig Queryのベースでもある。Hortonworksが発表したTezは、同社のStingerプロジェクトの一環で、HadoopをクェリするデータベースHiveを使用する。Hortonworksによると、Stingerは通常のSQL文によるクェリをペタバイトクラスの大規模データに対し、従来の100倍のスピードで実行する。

Citus Dataの分析データベースも、やはりGoogle Dremelがベースだ。これはPostgreSQLデータベースに対する並列処理で高速なクェリを行う。またMapRはApache Drillを使って大量データに対する高速クェリを提供する。そしてHadoopをベースとする分析データベースJethroDataも、Google Dremelのやり方に倣っている。

“Adaptive Analytical Platform”でこれらすべての企業/製品に先行するHadaptは、オープンソースのApache HadoopにSQLのネイティブ実装を持ち込んでいる。

Dremelの大きな影響力の理由

Hadoopは、ペタバイトのオーダーでデータを処理するTwitterのようなインターネット企業にとって重要な技術だ。また既存の企業にとっても、昨今はデータの量がこれまでになく増加しているので、Hadoopのありがたみが増している。Impalaは、こういった新世代のデータユーザに、利便を提供する。Impalaを使えば、高度な専門技術がなくても、データをクェリできるのだ。

これまでのHadoopは、高度な知識能力を持つ専門技術者でないと扱えないしろものだった。そういう人たちは初期のデータサイエンティストと呼ばれ、プログラミングの能力とクラスタの管理能力、そしてデータ分析の技術を持っていた。そういうビッグデータ技術者たちは、大量のデータをそれぞれ独自のやり方で処理し分析していたインターネット企業から巣立ってきた。たとえばJeff Hammerbacherは、Facebookを辞めてClouderaの協同ファウンダになった。Yahoo!でApache Luceneを使ってオープンソースの検索エンジンを作っていたDoug Cuttingは、そのプロジェクトのためにHadoopを作って利用した。Luceneも、その初期の作者がCuttingだ。そのCuttingも、今ではClouderaで仕事をしている。

Googleは、MapReduceで先陣を切った。それは、ノードの集合を、データを並列処理するためのクラスタとして扱った。複数のクラスタに亙ってデータをマップし、それを縮小(reduce)して答えを得た。

そしてそのMapReduceを超える技術であるGoogle Dremelは、次世代のHadoop技術の柱となる製品だ。それは、そのほかの、HivePigといったオープンソースのプロジェクトとともに、成長し続けるエコシステムを形成し、それらが一体となって、より高級な言語でMapReduceの複雑さ~難解さを抽象化する。

Dremelの強みは、データ分析がバッチでなくリアルタイムの瞬時であることだ。しかしそれは最初、Googleの…主にオンライン広告のための…大規模な関係データベースGoogle F1をクェリすることを、目的として開発された。

ImpalaもDremel同様、その分析能力が売りだ。したがってそれは、ビジネスインテリジェンス(BI)のための視覚化技術Tableauなどの、補完製品とみなされることが多い。Impalaでデータを迅速にクェリし、その結果をBIツールが利用するのだ。

Hadoopそのものは、アプリケーション開発のためのプラットホームではない。しかしImpalaのようなアプリケーションに奉仕するツールの普及および多様化に伴って、Hadoopがアプリケーションのベースとなる機会が今後ますます増えるだろう。たとえば今年の初めに発表されたHadoopの最新バージョンでは、MapReduceを抽象化してスケジューラやリソースマネージャとして使うYarnの新バージョンが同梱された。これによって、それまでのHadoopでは難しかったスケーリングが可能になる。

Hadoopから生まれるアプリケーションのエコシステムは、すでにImpalaやYarnにその兆しがある。どちらのツールもHadoopの外見を単純化し、エンドユーザ(アプリケーションデベロッパ~BIユーザ)の能力を深化する。またConcurrentが商用化したHadoopのためのアプリケーションフレームワークCascadingがある。TwitterEtsyAirbnbなどが、その顧客として名を連ねている。

この市場(ビッグデータアプリケーション市場)は、長年Googleが先頭を走ってきた。しかしHadoopとプラットホームレイヤのイノベーションにより、Googleと後発グループとの差は縮まりつつある。

画像提供: Electric Sheep, Creative Commonsによる)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータ市場は分析データベースへと進化中: JethroDataがHadoopの弱点克服で$4.5Mを調達

jethrodata

Hadoopをベースとする分析データベースJethroDataが今日(米国時間2/27)、Pitango Venture Capitalが率いる投資ラウンドにより450万ドルを調達した、と発表した。

JethroDataはイスラエルの企業で、Hadoopの、ストレージに対するスケーラビリティと、完全にインデクシングされた列指向型分析データベースのクェリ機能を組み合わせた、サービスを提供している。列指向データベースは、大量のデータに対して複雑なクェリを行うデータウェアハウスシステムで重宝された歴史を持つ。

ファウンダのEli Singerはメールによるインタビューで、同社の差別化要因は、Hadoopにデータを保存して、それらを分析のために取り出す、ややもすれば複雑な工程を、単純化して能力を高めた点にある、と述べた。分析データベースとHadoopが別立てである企業が多いが、それだと、データをスキャンして分析するのに時間がかかりすぎる弱点がある。そのような分析は、結果をリアルタイムで見る方式ではなく、バッチで行われることが多い。Jethroは、クェリをHadoopネイティブで行うことにより、パフォーマンスが高いと主張する。

JethroDataには競合他社も多い、とSingerは言う。いちばん直接的な競合他社はHadaptで、ここもやはり、Hadoopに保存したデータをデータベース的に組織化する手法をとっている。

またClouderaImpalaは、Google Dremelによる高速なフルスキャンシステムでMapReduceをリプレースしている。Dremelはビッグデータ分析におけるGoogleの、MapReduceに次ぐ後継技術だ。Apache Drillをサポートすると発表したMapRも、やはりGoogle Dremelがベースだ。先週はHortonworksが、同社の独自技術であるTezを発表した。Citus Dataにも、Google Dremelによる自社独自の分析データベースがある。それは、PostgreSQLのコアの並行処理でクェリを行う点に、独自のイノベーションがある。

Singerによると、HBaseを使っている企業もある。それは、今のところHadoop上で可利用な唯一のデータベースだ。Drawn to ScaleSplice MachineがHBase派だ。Salesforce.comにはオープンソースのPhoenixプロジェクトがあり、HBase上のSQLを提供している。

さらに、JethroDataと競合する分析データベースとデータウェアハウス企業としては、HP Vertica、EMC Greenplum、IBM Netezza、Teradata Aster、InfoBrightなどがある。

JethroDataではこれまで、ある顧客企業がアルファテストをやっていたが、次の四半期からベータに入り、より多くの企業が利用できるようになる。今社員数は8名だが、年内には25名になるという。

分析データベースの市場は、ビッグデータ分析の次の最先端領域だ。JethroDataらは、Hadoopのアキレス腱対策に取り組んでいる。それは、ビッグデータの集積から、必要なデータを取り出し、分析し、結果をリアルタイムで見せることだ。成功の鍵は、今たくさん雨後の筍している競合他社に対する強力な差別化を、今の、市場が若いうちに確立することだ。そして、大差で先頭を走り続けること。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))