Hadoopの利用を使いやすいSaaSで提供するAltiscaleが$30Mを調達

【抄訳】

Hadoopといえば、企業のデータセンターの複雑なオンプレミスのセットアップを連想しがちだが、Altiscaleはそういう複雑な部分をすべてクラウド上で面倒見て、かんじんのHadoopの利用インタフェイスだけをSaaSとして提供する。同社は、その使命の継続のために今日(米国時間12/9)、シリーズBで3000万ドルの資金を調達した。

このラウンドを仕切ったのはNorthgate、これに前からの投資家Sequoia CapitalとGeneral Catalyst Partnersが参加した。これでAltiscaleの資金調達総額は4200万ドルになる。

Hadoopは、ビッグデータを処理するためのオープンソースのプロジェクトだ。

【中略】

AltiscaleがHadoopのベンダとして特異なのは、最初から、企業が抱えるHadoopのワークロードをクラウドで処理するという、根っからのクラウド企業としてスタートしたことだ。ファウンダでCEOのRaymie Stataは曰く、Hadoopは簡単に使えるものではないし、仕上げの粗い部分もある。彼が前にいたYahoo!では、社内に大きな組織を作ってHadoopに取り組んでいたが、ふつうの会社にはそんな贅沢はできない。

それが、彼がAltiscaleを作った主な理由だ。サービスがクラウドにあれば、大から小までもっといろんな企業がHadoopを利用できるし、またビッグデータの処理についても相談に乗ってあげられる。処理の根幹だけでなく、ちょっとしたヘルプの相談もある。企業はそういう問題を自分で抱え込んで悩むのではなく、解決をAltiscaleに求めればよい。

そして彼によれば、Altiscale自身はHadoopのエキスパートだから、企業が解決に数日を要していたような問題も、数時間で解決してあげられる。それでなくとも企業のIT部門は、いろんな問題を常時、山のように抱えているのだから。

Hadoopのサードパーティベンダは数が多く競争も激しい。それらの中でHortworksは最近、IPOにこぎつけた。この前の3月にはClouderaが、シリーズFの資金調達に際して40億ドルを超える評価額を達成した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Google Cloud Platform–Cloud Storage上でHadoopを簡単に使えるためのコネクタを提供開始

かねてからGoogle Cloud StorageはHadoopに対応しており、デベロッパはデータをここに置くことによって、分散コンピューティングによる高度なデータ分析ができる。そして今日(米国時間1/14)Googleは、新たなコネクタをリリースして、Google Cloud Platform上でのHadoopの利用が、より容易にできるようにした。

クラスタやファシステムの管理をそのGoogle Cloud Storage connector for Hadoop(HadoopのためのGoogle Cloud Storageコネクタ)がデベロッパに代わって行うので、デベロッパは物理レベルの面倒な管理業務から解放され、データの処理に専念できる。

Googleが2003年に開発したGoogle File Systemは、今ではHadoopの土台だ。HadoopはApache Software Foundation(通称Apache)が管理するオープンソースの分散コンピューティング環境で、データをサーバのクラスタ上に分割分散して分散処理によるデータ分析を行う。今ではHadoopのまわりに、多様なソフトウェアやサービスから成るエコシステムが形成され、ClouderaやHortonworksなど多くの企業がそれを支えている。

Google Connector for Hadoopは、Googleの最新のクラウドストレージシステムColossusを使用する。また、シンプルなコネクタライブラリを使用して、Hadoopに直接Google Cloud Storageへアクセスさせ、データ処理を行わせる。

Googleは、このコネクタの利点をいくつか挙げている。HadoopのクラスタをGoogle Cloud Storageが一か所で管理するので、デベロッパはHadoopの使用をすぐに開始できる。Google本体のスケーラビリティを利用するので、可利用性がつねに高い。データのコピーを持つ必要がないので経費節約になる…つまり、バックアップ用にコピーを作るなどは、Google Cloud Storage自身が勝手にやってくれる。

今やHadoopは、ビッグデータ分析の分野における主流派だ。先月の記事でも書いたように、Hadoopは、Twitterなど、毎日ペタバイトのオーダーでデータを処理するインターネット企業にとって欠かせない技術だ。また一般企業でも、処理する情報量の爆発的な増大とともに、やはりHadoopを利用せざるをえなくなっている。

しかしHadoopを本格的かつ有効に利用するためには複雑な技術課題が多く、高度な経験知識をもった技術者を何人も必要とする。そこで今回のGoogle Cloud Storage Connector for Hadoop(Hadoop用のGoogle Cloud Storageのコネクタ)のようないわば‘仮想技術者’がいろいろ登場することによって、Hadoopを誰もが気軽に使えるものに、していく必要があるのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


AWSがHadoopビッグデータのクェリツールImpalaをサポート

Amazon Web ServicesにImpalaのサポートが加わった。これはClouderaがGoogleに倣って開発したクェリツールで、大量のデータを並列処理によりリアルタイムで処理する。Impalaでは、デベロッパがAWSのElastic MapReduceの上で、SQLふうの言語を使ってクェリを行える。それは高速でアクセス性も良く、オープンソースの分散コンピューティングシステムHadoopでSQLの利用が増えていることを示す一つの例でもある。またImpalaは、より広い視野で見ると、この市場ではGoogleの影響がとても大きいことを示す例の一つでもあり、新しいデータプラットホームや従来よりもリッチなアプリケーションエコシステムを作ろうとする人たちの多くが、Googleの先行製品を参考にしている。

昨年世に出たImpalaの場合は、GoogleのDremelがベースだ。これはビッグデータ分析におけるGoogleの先駆的製品、広大なクラウド宇宙の全域にわたって保存されているデータをクェリするMapReduceの後継製品で、GoogleのPM William Vambenepeによれば、DremelはGoogleのデータ分析プラットホームBig Queryのベースでもある。Hortonworksが発表したTezは、同社のStingerプロジェクトの一環で、HadoopをクェリするデータベースHiveを使用する。Hortonworksによると、Stingerは通常のSQL文によるクェリをペタバイトクラスの大規模データに対し、従来の100倍のスピードで実行する。

Citus Dataの分析データベースも、やはりGoogle Dremelがベースだ。これはPostgreSQLデータベースに対する並列処理で高速なクェリを行う。またMapRはApache Drillを使って大量データに対する高速クェリを提供する。そしてHadoopをベースとする分析データベースJethroDataも、Google Dremelのやり方に倣っている。

“Adaptive Analytical Platform”でこれらすべての企業/製品に先行するHadaptは、オープンソースのApache HadoopにSQLのネイティブ実装を持ち込んでいる。

Dremelの大きな影響力の理由

Hadoopは、ペタバイトのオーダーでデータを処理するTwitterのようなインターネット企業にとって重要な技術だ。また既存の企業にとっても、昨今はデータの量がこれまでになく増加しているので、Hadoopのありがたみが増している。Impalaは、こういった新世代のデータユーザに、利便を提供する。Impalaを使えば、高度な専門技術がなくても、データをクェリできるのだ。

これまでのHadoopは、高度な知識能力を持つ専門技術者でないと扱えないしろものだった。そういう人たちは初期のデータサイエンティストと呼ばれ、プログラミングの能力とクラスタの管理能力、そしてデータ分析の技術を持っていた。そういうビッグデータ技術者たちは、大量のデータをそれぞれ独自のやり方で処理し分析していたインターネット企業から巣立ってきた。たとえばJeff Hammerbacherは、Facebookを辞めてClouderaの協同ファウンダになった。Yahoo!でApache Luceneを使ってオープンソースの検索エンジンを作っていたDoug Cuttingは、そのプロジェクトのためにHadoopを作って利用した。Luceneも、その初期の作者がCuttingだ。そのCuttingも、今ではClouderaで仕事をしている。

Googleは、MapReduceで先陣を切った。それは、ノードの集合を、データを並列処理するためのクラスタとして扱った。複数のクラスタに亙ってデータをマップし、それを縮小(reduce)して答えを得た。

そしてそのMapReduceを超える技術であるGoogle Dremelは、次世代のHadoop技術の柱となる製品だ。それは、そのほかの、HivePigといったオープンソースのプロジェクトとともに、成長し続けるエコシステムを形成し、それらが一体となって、より高級な言語でMapReduceの複雑さ~難解さを抽象化する。

Dremelの強みは、データ分析がバッチでなくリアルタイムの瞬時であることだ。しかしそれは最初、Googleの…主にオンライン広告のための…大規模な関係データベースGoogle F1をクェリすることを、目的として開発された。

ImpalaもDremel同様、その分析能力が売りだ。したがってそれは、ビジネスインテリジェンス(BI)のための視覚化技術Tableauなどの、補完製品とみなされることが多い。Impalaでデータを迅速にクェリし、その結果をBIツールが利用するのだ。

Hadoopそのものは、アプリケーション開発のためのプラットホームではない。しかしImpalaのようなアプリケーションに奉仕するツールの普及および多様化に伴って、Hadoopがアプリケーションのベースとなる機会が今後ますます増えるだろう。たとえば今年の初めに発表されたHadoopの最新バージョンでは、MapReduceを抽象化してスケジューラやリソースマネージャとして使うYarnの新バージョンが同梱された。これによって、それまでのHadoopでは難しかったスケーリングが可能になる。

Hadoopから生まれるアプリケーションのエコシステムは、すでにImpalaやYarnにその兆しがある。どちらのツールもHadoopの外見を単純化し、エンドユーザ(アプリケーションデベロッパ~BIユーザ)の能力を深化する。またConcurrentが商用化したHadoopのためのアプリケーションフレームワークCascadingがある。TwitterEtsyAirbnbなどが、その顧客として名を連ねている。

この市場(ビッグデータアプリケーション市場)は、長年Googleが先頭を走ってきた。しかしHadoopとプラットホームレイヤのイノベーションにより、Googleと後発グループとの差は縮まりつつある。

画像提供: Electric Sheep, Creative Commonsによる)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


AWSがHadoopとそのエコシステムをアップデートしてビッグデータ分析プラットホームのサポートを一新

Amazon Web Services(AWS)がそのElastic Map ReduceプラットホームをアップデートしてHadoopの新バージョンを導入するとともに、同社のデータ分析エコシステムのサポートをアップデートした。

Elastic Map Reduceは、大量のデータを処理するためのAWSのプラットホームだが、ほかのベンダと違ってAWS自身がホストするサービスであるため、Hadoopとその周辺のエコシステムを、それらオープンソースのプラットホームの更新とペースを合わせてアップデートすることが重要な課題となる。

今回の最新アップデートではHadoopを2.2にアップデートし、またHivePigHBaseMahoutなどHadoopの同伴技術もバージョンを新たにした。AWSのブログ記事によると、それによりクラスタの始動時間が短縮され、データの拡大能力が強化され、マッパーM7がサポートされるようになった。MapR M7は、Hadoop用のNoSQLデータベースHBaseの有料サービスだ。

Elastic Map Reduceの今回のアップデートには、 Hadoop MapReduceの次世代アーキテクチャYARNのサポートも含まれる。

これはAWSの大型アップデートであり、Hadoopだけでなく、ここ数年で築かれたエコシステム全体をカバーする。Hadoopはファイルベースのシステムであり、データベースとしてはHBaseを必要とする。Pigは分析プラットホームであり、多くの場合ETL(Extract/Transform /Load)処理で使われ、そしてMahoutは機械学習ライブラリだ。

AWSはこのところ、データ分析技術のサポートにますます力を入れている。先週BI(ビジネスインテリジェンス)プロバイダのJaspersoftがElastic Map Reduceをサポートするようになったのも、そのことの成果だ。JasperはAWSとの付き合いが長く、AWS Marketplaceで入手できるそのサービスには、すでに500社の顧客企業がいる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


データサイエンティストのいない企業でもHadoopを有効利用できるビッグデータ分析サービスDatameer

最近は、データサイエンティストでないふつうの人にデータ(とくにビッグデータ)分析を提供するプラットホームが増えているが、Datameeerもその一つだ。コンピュータといえば仕事でスプレッドシートを使うぐらい、という圧倒的多数のコンピュータユーザが、こうやって徐々に本格的なデータ分析に接近しつつある。

Datameer 3.0には、“Smart Analytics”(スマートアナリティクス)と呼ばれる機能があり、それによって、データサイエンティストたちがつねに自分でゼロから計算するようなワークを、あらかじめ組み込んでいる。そろそろ、こういう抽象化〜ラッパー化があってもよい頃合いだ。Hadoopの普及率は今ではとても高いから、今度はそうやってそのアクセス性が向上すべきだ。

そのための重要な課題が、雑多なデータの統合化だ。すべてのデータを集めて、それらを分析可能に整理すること。また物理面では、サーバクラスタのセットアップ、という課題もある。さらに、技術者でない者にも理解できるユーザインタフェイスも必要だ。そしてもちろん、分析結果がユーザの仕事に活をいれる、有益なものでなければならない。

Datameer 3.0のSmart Analyticsは、以下の4つの方法でデータ分析を単純化する:

  1. レコードをクラスタ化してデータ集合中に有意なグループが見られるようにする。データは、位置データ、写真、顧客のオペレーティングシステムなどさまざまだ。このクラスタ化により、ユーザはたとえば顧客リスト中の顧客データを有意義に分類できる。
  2. デシジョンツリーが目的とする結果を表示し、その中の多様な要因を分析して、デシジョン(意思決定)に導く過程を一望する。
  3. カラムディペンデンシー(column dependencies, カラム間依存関係)により異なるカラム間の関係を表示し、データ間の、それまで自明的ではなかった結びつきを明らかにする。たとえば、位置と疾病タイプの関係や、職階とクレジットスコアの関係が分かったりするだろう。
  4. ユーザの履歴データに基づいて、次はどんなものに関心を持つかを予測し、個人化されたリコメンデーションを生成するような、リコメンデーションエンジンを提供する。この機能により企業ユーザはユーザに対し、より関係性のあるより有意義なリコメンデーションができるようになる。社内にデータサイエンティストがいなくても。

CEOのStefan Groschupfが今日(米国時間6/24)のブログ記事で、市場の現状について述べている。Hadoopはそのほかの技術と同様に進化してきているので、今や何かをスクラッチで(==ゼロから)作る必要はない。Hadoopベースのサービスの中には、カスタム化ができず、長期的なメンテナンスが困難なものもある。しかし今では、Hadoopを企業がより現実的に活用できるためのサービスもあるのだ、と。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


56台のRaspberry PiをLEGOの棚に収めたPiCloud, クラウド環境を目の前の実物で学習

Raspberry Piにはできないことって、あるだろうか? ここにもまた、この35ドルのマイクロコンピュータの…それを56個重ねた…おもしろい実装がある。PiCloudと呼ばれるこの作品は、Pi用のおあつらえ向きの棚としてLEGOブロックを使っている。(PiとLEGOを組み合わせた作品は、ほかにもあった。)

この作品はグラスゴー大学のコンピュータ科学専科大学院(School of Computing Science)で教材として作られ、学生たちはこれをハックしながら、AmazonのAWSなどで使われているクラウドプラットホームのインフラストラクチャと、その技術(仮想化など)について勉強する。

PiCloudの56のRaspberry Piは、LEGOで作った4段の棚に収められ、16のEthernetラインで接続されている。内14がPiのネットワーク用、2つがスイッチ用だ。各PiボードがRaspbian Linuxを動かし、さらに3つのLXC仮想化コンテナがLinuxのインスタンスを動かす。

PiCloudが動かしているソフトウェアは、“シンプルなワークロード”と呼ばれるlighttpdなどと、実験用の“人工的なワークロード”と呼ばれるlookbusyなどだ。PiCloud上のそのほかの実験的なハッキングとして、libvirtdockerなどもある。Hadoopも動かしているが、これは目下ネイティブのLinuxインスタンス上のみで、LXCのインスタンスではない。

学生の一人が、PiCloudのAWSふうWebコンソールインタフェイスを作った(下図):

PiCloudの作者たちは、これは“永遠に未完の作品だ”と言う。教材としてはたとえば、“libvirtが使えるようになったら”ovirtなどの標準ツールも導入したい。やりたいことが、まだまだある。また教材以外に、これは研究材料でもあり、コラボレーションの素材でもある。詳しくは、プロジェクトのホームページを見てみよう。

PiCloudは、Piが利用者のさまざまな目的やミッションに奉仕することの好例であるとともに、いわゆる“メーカー”たち(参考記事)の人気者であることも示している。Raspberry Pi Foundationは元々、イギリスでもっと多くの子どもたちがプログラミングを学べるために、この低価格の超小型コンピュータを作った。PiCloudも今まさに、そのために役立っているのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータ市場は分析データベースへと進化中: JethroDataがHadoopの弱点克服で$4.5Mを調達

jethrodata

Hadoopをベースとする分析データベースJethroDataが今日(米国時間2/27)、Pitango Venture Capitalが率いる投資ラウンドにより450万ドルを調達した、と発表した。

JethroDataはイスラエルの企業で、Hadoopの、ストレージに対するスケーラビリティと、完全にインデクシングされた列指向型分析データベースのクェリ機能を組み合わせた、サービスを提供している。列指向データベースは、大量のデータに対して複雑なクェリを行うデータウェアハウスシステムで重宝された歴史を持つ。

ファウンダのEli Singerはメールによるインタビューで、同社の差別化要因は、Hadoopにデータを保存して、それらを分析のために取り出す、ややもすれば複雑な工程を、単純化して能力を高めた点にある、と述べた。分析データベースとHadoopが別立てである企業が多いが、それだと、データをスキャンして分析するのに時間がかかりすぎる弱点がある。そのような分析は、結果をリアルタイムで見る方式ではなく、バッチで行われることが多い。Jethroは、クェリをHadoopネイティブで行うことにより、パフォーマンスが高いと主張する。

JethroDataには競合他社も多い、とSingerは言う。いちばん直接的な競合他社はHadaptで、ここもやはり、Hadoopに保存したデータをデータベース的に組織化する手法をとっている。

またClouderaImpalaは、Google Dremelによる高速なフルスキャンシステムでMapReduceをリプレースしている。Dremelはビッグデータ分析におけるGoogleの、MapReduceに次ぐ後継技術だ。Apache Drillをサポートすると発表したMapRも、やはりGoogle Dremelがベースだ。先週はHortonworksが、同社の独自技術であるTezを発表した。Citus Dataにも、Google Dremelによる自社独自の分析データベースがある。それは、PostgreSQLのコアの並行処理でクェリを行う点に、独自のイノベーションがある。

Singerによると、HBaseを使っている企業もある。それは、今のところHadoop上で可利用な唯一のデータベースだ。Drawn to ScaleSplice MachineがHBase派だ。Salesforce.comにはオープンソースのPhoenixプロジェクトがあり、HBase上のSQLを提供している。

さらに、JethroDataと競合する分析データベースとデータウェアハウス企業としては、HP Vertica、EMC Greenplum、IBM Netezza、Teradata Aster、InfoBrightなどがある。

JethroDataではこれまで、ある顧客企業がアルファテストをやっていたが、次の四半期からベータに入り、より多くの企業が利用できるようになる。今社員数は8名だが、年内には25名になるという。

分析データベースの市場は、ビッグデータ分析の次の最先端領域だ。JethroDataらは、Hadoopのアキレス腱対策に取り組んでいる。それは、ビッグデータの集積から、必要なデータを取り出し、分析し、結果をリアルタイムで見せることだ。成功の鍵は、今たくさん雨後の筍している競合他社に対する強力な差別化を、今の、市場が若いうちに確立することだ。そして、大差で先頭を走り続けること。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))