Twitter、研究機関向け「Data Grantsプログラム」の申込みを受付中

Twitterは、インフルエンザの流行状況から新年の挨拶など、幅広く蓄積されたデータを、リサーチ目的で一層有効に活用してもらいたいと考えているようだ。それによって世界を明るくしたり、あるいは何か新しい発見をもたらすことができるはずだというわけだ。

そうした目的に向けた活動を活発化するため、Twitter Data Grantsというプログラムを開始する旨のアナウンスがあった(日本語ブログはこちら)。研究ないし教育目的でTwitterで公開された過去のデータにアクセスするためのプログラムで、こちらから申し込むことができる。具体的にデータ提供を行うのは、公式データリセラーのひとつであるGnipだ。

ちなみに、すべての公開データが入手できるというわけではない。Twitterのブログには、日々5億件にものぼるツイートデータを活用して分析を行うことができるとあるが、入手できるデータは申請している特定プロジェクトに関わるもののみとなるようだ。

GoogleやFacebookもNational Institute Of Healthなどと協力して各種データ分析を行っている。Twitterとしては、利用要件を明示して、広く一般からの参加申し込みを受けて、より有効な研究目的を持つ組織にデータを活用してもらおうとしているわけだ。ます最初の利用申込みは3月15日が締め切りとなっている。

Twitterとしては、今回のプログラムを通じて、蓄積されたデータの有効性を広く知らしめていきたい考えなのだろう。決算報告でアナウンスされたように、利用者数は、昨年比で30%の伸びを示しているものの、この3ヵ月での伸び率が3.9%に留まっている。成長速度の鈍化が危惧される中、Twitterno重要性/魅力を訴えていくのは非常に重要なことであるわけだ。成長率については今後も低下していくという見通しもある。企業価値に応じた利益をあげていくだけの広告エンジンとして機能していくために、一層の利用者獲得のための努力が望まれるところであり、このプログラムもそうした方向での活動のひとつと位置付けられるものだ。

原文へ

(翻訳:Maeda, H


Google Cloud Platform–Cloud Storage上でHadoopを簡単に使えるためのコネクタを提供開始

かねてからGoogle Cloud StorageはHadoopに対応しており、デベロッパはデータをここに置くことによって、分散コンピューティングによる高度なデータ分析ができる。そして今日(米国時間1/14)Googleは、新たなコネクタをリリースして、Google Cloud Platform上でのHadoopの利用が、より容易にできるようにした。

クラスタやファシステムの管理をそのGoogle Cloud Storage connector for Hadoop(HadoopのためのGoogle Cloud Storageコネクタ)がデベロッパに代わって行うので、デベロッパは物理レベルの面倒な管理業務から解放され、データの処理に専念できる。

Googleが2003年に開発したGoogle File Systemは、今ではHadoopの土台だ。HadoopはApache Software Foundation(通称Apache)が管理するオープンソースの分散コンピューティング環境で、データをサーバのクラスタ上に分割分散して分散処理によるデータ分析を行う。今ではHadoopのまわりに、多様なソフトウェアやサービスから成るエコシステムが形成され、ClouderaやHortonworksなど多くの企業がそれを支えている。

Google Connector for Hadoopは、Googleの最新のクラウドストレージシステムColossusを使用する。また、シンプルなコネクタライブラリを使用して、Hadoopに直接Google Cloud Storageへアクセスさせ、データ処理を行わせる。

Googleは、このコネクタの利点をいくつか挙げている。HadoopのクラスタをGoogle Cloud Storageが一か所で管理するので、デベロッパはHadoopの使用をすぐに開始できる。Google本体のスケーラビリティを利用するので、可利用性がつねに高い。データのコピーを持つ必要がないので経費節約になる…つまり、バックアップ用にコピーを作るなどは、Google Cloud Storage自身が勝手にやってくれる。

今やHadoopは、ビッグデータ分析の分野における主流派だ。先月の記事でも書いたように、Hadoopは、Twitterなど、毎日ペタバイトのオーダーでデータを処理するインターネット企業にとって欠かせない技術だ。また一般企業でも、処理する情報量の爆発的な増大とともに、やはりHadoopを利用せざるをえなくなっている。

しかしHadoopを本格的かつ有効に利用するためには複雑な技術課題が多く、高度な経験知識をもった技術者を何人も必要とする。そこで今回のGoogle Cloud Storage Connector for Hadoop(Hadoop用のGoogle Cloud Storageのコネクタ)のようないわば‘仮想技術者’がいろいろ登場することによって、Hadoopを誰もが気軽に使えるものに、していく必要があるのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


API管理サービスのApigeeがビッグデータ分析~将来予測の新進InsightsOneを株取引がらみで買収

今日(米国時間1/1)InsightsOne買収を発表したAPI管理・分析サービスのApigee が、SECへの提出書類で、買収手段には2050万ドルの株式取引も含まれる、と公表した。

今日のそのRegistration Dと呼ばれる提出書類には、買収と関連して2050万ドルの株取引が行われた、と書かれている。Apigeeの声明文では、それは新たな資金調達ラウンドを終了したのではなく、InsightsOneの買収に関連する登録書類だ、と言っている。買収額は記されていないが、両社間の株式取引にはSECへの登録が必要なのだ。

2005年以降Apigeeが調達した資金総額は1億750万ドルであり、これには今回の2050万ドルの株式取得は含まれていない。かつてのSonoa SystemsからApigeeに改名した同社は、API管理サービスを提供するクラウドゲートウェイを開発した。7月に同社は、BlackRock, Inc.やAccentureなどから3500万ドルを調達している。

ビッグデータを分析してその将来傾向を予測するInsightsOneを買収したことによりApigeeは、複数のデータソースの中にパターンを見つける機能をサービスに含めることができる。たとえば保険医療サービスとそのAPIを提供しているApigeeの顧客ユーザは、顧客の不満が生じそうな動向を事前に把握し、対策できるだろう。

一方3年前に創業されたInsightsOneは、2012年にNorWest Venture Partnersと数人のエンジェル投資家から430万ドルを調達している。

Apigeeにとっては、今年が正念場になる。買収されて大金を手にする可能性もあり、あるいはIPOかもしれない。今回ビッグデータ分析企業を買ったのは正解と思えるが、問題はそれを魅力として、今後ユーザが格段に増加するか否かだ。

(画像提供: Flickrより。)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


DatameeerがシリーズDで$19Mを調達, Hadoopとデータ分析/BIの市場は成熟期に入る

データ分析市場のブームが始まっている。Clouderaなどのビッグデータ企業が提供するHadoopディストリビューションが成熟し、またリアルタイムのデータ処理ができるようになって有用性も増した。今では安価な日用雑貨のようなハードウェアを集めてクラスタを作り、データの分散処理を行い、その結果を分析する。そして顧客たちはHadoopとデータ分析を組み合わせたデータハブを作って、それまでのデータウェアハウス技術よりも安上がりな代替技術を備えようとしている。

Datameerは、このようなトレンドに乗じようとしているビジネスインテリジェンス(BI)企業だ。同社は今日、Next World Capital(NWC)が率いるラウンドにより、1900万ドルの資金を調達した。これには、WorkdayCiti Ventures、そしてSoftware AGが新たに参加し、既存の投資家Kleiner Perkins Caufield & ByersRedpoint Venturesも参加した。今回のシリーズDのラウンドにより、同社の獲得資金総額は3660万ドルになった。

Datameerの技術はMapReduceをその内部で利用し、データをノードのクラスタにマッピング、さらにそれを縮小してデータの統合化やデータ分析、データの視覚化などのアプリケーションへ供給する。HadoopはDatameerのデータハブとして機能し、BIのためのプラットホームを提供する。

Searsなどのモデル企業はDatameerのこのようなデータ処理構造を、クレジットカードの不正防止に利用し始めている。また、機械類の予防的メンテナンスや、広告料金の設定の最適化などにも使われている。

これらのユースケースは、Hadoopの真価を実証している。企業はますます、自社独自のデータハブの構築に巨費を投じるようになっている。NWCのパートナーBen Fuは、今週行った電話インタビューでこう語った。

“われわれは、Hadoopの利用が一つの山場にさしかかった、と感じている”、Fuはそう言った。“しかも今のトレンドは、今後数年は続くだろう”。

NWCはヨーロッパで顔を広め、このデータ分析市場に関して企業にカウンセリングを行うアドバイザー組織を構築した。オープンソース製品を幅広く利用していることもあって、同社にとっての機会は急速に開けつつある。

“企業の理解と取り組みのペースは合衆国よりも速い”、とFuは言った。

データ分析とその上のBIの市場は、今ブームになりつつある。したがってDatameerの競合他社もたいへん多い。新進のHadaptKarmasphereなどのほかに、Tableau SoftwareJaspersoft、それにMicroStrategyなども、この分野での競争相手だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


AmazonのリアルタイムデータストリーミングサービスKinesisが公開ベータへ, 問題点も露呈

AmazonのリアルタイムデータストリーミングサービスAmazon Kinesisが、公開ベータに入った。デベロッパがこのサービスを利用すると、クラスタ群の面倒なお世話を自分ですることなく、単純にリアルタイムアプリケーションを構築展開できる。しかし、新しいタイプのリアルタイムアプリケーションプラットホームと喧伝されてはいるものの、11月に行われたAWSのRe:Inventカンファレンスでローンチして以来今日まで、いくつかの欠点も浮かび上がってきた。

AWSのKinesisは、毎秒何千ものデータストリームをストリーミングする。デベロッパは、データの量やデータソースの数を制限されず、必要に応じて自由にスケールアップ/ダウンができる。AmazonのCTO Werner VogelsはRe:Inventのステージで、このプラットホームは、多数/多種類のセンサがいろんなやり方で情報を送信しているようなところでのデータ処理で真価を発揮する、と述べた。彼は、センサを利用してデータを記録するアプリケーションは今後各方面で増えるだろう、と言った。たとえば建設現場では、Kinesisが送ってくるデータを見ながら、コンクリートを基礎に流し込むベストのタイミングを判断できるだろう。

Kinesisは複数の可利用性ゾーンに対応でき、またそれらの複製も可能なので、高い可利用性を提供できる。データを複数のストリームにシャーディングでき、一つの分割単位が毎秒1000回のライト(書き込み)トランザクションと最大20のリード(読み取り)トランザクションを扱える。

下のKinesis入門ビデオは、Dellのクラウド担当シニアディレクターBernard Goldenが先週作ったものだ。

AWSはKinesisを、Hadoopに代わるものと位置づけているが、Hadoopは主に、既存の大量データをバッチで処理するためのフレームワークだ。またHadoopとその周辺には多様な要素から成るエコシステムがあり、たとえばその一員であるYarnは、コンピューティングリソースをクラスタで管理し、リアルタイム処理にも対応するので、リアルタイムアプリケーションのベースになりえる。

またG Gordon Worley IIIはブログで、KinesisはTwitterがオープンソースしているデータ処理ツールStormに似ている、と言っている。〔記事: Amazon Kinesis compared to Storm〕

Kinesisを試用したWorleyは、Kinesisはエラスティックで、負荷に応じて自動的にスケールするからEC2のクラスタを自分で管理する負担がない、と言っている。Amazonの主張どおりなら、KinesisはStormのやや面倒なセットアップに比べて相当簡単に、クラスタの運用ができるだろう、と彼は書いている。

同じくWorleyは、AWSはHadoopのバッチ処理に比べて敷居は低いが、しかし全体的に見てKinesisは、複雑なデータストリームの統合化には向いていない、とも言っている。

しかしKinesisの欠点は、個々のKinesisアプリケーションが単一のプロシジャで成り立っているため、Stormにできるような複雑な処理は、複数のKinesisアプリケーションを互いに接続しないとできないことだ。ぼくには、この点が心配だ。

Kinesisは、データをストリーミングする点で、従来のデータ分析サービスに比べて新しいと言える。しかしAWSは必ずしもその始祖ではないし、またデータ分析分野のリーダーでもない。オープンソースのコミュニティには今でもさまざまなオプションが増えつづけており、それらは、AWSとそのプロプライエタリなインフラストラクチャに、十分代わりうるものだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


AWSがHadoopビッグデータのクェリツールImpalaをサポート

Amazon Web ServicesにImpalaのサポートが加わった。これはClouderaがGoogleに倣って開発したクェリツールで、大量のデータを並列処理によりリアルタイムで処理する。Impalaでは、デベロッパがAWSのElastic MapReduceの上で、SQLふうの言語を使ってクェリを行える。それは高速でアクセス性も良く、オープンソースの分散コンピューティングシステムHadoopでSQLの利用が増えていることを示す一つの例でもある。またImpalaは、より広い視野で見ると、この市場ではGoogleの影響がとても大きいことを示す例の一つでもあり、新しいデータプラットホームや従来よりもリッチなアプリケーションエコシステムを作ろうとする人たちの多くが、Googleの先行製品を参考にしている。

昨年世に出たImpalaの場合は、GoogleのDremelがベースだ。これはビッグデータ分析におけるGoogleの先駆的製品、広大なクラウド宇宙の全域にわたって保存されているデータをクェリするMapReduceの後継製品で、GoogleのPM William Vambenepeによれば、DremelはGoogleのデータ分析プラットホームBig Queryのベースでもある。Hortonworksが発表したTezは、同社のStingerプロジェクトの一環で、HadoopをクェリするデータベースHiveを使用する。Hortonworksによると、Stingerは通常のSQL文によるクェリをペタバイトクラスの大規模データに対し、従来の100倍のスピードで実行する。

Citus Dataの分析データベースも、やはりGoogle Dremelがベースだ。これはPostgreSQLデータベースに対する並列処理で高速なクェリを行う。またMapRはApache Drillを使って大量データに対する高速クェリを提供する。そしてHadoopをベースとする分析データベースJethroDataも、Google Dremelのやり方に倣っている。

“Adaptive Analytical Platform”でこれらすべての企業/製品に先行するHadaptは、オープンソースのApache HadoopにSQLのネイティブ実装を持ち込んでいる。

Dremelの大きな影響力の理由

Hadoopは、ペタバイトのオーダーでデータを処理するTwitterのようなインターネット企業にとって重要な技術だ。また既存の企業にとっても、昨今はデータの量がこれまでになく増加しているので、Hadoopのありがたみが増している。Impalaは、こういった新世代のデータユーザに、利便を提供する。Impalaを使えば、高度な専門技術がなくても、データをクェリできるのだ。

これまでのHadoopは、高度な知識能力を持つ専門技術者でないと扱えないしろものだった。そういう人たちは初期のデータサイエンティストと呼ばれ、プログラミングの能力とクラスタの管理能力、そしてデータ分析の技術を持っていた。そういうビッグデータ技術者たちは、大量のデータをそれぞれ独自のやり方で処理し分析していたインターネット企業から巣立ってきた。たとえばJeff Hammerbacherは、Facebookを辞めてClouderaの協同ファウンダになった。Yahoo!でApache Luceneを使ってオープンソースの検索エンジンを作っていたDoug Cuttingは、そのプロジェクトのためにHadoopを作って利用した。Luceneも、その初期の作者がCuttingだ。そのCuttingも、今ではClouderaで仕事をしている。

Googleは、MapReduceで先陣を切った。それは、ノードの集合を、データを並列処理するためのクラスタとして扱った。複数のクラスタに亙ってデータをマップし、それを縮小(reduce)して答えを得た。

そしてそのMapReduceを超える技術であるGoogle Dremelは、次世代のHadoop技術の柱となる製品だ。それは、そのほかの、HivePigといったオープンソースのプロジェクトとともに、成長し続けるエコシステムを形成し、それらが一体となって、より高級な言語でMapReduceの複雑さ~難解さを抽象化する。

Dremelの強みは、データ分析がバッチでなくリアルタイムの瞬時であることだ。しかしそれは最初、Googleの…主にオンライン広告のための…大規模な関係データベースGoogle F1をクェリすることを、目的として開発された。

ImpalaもDremel同様、その分析能力が売りだ。したがってそれは、ビジネスインテリジェンス(BI)のための視覚化技術Tableauなどの、補完製品とみなされることが多い。Impalaでデータを迅速にクェリし、その結果をBIツールが利用するのだ。

Hadoopそのものは、アプリケーション開発のためのプラットホームではない。しかしImpalaのようなアプリケーションに奉仕するツールの普及および多様化に伴って、Hadoopがアプリケーションのベースとなる機会が今後ますます増えるだろう。たとえば今年の初めに発表されたHadoopの最新バージョンでは、MapReduceを抽象化してスケジューラやリソースマネージャとして使うYarnの新バージョンが同梱された。これによって、それまでのHadoopでは難しかったスケーリングが可能になる。

Hadoopから生まれるアプリケーションのエコシステムは、すでにImpalaやYarnにその兆しがある。どちらのツールもHadoopの外見を単純化し、エンドユーザ(アプリケーションデベロッパ~BIユーザ)の能力を深化する。またConcurrentが商用化したHadoopのためのアプリケーションフレームワークCascadingがある。TwitterEtsyAirbnbなどが、その顧客として名を連ねている。

この市場(ビッグデータアプリケーション市場)は、長年Googleが先頭を走ってきた。しかしHadoopとプラットホームレイヤのイノベーションにより、Googleと後発グループとの差は縮まりつつある。

画像提供: Electric Sheep, Creative Commonsによる)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


データ分析サービスのClearStory Dataはバックエンド技術とユーザ体験の二本の足を強化

ClearStory Dataがローンチしたデータ分析サービスは、同社によれば、この世界初めての、コアなバックエンドサービスに、リッチなビジュアルと共有機能を組み合わせたサービスだ。

まずバックエンド技術の特徴は、同社のCEO Sharmila Shahani-Mulliganによれば、内部的データと外部データをインメモリデータベースの技術を利用して統合していることだ。データは、関係データベースのデータでも、NoSQLのデータでも、あるいはPOSの情報や外部からの人口統計データでも、何でもよい。複数のタイプのデータを前処理なしでいきなり処理し、その結果を現代的なユーザインタフェイスで提示するのだ。

インメモリ技術のために利用しているのが、オープンソースのクラスタリングシステムApache Sparkだ。SparkはYahoo!、Autodesk、Grouponなども利用している。これにより、インメモリコンピューティングに特有のサブセカンド(sub-second, 1秒未満)の応答が達成できるのだ。

顧客は、データを表示するストーリーをダッシュボードで作る。ストーリーはその後の共有や改変ができる。

ClearStoryは、資金的基盤がしっかりしている。Andreessen Horowitz、Kleiner Perkins、Khosla Ventures、Google VenturesなどそうそうたるVCたちが同社に900万ドルを投資しているのだ。ユーザインタフェイス/ユーザ体験の部分は、かつてGoogleでGoogle Analytics、Google AdWords、各種のGoogle Adsプロダクトなどを手がけたDouglas van der Molenが担当した。そしてGoogleを名誉退職したShona Brownが、ストラテジックアドバイザー(戦略顧問)だ。

数テラバイトものデータを扱うデータ分析企業にとっては、ユーザ体験が今でも最大の課題だ。あるアナリストは、ClearStoryにいちばん近い競合相手はDatameerだろう、と言う。ただしユーザ体験で相当頑張っているClearStoryも、セットアップや利用がそれほど簡単ではない。市場に出回っているソーシャルなコラボレーションサービスに比べると、まだかなり面倒だ。

今日の市場でいちばん重要なのが、ユーザから見ての、直感的なわかりやすさ/使いやすさだが、データ分析サービスの多くがそれを欠いている。LovelyHerokuの協同ファウンダMario Danicが最近のインタビューで言ったことを、ここで思い出す。ソフトウェア開発の今日の最上位の課題は、ユーザの心に響く体験を作り出すこと。これに尽きる、と。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


AWSがHadoopとそのエコシステムをアップデートしてビッグデータ分析プラットホームのサポートを一新

Amazon Web Services(AWS)がそのElastic Map ReduceプラットホームをアップデートしてHadoopの新バージョンを導入するとともに、同社のデータ分析エコシステムのサポートをアップデートした。

Elastic Map Reduceは、大量のデータを処理するためのAWSのプラットホームだが、ほかのベンダと違ってAWS自身がホストするサービスであるため、Hadoopとその周辺のエコシステムを、それらオープンソースのプラットホームの更新とペースを合わせてアップデートすることが重要な課題となる。

今回の最新アップデートではHadoopを2.2にアップデートし、またHivePigHBaseMahoutなどHadoopの同伴技術もバージョンを新たにした。AWSのブログ記事によると、それによりクラスタの始動時間が短縮され、データの拡大能力が強化され、マッパーM7がサポートされるようになった。MapR M7は、Hadoop用のNoSQLデータベースHBaseの有料サービスだ。

Elastic Map Reduceの今回のアップデートには、 Hadoop MapReduceの次世代アーキテクチャYARNのサポートも含まれる。

これはAWSの大型アップデートであり、Hadoopだけでなく、ここ数年で築かれたエコシステム全体をカバーする。Hadoopはファイルベースのシステムであり、データベースとしてはHBaseを必要とする。Pigは分析プラットホームであり、多くの場合ETL(Extract/Transform /Load)処理で使われ、そしてMahoutは機械学習ライブラリだ。

AWSはこのところ、データ分析技術のサポートにますます力を入れている。先週BI(ビジネスインテリジェンス)プロバイダのJaspersoftがElastic Map Reduceをサポートするようになったのも、そのことの成果だ。JasperはAWSとの付き合いが長く、AWS Marketplaceで入手できるそのサービスには、すでに500社の顧客企業がいる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))