ビッグデータはビッグトラブルか?、…その正しい方向性を見定めるべき時

Abstract 3D network in future

[筆者: Dave Mariani](AtScaleのCEOで協同ファウンダー。)

ビッグデータとビッグデータ分析の世界に最近、二つの重要な展開があった。まず、Tableau(DATA)が決算報告を出したが、EPSはアナリストたちの予想を$0.05下回り、同社の株価は5%下がった。そしてHortonworks(HDP)は売上の低迷を発表し、それにより株価は大幅に下落した。

ビジネスインテリジェンス(BI)やHadoopの世界に、今何が起きているのか? BIやビッグデータの世界が内部崩壊する前に、われわれは遠くの高台に避難すべきか?

何をどう考えていたのか?

市場記事のセンセーショナルな見出しを見て、怖がる必要もないが、しかし、彼らの予想を裏切る業績の背後には、投資家たちやテクノロジー企業を買収しようと考えている人たちが留意すべき重要なトレンドがある。

まず、純粋にパフォーマンスだけを見るとどうか。Tableauはビジネスインテリジェンスのリーダーだ、と多くの人が見ている。売上は前年比で35%も増加した。上場しているデータ分析企業で、昨年こんなペースで成長したところが、ほかにあっただろうか?

これを、業界全体と対比してみよう。Gartnerの予想では、2016年の全世界のIT支出額の成長率は0.0%、すなわち横ばいだ。そんな中で35%の成長は、きわめて異例である。Hortonworksの前四半期はどうか。売上は前年同期比で46%増加している。

一体どういう意味か?

投資家の期待や予想は、頑固だ。テクノロジーバイヤー*や業界のオブザーバーは、(一見成績の良い)両社のパフォーマンスを、業界全体の傾向や見通しと照合したうえで、評価する。〔*: technology buyer, テクノロジー系の企業やその株を買おうとしている人たち、≒テクノロジー指向の投資家。〕

たとえばTeradataも最近、売上を報告したが、同社のビジネスは前年比で約4%縮小した。だからほかの条件が変わらなければ、Hortonworksの売上は2020年までにTeradataを上回るだろう。

ここからどこへ行くのか?

あなたがテクノロジーバイヤーなら、これらの短期的な業績にはとらわれないだろう。あなたが気にするのは、この業界にこの夏、何が起きたかだ。Workdayは7月にPlatforaを買収し、Qlik Techは6月に投資企業Thoma Bravoに吸収された。噂ではAmazonは来月、ビジネスインテリジェンスの視覚化ソリューションをリリースするらしい。もちろんMicrosoftとGoogleには、すでにこの市場向けの製品がある。

視覚化やビジネスインテリジェンスを一社に絞ることは、最近ますます難しい。だから業界のいろんな選手たちの業績を気にするよりは、全体としての彼らの技術の方向性やビジョンに着目すべきなのだ。

たとえばこの市場では、一枚岩的でクローズドなやり方は、きわめて受けが悪い。Platforaのアーキテクチャを見て気づくのは、そのエンドツーエンドの統合に最大のメリットがあることだ。データプラットホームという一方のエンドから、視覚化レイヤという片方のエンドまで、全体が統合化されている。しかしこのアプローチが有効なのは、ユースケースがきわめて特殊で、ユーザーが少数の高度な専門家であるときだ。何十万ものユーザーを対象とする幅広いユースケースのためにデータサービスを提供したい、と考えている一般企業には、向いていない。

しかしTableauは、セルフサービス型ビジネスインテリジェンスというものを開拓し、業界全体をその方向へ向かわせようとしている。MicrosoftやGoogleやAmazonが視覚化市場への参入に熱心なのは、Tableauの成功によって、データをビジネスユーザーの手中に置くことの威力を、思い知らされたからだ。

プラットホームのベンダーは今明らかに、今後成長し栄える市場がこれであることに、気づいている。Tableauが見つけたのは、本当にビジネスインテリジェンスを必要としているのは、日々十分なサービスにも恵まれず日陰に放置されている、9億人を超える情報労働者であることだ。それだけでも、今もっともらしく“ビジネスインテリジェンス”と呼ばれている市場の、約10倍はある。MicrosoftやAmazonがビジネスインテリジェンスの低価格化をトライしていることからもうかがわれるように、明日の業界が必ず目にするのは、BIが、これまで、そんなものとは無縁だと思われていたところで増殖し拡大していく光景だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

HortonworksのIPOは、IT市場を占うテストケース


果たして公開市場は損失を広げている会社を歓迎するか?Hadoopベンダー、 Hortonworksがもうすぐその答を出そうとしている。

本日(米国時間12/1)同社はIPO価格を決定し、1株当たり12~14ドルで売ると発表した。早期の分析記事によると、提示価格の中間値から算出した同社の評価額は6.59億ドルになる。

TechCrunchが報じたように、その評価額は、同社が以前1億ドルの資金を調達した際の10億ドルよりも低い。同社がこのIPOで、提示価格範囲で調達できる金額は、直近の調達ラウンドよりも少なくなる計算になる。

言い換えれば、Hortonworksは上場にあたって自分を安売りしている。少なくとも今は。S-1文書には、1億ドル集めたい旨が書かれている。その額に達するためには、ざっと見積もっても、HortonworksはIPO向けの1株当たり株価を高くする必要があるだろう。そうすれば集まる金が増え、会社の価値も高まる。

Boxが上場申請した時、その損失に対する懸念は急速な収益成長への興味を上回った。同社が少々その反応に驚いていたことはTechCrunchが最近報じた。どちらの方が正しいかはともかく、BoxはIPOを延期し、先へ進むために再度民間市場から資金を調達した。

今年もっとうまくいったIPOの挑戦もある。Arista Networks等の黒字企業は、成功している。Zendeskは控え目な価格を提示して、以来好調を続けている。MobileIronは、IPO価格前後を行き来した後現在はデビュー時より安値で取引きされている。

上場を控えたのはBoxだけではない。Good Technologyもブレーキを踏んだ。同社は安定した売上成長を見せていたが、大きい損失が続き、待つ決心をした。どちらのケースについても、延期が自由意志によるものかどうかは読者の判断に任せる。

これらがみな水泡に帰しても私は驚かない。妙な話だが、現在のIPO市場はやや保守的だと私は言いたい。上場には2つのことが必要のようだ。売上の急成長と、損失の減少または利益の拡大だ。ここでGAAPか非GAAPかの議論は必要ない。話はそこまで厳密ではない。

HortonworksのIPOが興味深いのは、この会社が上に挙げた上場を棚上げした会社と似ていることだ。売上は伸びているが、それに対する損失の問題は、長期的利益率への圧力を意味している。以前の本誌記事を引用する:

2013年1~9月に、同社の売上は3338万ドルで、前年同期間の1593万ドルから109.5%増えた。サポート定期契約売上は、やや成長が遅く94.97%増だった。専門家向けサービスの売上はさらに急成長した。

一方、同社は損失も大きく拡大している。今年最初の9ヵ月の損失は8673万ドルで、前年同期の4840万ドルから79.19%増えた。これは、Hortonworksの売上が、損失よりも大きいパーセンテージで伸びていることを示している。

ここで見るべきポイントがいくつかある。第1に、Hortonworksは、上に挙げた2つのルールに外れ、損失の減少が達成できていなくてもIPOを実施できるのか。第2に、同社が提示価格を上げ、市場要求の強さを示すのか否かだ。

要するに、われわれはHortonworksのIPOを、現在の市場が欲求と関心に関してどんな状態にあるかを知る指標に使えるということだ。それはわれわれが、Good、Boxその他、上場に踏み切るかどうかの瀬戸際にいる会社の可能性を探るのに役立つ。

最終的な指標は、もちろん、HortonworksのIPOデーだ。もし彼らが出足でつまづけば、他の利益より売上に集中している会社らが上場する可能性は、当分の間小さくなるだろう。

[原文へ]

(翻訳:Nob Takahashi / facebook


AWSがHadoopビッグデータのクェリツールImpalaをサポート

Amazon Web ServicesにImpalaのサポートが加わった。これはClouderaがGoogleに倣って開発したクェリツールで、大量のデータを並列処理によりリアルタイムで処理する。Impalaでは、デベロッパがAWSのElastic MapReduceの上で、SQLふうの言語を使ってクェリを行える。それは高速でアクセス性も良く、オープンソースの分散コンピューティングシステムHadoopでSQLの利用が増えていることを示す一つの例でもある。またImpalaは、より広い視野で見ると、この市場ではGoogleの影響がとても大きいことを示す例の一つでもあり、新しいデータプラットホームや従来よりもリッチなアプリケーションエコシステムを作ろうとする人たちの多くが、Googleの先行製品を参考にしている。

昨年世に出たImpalaの場合は、GoogleのDremelがベースだ。これはビッグデータ分析におけるGoogleの先駆的製品、広大なクラウド宇宙の全域にわたって保存されているデータをクェリするMapReduceの後継製品で、GoogleのPM William Vambenepeによれば、DremelはGoogleのデータ分析プラットホームBig Queryのベースでもある。Hortonworksが発表したTezは、同社のStingerプロジェクトの一環で、HadoopをクェリするデータベースHiveを使用する。Hortonworksによると、Stingerは通常のSQL文によるクェリをペタバイトクラスの大規模データに対し、従来の100倍のスピードで実行する。

Citus Dataの分析データベースも、やはりGoogle Dremelがベースだ。これはPostgreSQLデータベースに対する並列処理で高速なクェリを行う。またMapRはApache Drillを使って大量データに対する高速クェリを提供する。そしてHadoopをベースとする分析データベースJethroDataも、Google Dremelのやり方に倣っている。

“Adaptive Analytical Platform”でこれらすべての企業/製品に先行するHadaptは、オープンソースのApache HadoopにSQLのネイティブ実装を持ち込んでいる。

Dremelの大きな影響力の理由

Hadoopは、ペタバイトのオーダーでデータを処理するTwitterのようなインターネット企業にとって重要な技術だ。また既存の企業にとっても、昨今はデータの量がこれまでになく増加しているので、Hadoopのありがたみが増している。Impalaは、こういった新世代のデータユーザに、利便を提供する。Impalaを使えば、高度な専門技術がなくても、データをクェリできるのだ。

これまでのHadoopは、高度な知識能力を持つ専門技術者でないと扱えないしろものだった。そういう人たちは初期のデータサイエンティストと呼ばれ、プログラミングの能力とクラスタの管理能力、そしてデータ分析の技術を持っていた。そういうビッグデータ技術者たちは、大量のデータをそれぞれ独自のやり方で処理し分析していたインターネット企業から巣立ってきた。たとえばJeff Hammerbacherは、Facebookを辞めてClouderaの協同ファウンダになった。Yahoo!でApache Luceneを使ってオープンソースの検索エンジンを作っていたDoug Cuttingは、そのプロジェクトのためにHadoopを作って利用した。Luceneも、その初期の作者がCuttingだ。そのCuttingも、今ではClouderaで仕事をしている。

Googleは、MapReduceで先陣を切った。それは、ノードの集合を、データを並列処理するためのクラスタとして扱った。複数のクラスタに亙ってデータをマップし、それを縮小(reduce)して答えを得た。

そしてそのMapReduceを超える技術であるGoogle Dremelは、次世代のHadoop技術の柱となる製品だ。それは、そのほかの、HivePigといったオープンソースのプロジェクトとともに、成長し続けるエコシステムを形成し、それらが一体となって、より高級な言語でMapReduceの複雑さ~難解さを抽象化する。

Dremelの強みは、データ分析がバッチでなくリアルタイムの瞬時であることだ。しかしそれは最初、Googleの…主にオンライン広告のための…大規模な関係データベースGoogle F1をクェリすることを、目的として開発された。

ImpalaもDremel同様、その分析能力が売りだ。したがってそれは、ビジネスインテリジェンス(BI)のための視覚化技術Tableauなどの、補完製品とみなされることが多い。Impalaでデータを迅速にクェリし、その結果をBIツールが利用するのだ。

Hadoopそのものは、アプリケーション開発のためのプラットホームではない。しかしImpalaのようなアプリケーションに奉仕するツールの普及および多様化に伴って、Hadoopがアプリケーションのベースとなる機会が今後ますます増えるだろう。たとえば今年の初めに発表されたHadoopの最新バージョンでは、MapReduceを抽象化してスケジューラやリソースマネージャとして使うYarnの新バージョンが同梱された。これによって、それまでのHadoopでは難しかったスケーリングが可能になる。

Hadoopから生まれるアプリケーションのエコシステムは、すでにImpalaやYarnにその兆しがある。どちらのツールもHadoopの外見を単純化し、エンドユーザ(アプリケーションデベロッパ~BIユーザ)の能力を深化する。またConcurrentが商用化したHadoopのためのアプリケーションフレームワークCascadingがある。TwitterEtsyAirbnbなどが、その顧客として名を連ねている。

この市場(ビッグデータアプリケーション市場)は、長年Googleが先頭を走ってきた。しかしHadoopとプラットホームレイヤのイノベーションにより、Googleと後発グループとの差は縮まりつつある。

画像提供: Electric Sheep, Creative Commonsによる)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))