ビッグデータはビッグトラブルか?、…その正しい方向性を見定めるべき時

Abstract 3D network in future

[筆者: Dave Mariani](AtScaleのCEOで協同ファウンダー。)

ビッグデータとビッグデータ分析の世界に最近、二つの重要な展開があった。まず、Tableau(DATA)が決算報告を出したが、EPSはアナリストたちの予想を$0.05下回り、同社の株価は5%下がった。そしてHortonworks(HDP)は売上の低迷を発表し、それにより株価は大幅に下落した。

ビジネスインテリジェンス(BI)やHadoopの世界に、今何が起きているのか? BIやビッグデータの世界が内部崩壊する前に、われわれは遠くの高台に避難すべきか?

何をどう考えていたのか?

市場記事のセンセーショナルな見出しを見て、怖がる必要もないが、しかし、彼らの予想を裏切る業績の背後には、投資家たちやテクノロジー企業を買収しようと考えている人たちが留意すべき重要なトレンドがある。

まず、純粋にパフォーマンスだけを見るとどうか。Tableauはビジネスインテリジェンスのリーダーだ、と多くの人が見ている。売上は前年比で35%も増加した。上場しているデータ分析企業で、昨年こんなペースで成長したところが、ほかにあっただろうか?

これを、業界全体と対比してみよう。Gartnerの予想では、2016年の全世界のIT支出額の成長率は0.0%、すなわち横ばいだ。そんな中で35%の成長は、きわめて異例である。Hortonworksの前四半期はどうか。売上は前年同期比で46%増加している。

一体どういう意味か?

投資家の期待や予想は、頑固だ。テクノロジーバイヤー*や業界のオブザーバーは、(一見成績の良い)両社のパフォーマンスを、業界全体の傾向や見通しと照合したうえで、評価する。〔*: technology buyer, テクノロジー系の企業やその株を買おうとしている人たち、≒テクノロジー指向の投資家。〕

たとえばTeradataも最近、売上を報告したが、同社のビジネスは前年比で約4%縮小した。だからほかの条件が変わらなければ、Hortonworksの売上は2020年までにTeradataを上回るだろう。

ここからどこへ行くのか?

あなたがテクノロジーバイヤーなら、これらの短期的な業績にはとらわれないだろう。あなたが気にするのは、この業界にこの夏、何が起きたかだ。Workdayは7月にPlatforaを買収し、Qlik Techは6月に投資企業Thoma Bravoに吸収された。噂ではAmazonは来月、ビジネスインテリジェンスの視覚化ソリューションをリリースするらしい。もちろんMicrosoftとGoogleには、すでにこの市場向けの製品がある。

視覚化やビジネスインテリジェンスを一社に絞ることは、最近ますます難しい。だから業界のいろんな選手たちの業績を気にするよりは、全体としての彼らの技術の方向性やビジョンに着目すべきなのだ。

たとえばこの市場では、一枚岩的でクローズドなやり方は、きわめて受けが悪い。Platforaのアーキテクチャを見て気づくのは、そのエンドツーエンドの統合に最大のメリットがあることだ。データプラットホームという一方のエンドから、視覚化レイヤという片方のエンドまで、全体が統合化されている。しかしこのアプローチが有効なのは、ユースケースがきわめて特殊で、ユーザーが少数の高度な専門家であるときだ。何十万ものユーザーを対象とする幅広いユースケースのためにデータサービスを提供したい、と考えている一般企業には、向いていない。

しかしTableauは、セルフサービス型ビジネスインテリジェンスというものを開拓し、業界全体をその方向へ向かわせようとしている。MicrosoftやGoogleやAmazonが視覚化市場への参入に熱心なのは、Tableauの成功によって、データをビジネスユーザーの手中に置くことの威力を、思い知らされたからだ。

プラットホームのベンダーは今明らかに、今後成長し栄える市場がこれであることに、気づいている。Tableauが見つけたのは、本当にビジネスインテリジェンスを必要としているのは、日々十分なサービスにも恵まれず日陰に放置されている、9億人を超える情報労働者であることだ。それだけでも、今もっともらしく“ビジネスインテリジェンス”と呼ばれている市場の、約10倍はある。MicrosoftやAmazonがビジネスインテリジェンスの低価格化をトライしていることからもうかがわれるように、明日の業界が必ず目にするのは、BIが、これまで、そんなものとは無縁だと思われていたところで増殖し拡大していく光景だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Strata + Hadoop World 2016に見るビッグデータの最新トレンド、「インメモリ」で「リアルタイム」へ

15366067990_febad7909e_k

[筆者: Josh Klahr](Atscaleのプロダクト担当VP)

今年もまたStrata + Hadoop Worldが始まる。それはいつも、一歩引いてセッションの内容を一望し、ビッグデータの最新の動向を理解するための、良い機会だ。

これまで毎年のようにこのカンファレンス参加してきた人は、このイベントがオープンソースの技術を実験するソフトウェアデベロッパーのための催しから、重要なエンタープライズソフトウェアの大会に変わってきたことを、目撃されただろう。今ではデベロッパーだけでなく、企業の役員たちや、ベンダー、プロフェッショナルなサービスのプロバイダーたちが一堂に会して、この分野の最新の開発について共有し、学習している。

サンノゼで行われる今年の大会の、もっともホットな話題を知るために、この週全体にわたるコンテンツ(教育訓練クラス、キーノート、プレゼンテーションなど)のタイトルに登場する言葉の頻度を数えてみた。当たり前のような言葉(Hadoop, data, analytics, Apacheなど)を取り除いて集計すると、上位の語彙は下図のようになる:

pasted image 0 (10)

このデータをじっくり見ると、ビッグデータ界隈における、いくつかの重要なトレンドが浮かび上がってくるのではないだろうか。

Sparkの採用と関心が成長を続けている: 採用の絶対数では依然としてHadoopがトップだが、このところ、ビッグデータのエコシステムにおけるSparkの成長が著しい。HadoopとSparkは二頭の王座、と言えるかもしれない。とりわけSparkはユースケースの幅が広くて、データのパイプライン処理や、データサイエンスワークロードの並列処理といった分野でも利用されている。

ストリーミングとリアルタイムが“次の大物”: 上図では、“streaming”や“real-time”と並んで、“kafka”、そしてKafkaの商用ディストリビューションである“confluent”が上位に来ている。今企業は、Hadoopのクラスタにデータをバッチでロードし処理することには成功し、次の段階として、リアルタイムのデータ取り入れ、処理、そして分析へと関心を移しつつある。

視覚化は依然として重要: AtScaleのHadoop Maturity Surveyによると、最近の企業はますます、Hadoop上のビジネスインテリジェンスユースケースの展開に力を入れつつある。その関心は、データサイエンスへの投資を上回っている(メディアは今でもデータサイエンスを“セクシー(ナウい!)と持ち上げているけど)。データの視覚化とセルフサービスは、Hadoopの世界においても、今後も重要な投資対象であり続ける。

SQL-on-Hadoopが脇役から主役に昇進: 上図のHadoop World上位語彙のリストにはSQL-on-Hadoopが見当たらない。前年までは、Hiveに始まりImpalaやSparkSQL(そしてそのほかの商用SQL-on-Hadoop製品の数々)に至るまで、これらの技術に対する熱い関心があった。しかしSQL-on-Hadoopは勢いが衰えたのではなくて、Hadoopツールキットにおける“必須品目(must have)”になり、メインストリームの一員になったのだ。Hadoop上のビジネスインテリジェンスに関する最近のベンチマークが示しているように、今ではこれらのSQLエンジンが大規模で分析的なSQLワークロードをサポートしている。

インメモリサブストレート…それは次の最適化か?: 語彙リストの上位に登場している“alluxio”とは、なんだろうか? Alluxioは、最近Tachyonから改名された仮想分散ストレージシステムだ。それはメモリ基板(サブストレート)を利用するストレージなので、クラスタ間のデータ共有がメモリのスピードで行われる。SQL-on-Hadoopエンジンの場合ならそれによってクェリの時間が速くなりパフォーマンスが上がる。Alluxioを採用したBaiduの経験でも、確かに彼らの分析的データ処理がスピードアップしている。

Hadoopの採用が最大の関心: “adoption”と“production”がリストの上位: 今では多くのIT組織が、次世代のデータプラットホームとしてHadoopに大きな期待を寄せ、ワークロードをTeradataのようなレガシーシステムから、もっとローコストでスケーラブルな環境へ移行させつつある。これらの組織にとって重要なのは、彼らのHadoopへの投資が、ビジネスインテリジェンスなどの中核的なビジネス機能によってプロダクションクラスタ(実用・現用システムで使われるクラスタ)の形で採用され、現実にコスト低減に貢献している、と実証することだ。“production”へのこだわりは、試用やパイロットの段階を超えた実践実用レベルへの関心の強さを表している。

クラウド上のビッグデータを忘れるな: AmazonとMicrosoftの二社がリストに登場している。Hadoopへの取り組みが遅かったMicrosoftも、今ではビッグデータの分野で大きな成功を収め、HDInsightのようなサービスを提供している(WindowsではなくLinux上で動く!)。そしてAmazonは前から一貫して、ビッグデータの分野に大きな貢献を果たしている。中でもとくにRedshiftは、S3やEMR(Elastic MapReduce)などの人気サービスを補完するサービスとして、採用が引き続き増加している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))