Microsoft、Office 365でPower BIを正式公開―会社内外のビッグデータを分析してビジュアル化できる強力ツール

半年以上にわたって限定プレビューを続けた後、今日(米国時間2/10)、MicrosoftはPower BI for Office 365を正式公開した。

これはOffice 365のエンタープライズ・ユーザー向けの強力なビジネス・インテリジェンス・ツールだ。ユーザーはExcelと同時に利用することによって巨大なデータセットを自然言語で検索し、モデル化して分析することができる。またExcelに加えてPower ViewとPower Mapを使うことで簡単に高度なビジュアル化が可能だ。

私の取材に対してMicrosoftのSQLサーバ・プロダクトのマーケティング担当ゼネラル・マネージャーのEron Kellyが答えたところによれば、「われわれのユーザーの多くはExcelであれば安心感をもって使えるので、Power BIに独自のダッシュボードを与えることはせず、むしろExcelの遍在性を最大限に利用することにした。Power BIによって従来よりはるかに多くのユーザーが企業の意思決定に重要なビジネス・データを効果的に分析できるようになるだろう」とのことだ。

企業内ユーザーはデータ分析を IT部門に依頼して回答を待ち、その回答を見て別の切り口で分析をする依頼する、というサイクルを経る必要がなくなる。Power BIの学習は比較的容易なので、対象となるデータの量が増加し、意思決定がデータ主導型になるにつれてPower BIは大企業に必須のツールとなるだろうとMicrosoftは期待している。

ただ、データ分析がエンドユーザーのセルフサービス化するとしても、データのアクセス管理はIT部門の権限として残される場合が多い。Microsoft は IT部門がデータ・ソースの準備と管理を行うことができるようにしている。

またPower BIは社内のビッグデータを公開されている外部のビッグデータと共に利用できる。エントリー・レベルではMicrosoftのAzure Marketplaceのデータを利用するのが簡単だが、高度なユーザーは独自にREST APIを利用して外部サービスのデータを収集することができる。またODataを利用したサービスとの連携も可能だ。

しかしなんといってPower BIの最大のセールスポイントはQ&Aツールだろう。ユーザーはデータセットに対して自然言語で問い合わせができる。ニューヨーク市がオープンAPIを通じて公開しているデータを調べようとしているとしよう。たとえば「スーパーボウルが開催された日曜日の騒音の苦情を平日と比較する」と入力すると、Power BIがユーザーに代わって適切なクエリーを発行し、その結果を教えてくれる。このテクノロジーはMicrosoft Researchと検索エンジンのBingのチームの共同で開発された。

なおPower BIはOffice 365エンタープライズの契約者に対してのみ提供される。

[原文へ]

(翻訳:滑川海彦 Facebook Google+


AWSがHadoopビッグデータのクェリツールImpalaをサポート

Amazon Web ServicesにImpalaのサポートが加わった。これはClouderaがGoogleに倣って開発したクェリツールで、大量のデータを並列処理によりリアルタイムで処理する。Impalaでは、デベロッパがAWSのElastic MapReduceの上で、SQLふうの言語を使ってクェリを行える。それは高速でアクセス性も良く、オープンソースの分散コンピューティングシステムHadoopでSQLの利用が増えていることを示す一つの例でもある。またImpalaは、より広い視野で見ると、この市場ではGoogleの影響がとても大きいことを示す例の一つでもあり、新しいデータプラットホームや従来よりもリッチなアプリケーションエコシステムを作ろうとする人たちの多くが、Googleの先行製品を参考にしている。

昨年世に出たImpalaの場合は、GoogleのDremelがベースだ。これはビッグデータ分析におけるGoogleの先駆的製品、広大なクラウド宇宙の全域にわたって保存されているデータをクェリするMapReduceの後継製品で、GoogleのPM William Vambenepeによれば、DremelはGoogleのデータ分析プラットホームBig Queryのベースでもある。Hortonworksが発表したTezは、同社のStingerプロジェクトの一環で、HadoopをクェリするデータベースHiveを使用する。Hortonworksによると、Stingerは通常のSQL文によるクェリをペタバイトクラスの大規模データに対し、従来の100倍のスピードで実行する。

Citus Dataの分析データベースも、やはりGoogle Dremelがベースだ。これはPostgreSQLデータベースに対する並列処理で高速なクェリを行う。またMapRはApache Drillを使って大量データに対する高速クェリを提供する。そしてHadoopをベースとする分析データベースJethroDataも、Google Dremelのやり方に倣っている。

“Adaptive Analytical Platform”でこれらすべての企業/製品に先行するHadaptは、オープンソースのApache HadoopにSQLのネイティブ実装を持ち込んでいる。

Dremelの大きな影響力の理由

Hadoopは、ペタバイトのオーダーでデータを処理するTwitterのようなインターネット企業にとって重要な技術だ。また既存の企業にとっても、昨今はデータの量がこれまでになく増加しているので、Hadoopのありがたみが増している。Impalaは、こういった新世代のデータユーザに、利便を提供する。Impalaを使えば、高度な専門技術がなくても、データをクェリできるのだ。

これまでのHadoopは、高度な知識能力を持つ専門技術者でないと扱えないしろものだった。そういう人たちは初期のデータサイエンティストと呼ばれ、プログラミングの能力とクラスタの管理能力、そしてデータ分析の技術を持っていた。そういうビッグデータ技術者たちは、大量のデータをそれぞれ独自のやり方で処理し分析していたインターネット企業から巣立ってきた。たとえばJeff Hammerbacherは、Facebookを辞めてClouderaの協同ファウンダになった。Yahoo!でApache Luceneを使ってオープンソースの検索エンジンを作っていたDoug Cuttingは、そのプロジェクトのためにHadoopを作って利用した。Luceneも、その初期の作者がCuttingだ。そのCuttingも、今ではClouderaで仕事をしている。

Googleは、MapReduceで先陣を切った。それは、ノードの集合を、データを並列処理するためのクラスタとして扱った。複数のクラスタに亙ってデータをマップし、それを縮小(reduce)して答えを得た。

そしてそのMapReduceを超える技術であるGoogle Dremelは、次世代のHadoop技術の柱となる製品だ。それは、そのほかの、HivePigといったオープンソースのプロジェクトとともに、成長し続けるエコシステムを形成し、それらが一体となって、より高級な言語でMapReduceの複雑さ~難解さを抽象化する。

Dremelの強みは、データ分析がバッチでなくリアルタイムの瞬時であることだ。しかしそれは最初、Googleの…主にオンライン広告のための…大規模な関係データベースGoogle F1をクェリすることを、目的として開発された。

ImpalaもDremel同様、その分析能力が売りだ。したがってそれは、ビジネスインテリジェンス(BI)のための視覚化技術Tableauなどの、補完製品とみなされることが多い。Impalaでデータを迅速にクェリし、その結果をBIツールが利用するのだ。

Hadoopそのものは、アプリケーション開発のためのプラットホームではない。しかしImpalaのようなアプリケーションに奉仕するツールの普及および多様化に伴って、Hadoopがアプリケーションのベースとなる機会が今後ますます増えるだろう。たとえば今年の初めに発表されたHadoopの最新バージョンでは、MapReduceを抽象化してスケジューラやリソースマネージャとして使うYarnの新バージョンが同梱された。これによって、それまでのHadoopでは難しかったスケーリングが可能になる。

Hadoopから生まれるアプリケーションのエコシステムは、すでにImpalaやYarnにその兆しがある。どちらのツールもHadoopの外見を単純化し、エンドユーザ(アプリケーションデベロッパ~BIユーザ)の能力を深化する。またConcurrentが商用化したHadoopのためのアプリケーションフレームワークCascadingがある。TwitterEtsyAirbnbなどが、その顧客として名を連ねている。

この市場(ビッグデータアプリケーション市場)は、長年Googleが先頭を走ってきた。しかしHadoopとプラットホームレイヤのイノベーションにより、Googleと後発グループとの差は縮まりつつある。

画像提供: Electric Sheep, Creative Commonsによる)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータによる気候予測のスタートアップ、Climate Corporationをアグリビジネスの巨人モンサントが11億ドルで買収

今日(米国時間10/2)のビッグニュースはアグリビジネスの世界的トップ企業、MonsantoClimate Corporationを11億ドル前後で買収したことだ。Monsantoのプレスリリースでは買収金額は9億3000万ドルとなっているが、投資家からの情報によると、Climate Corprationの従業員引き止めのための優遇策などを加えた買収費用総額は10億ドルを超えるという。

Climate Corporationへの投資家にはFounders FundKhoslaGoogle VenturesNEAIndex VenturesAtomicoが含まれる。このスタートアップは機械学習を利用してビッグデータを解析し、気候変動の予測など農業ビジネスのために必須な情報を提供している。

Monsantoはバイオテクノロジーを利用した新品種の種子を始め農業関連のさまざまな商品とサービスを全世界で提供している。買収されたClimateCorporationは名称をそのままに独立の企業として運営を続ける一方、Monsantoはそのビッグデータ解析による情報を世界の農業関係者に提供していく。

今回の買収の発表は世界最大のアグリビジネスの一つであるMonsantoが第4四半期の決算で 予想以上に大幅な2億4900万ドル(1株当たり0.47ドル)という損失を発表したのと同日だった。

Monsantoはこの買収を長期的な業績回復のための布石の一つと捉えている。Climate Corporationの気候変動監視テクノロジーが地球温暖化などマクロ的スケールにおけるリスクマネージメントに大きく寄与すると考えているわけだ。 Monsantoは年来遺伝子組み換えテクノロジー などによる市場占有で小規模なアグリビジネスを圧倒してきた。Climate Corporationの買収がこれまでのMonsantoの戦略のどこに収まるのか注目される。

こちらはMonsantoのプレスリリース

Climate CorporationのCOO、Greg Smirinは私の取材に対し「この買収は双方にとって理想的だ。周知のように地球気候は近年変動が激しくなっている。われわれは以前からMonsantoに親近感を抱いていた。われわれが開発したデータ解析テクノロジーはMosantoの種子ビジネスにきわめて大きな好影響を与えると確信している」と述べた。

Climate CorporationのCEO、David Friedbergは元Google社員で、Googleの最初の企業買収担当幹部の一人だった。IndexのNeil RimerによるとFriedbergはSkypeの買収を社内で提案したことがあるという。 IndexはClimateに最初の30万ドルのシード資金を提供している。

私はMonsantoの世界戦略担当副社長、Kerry PreeteとFriedbergをわれわれのスタジオに招いてインタビューすることができた。

こちらは昨年、Climateが5000万ドルの資金を調達したときのFriedbergインタビュー。

取材協力:Ingrid Lunden

[原文へ]

(翻訳:滑川海彦 Facebook Google+


64%の企業がすでにビッグデータ技術に投資済みまたは投資の予定あり, 展開配備済みはわずか8%

Gartnerの最新の調査報告によると、企業はビッグデータに積極的に経費を投じているが、まだ、それで何をするのかに関するプランが明確でないところが多い。調査対象の企業の64%が2013年にすでにビッグデータ関連のソリューションを購入をまたは投資を予定しており、2012年の58%に比べ明らかに増加している。その64%の内訳は、30%がすでにビッグデータ技術に投資、19%が来年の投資を予定、15%が2年以内に投資を予定(計64)、となっている。しかし回答企業720社のうち、実際にビッグデータ技術を展開配備しているところは8%足らずである。

ビッグデータは2013年に340億ドルのIT支出を惹起すると予測されているが、ビッグデータによるソリューションに魅力を感じている企業は多いものの、その多くは具体的な導入戦略について検討中の段階である。

Gartnerの調査担当VP Frank Buytendijkは声明文の中で次のように言っている: “ビッグデータに関しては、2013年は実験と初期的展開の年である。この技術の企業による採用はまだ始まったばかりで、すでにビッグデータによるソリューションを展開している企業は回答企業の8%に満たない。20%がパイロット中ないし実験中であり、18%が利用戦略を開発中、19%が研究調査中、そしてそのほかは、予定がない、わからないの層である”。

どのようなビッグデータソリューションを採用するのか、その予算規模は?、等に関して不明確な企業が多い中で、一般的な傾向は次のようになっている: 49%がビッグデータを利用してコスト削減やリスクの早期発見に役立てたい、としている。55%が顧客サービスの向上、42%がビッグデータから得られるインサイトにより製品開発やビジネスモデル開発を支援、23%がビッグデータによる直接的な収益化を目指している。

どの業界にも、すでにビッグデータソリューションに投資している企業や投資を予定している企業はある。とくに熱心なのは、メディアおよび通信企業、銀行、サービス業である。メディアおよび通信業は39%、銀行が32%、サービス業は32%がそれぞれ、ビッグデータにすでに投資を行っている。2年以内に導入予定、とする上位業界は、運輸業が回答企業の50%、保健医療が41%、保険が40%である。回答企業の多くが北アメリカの企業だが、この地域では38%の企業がすでにビッグデータ技術に投資を行っている。対してアジア太平洋地域では、45%が投資の予定ありと答えている。

ビッグデータ投資の戦略や方針がすでに決まっている企業が多い中で、しかし全体の15%は、ビッグデータ技術そのものを目下勉強中と答えている。ビッグデータは言葉の内包も外延もばくぜんと大きいから、それもむしろ当然かもしれない。

Gartnerの調査部長Nick Huedeckerは、次のように言っている: “勉強中と答えた企業はまだ投資の予定のない企業だろう。しかしそれらの企業も、ビッグデータを無視したら取り残される、という意識は持っているようだ”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


GoogleのBigQueryにリアルタイムのストリーミング挿入と時限クェリが加わる

Googleが今日(米国時間9/18)、BigQueryの大型アップデートを発表した。それはクラウドからのサービスで、大量のデータをSQLで分析し、とくに、リアルタイムデータの分析に適している。今日からBigQueryのユーザはイベントをデータベースに、行単位でストリーミングできる。そのためのAPIが今日から提供される。

Googleの説明によると、これによって、従来のようにデータをバッチでアップロードするだけでなく、データが発生し可利用になるたびにリアルタイムでそれらを保存できる。BigQueryが行うビッグデータのバルクロード機能はもちろん使えるが、デベロッパがこの新しいリアルタイム機能を試せるために、2014年1月1日までは無料で使える。そのあとは、データベースに10000行挿入するたびに1セントを払う。データ保存料は1ギガバイトあたり月額0.08ドル、クェリ(バッチクェリ)は処理後のデータ1ギガバイトにつき0.02ドルだ。

この新しい機能は、Googleによれば、リアルタイムで常時大量のデータが発生するオンラインショップや、何百万ものユーザや接続デバイスにサービスを提供するWebアプリケーションに向いている。

また、最前の24時間内の特定範囲のデータだけを調べる、というクェリが新たにサポートされた。BigQueryのクェリは基本的に全列スキャンだが、ほんとうは一部だけ見たいというユーザにとっては時間と費用の無駄だった。リアルタイムデータでは、とくにそんなニーズが多いだろう。たとえば、数時間(数日)前まで分かればよい、とか。

今日のアップデートではさらに、SUM()、COUNT()、AVG()、STDDEV_POP()といった新しいウィンドウや統計機能、そして過去のクェリを見ることのできるブラウザツールも提供された。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


クラウド時代の高機能スプレッドシートをめざすFivetran, 統計やDB機能を充実

Y Combinatorから巣立ち今日(米国時間3/19)ローンチしたFivetranは、スプレッドシートという古酒を21世紀の新しい革袋に入れることをねらっている。とくに力を入れているのが、従来のスプレッドシートが弱かったデータ分析の分野だ。多くの人が今ではスプレッドシートを…相当無駄な時間を投じて…データベースのように利用しているから、Fivetranはスプレッドシートのこれまでの標準的な機能に加えて、SQL的なクェリやMatlabにあるような統計ツールを導入した。

協同ファウンダのGeorge Fraser(CEO)とTaylor Brown(プロマネ)らによると、製品の基本的なコンセプトは、“これまでのスプレッドシートにはプログラミングにできることの50%しかなかったから、残りの50%を持ち込もう”、というものだ。

確かに彼らの言うとおり、ExcelとMatlabの落差は大きすぎる。Fivetranの初期のプロトタイプはかなりMatlab的で一種のプログラミング環境みたいだった。しかし今日ローンチしたものは、通常のスプレッドシートに、高度なデータ分析(回帰分析など)やデータ変換を行うウィザード群と、SQLのselectやjoinの機能を加え、さらにデータのクリーニングやテキストマイニングなどの機能もある。計算はすべてクラウド上(Amazon EC2)で行われるので、ものすごく大きくて複雑なスプレッドシートでも作れる。

チームがこのSaaSスプレッドシートの開発に着手したのは昨年の12月で、現状ではExcelのドキュメントや、CSVやJSONのファイルをアップロードしてすぐに仕事を始められる。チームの長期的プラントしては、このスプレッドシートの表面的な機能(ユーザ体験)を縁の下の本物のデータベースが支える、という形も構想している。Fivetranのパワーを人びとに分かってもらうために、(全米大学バスケ大会)「3月の狂乱」(March Madness)対戦表シミュレータや一連のチュートリアルも提供している。

ユーザは自分のデータをアップロードし、Fivetranの”step”システムを使って操作する。その計算に基づいて、副次的なシートも作られる。これまでのスプレッドシートに比べるとかなり高度だが、Excelの公式(SUM(a,b)など)もそのまま使える。

今チームはスプレッドシート用のユニットテスト(各部分の試験)や改版履歴コントロール機能を開発中だ。

Fivetranの料金体系は、Webのホスティングサービスのそれに似ている。無料では、作れるプロジェクトが5つまで、使えるメモリは1GBまで。月額20ドルのベーシックプランではメモリ5GB、プロジェクト数10。最高は月額80ドルで、メモリは16GBまで使える(非常に大きなスプレッドシートだ)。

全体としてこれは、クラウドコンピューティング時代の新しいスプレッドシートとして、きわめて興味深い取り組みだ。企業の情報部門などには、近年のデータの増加とともに旧来のスプレッドシートではデータ集合に対し歯(刃)が立たなくなっているところも多い。かといって本格的なデータベースや統計パッケージは重すぎる。Fivetranのような高機能化したスプレッドシートに飛びつくところも多いだろう。Fivetranのによると、初期のユーザたちはすでに週あたり数時間の(スプレッドシート雑務の)時間節約を実現しているという。朝から晩までExcelのセルのコピペばっかしやらされている人は、Fivetranを試してみてはどうだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))