ビッグデータはビッグトラブルか?、…その正しい方向性を見定めるべき時

Abstract 3D network in future

[筆者: Dave Mariani](AtScaleのCEOで協同ファウンダー。)

ビッグデータとビッグデータ分析の世界に最近、二つの重要な展開があった。まず、Tableau(DATA)が決算報告を出したが、EPSはアナリストたちの予想を$0.05下回り、同社の株価は5%下がった。そしてHortonworks(HDP)は売上の低迷を発表し、それにより株価は大幅に下落した。

ビジネスインテリジェンス(BI)やHadoopの世界に、今何が起きているのか? BIやビッグデータの世界が内部崩壊する前に、われわれは遠くの高台に避難すべきか?

何をどう考えていたのか?

市場記事のセンセーショナルな見出しを見て、怖がる必要もないが、しかし、彼らの予想を裏切る業績の背後には、投資家たちやテクノロジー企業を買収しようと考えている人たちが留意すべき重要なトレンドがある。

まず、純粋にパフォーマンスだけを見るとどうか。Tableauはビジネスインテリジェンスのリーダーだ、と多くの人が見ている。売上は前年比で35%も増加した。上場しているデータ分析企業で、昨年こんなペースで成長したところが、ほかにあっただろうか?

これを、業界全体と対比してみよう。Gartnerの予想では、2016年の全世界のIT支出額の成長率は0.0%、すなわち横ばいだ。そんな中で35%の成長は、きわめて異例である。Hortonworksの前四半期はどうか。売上は前年同期比で46%増加している。

一体どういう意味か?

投資家の期待や予想は、頑固だ。テクノロジーバイヤー*や業界のオブザーバーは、(一見成績の良い)両社のパフォーマンスを、業界全体の傾向や見通しと照合したうえで、評価する。〔*: technology buyer, テクノロジー系の企業やその株を買おうとしている人たち、≒テクノロジー指向の投資家。〕

たとえばTeradataも最近、売上を報告したが、同社のビジネスは前年比で約4%縮小した。だからほかの条件が変わらなければ、Hortonworksの売上は2020年までにTeradataを上回るだろう。

ここからどこへ行くのか?

あなたがテクノロジーバイヤーなら、これらの短期的な業績にはとらわれないだろう。あなたが気にするのは、この業界にこの夏、何が起きたかだ。Workdayは7月にPlatforaを買収し、Qlik Techは6月に投資企業Thoma Bravoに吸収された。噂ではAmazonは来月、ビジネスインテリジェンスの視覚化ソリューションをリリースするらしい。もちろんMicrosoftとGoogleには、すでにこの市場向けの製品がある。

視覚化やビジネスインテリジェンスを一社に絞ることは、最近ますます難しい。だから業界のいろんな選手たちの業績を気にするよりは、全体としての彼らの技術の方向性やビジョンに着目すべきなのだ。

たとえばこの市場では、一枚岩的でクローズドなやり方は、きわめて受けが悪い。Platforaのアーキテクチャを見て気づくのは、そのエンドツーエンドの統合に最大のメリットがあることだ。データプラットホームという一方のエンドから、視覚化レイヤという片方のエンドまで、全体が統合化されている。しかしこのアプローチが有効なのは、ユースケースがきわめて特殊で、ユーザーが少数の高度な専門家であるときだ。何十万ものユーザーを対象とする幅広いユースケースのためにデータサービスを提供したい、と考えている一般企業には、向いていない。

しかしTableauは、セルフサービス型ビジネスインテリジェンスというものを開拓し、業界全体をその方向へ向かわせようとしている。MicrosoftやGoogleやAmazonが視覚化市場への参入に熱心なのは、Tableauの成功によって、データをビジネスユーザーの手中に置くことの威力を、思い知らされたからだ。

プラットホームのベンダーは今明らかに、今後成長し栄える市場がこれであることに、気づいている。Tableauが見つけたのは、本当にビジネスインテリジェンスを必要としているのは、日々十分なサービスにも恵まれず日陰に放置されている、9億人を超える情報労働者であることだ。それだけでも、今もっともらしく“ビジネスインテリジェンス”と呼ばれている市場の、約10倍はある。MicrosoftやAmazonがビジネスインテリジェンスの低価格化をトライしていることからもうかがわれるように、明日の業界が必ず目にするのは、BIが、これまで、そんなものとは無縁だと思われていたところで増殖し拡大していく光景だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSの新サービスKinesis AnalyticsはリアルタイムストリーミングデータをSQLで分析できる

aws_logo

AmazonのクラウドコンピューティングプラットホームAWSが今日(米国時間8/11)、リアルタイムのストリーミングデータをSQLのクェリで容易に分析できるツール、Kinesis Analyticsを立ち上げた。Kinesis Analyticsは、AWSのリアルタイムストリーミングデータプラットホームKinesisを利用するユーザー向けだ。デベロッパーは、Kinesisを使ってストリーミングデータを取り込み、それを自分たちのアプリケーションで使用する。

Kinesis Analyticsを使えば、入ってくるデータを継続的なSQLクェリでフィルタしたり操作することによって、データをアプリケーションがすぐにでも使える形にできる。

AWSのチーフエヴァンジェリストJeff Barrが今日書いているところによると、通常のデータベースクェリは基本的に静的なデータを見る。しかしストリーミングデータに対してKinesis Analyticsでクェリするようになると、このモデルは二義的になる。“クェリは長期にわたって行われ、その間にデータは、新しいレコードや観察結果、ログのエントリーなどとして毎秒何度も々々々変わる。データをそんな動的なものとしてとらえるようになると、クェリによるそれらの処理がとても理解しやすいことが、分かるだろう。パーシステントな(持続的な)クェリを作って、次々と到着するレコードを処理するのだ”、と彼は語る。

2016-08-11_0907

Kinesis Analyticsの主な対象はリアルタイムデータだが、ときには、ちょっとした遅れを挿入したり、到着したデータを集めてバッチ処理した方が、その集まったデータに見られるトレンドを見つけやすくなる。そんなユースケースのためにKinesis Analyticsでは、“ウィンドウ(窓)”をセットできる。窓には三種類あり、周期的なレポート用にはタンブリングウィンドウ、モニタしてトレンドを見つける用途にはスライディングウィンドウ、この二つでだめなときには、時間間隔を任意に設定できるカスタムウィンドウを作れる(何らかの対話性に基づく間隔でもよい)。

Kinesis Analyticsは、AWS Lambdaのように、サーバーレスで処理を行うAWSのプロジェクトの一環だ。このサービスの標準的なユースケースはIoTのアプリケーションだと思われるが、そのほかに、オーディエンス追跡システムや、広告の取り替え処理、リアルタイムのログ分析などにも好適だ。しかもSQLがそのまま使えるので、特殊なSDKをインストールしたり、新しい言語を勉強する必要はない。

このサービスは現在、AmazonのEU(アイルランド)、US East(ノース・ヴァージニア)、US West(オレゴン)の各リージョンで使える。料金は処理量に応じての従量制だ。処理量の単位は、仮想コア一つ、メモリ4GBの仮想マシン一台相当とする。それは、アメリカのリージョンでは1時間あたり11セント、アイルランドのデータセンターでは12セントだ。ただし料金は可変であり、たとえば追加のデータをバーストで処理するような場合には変わる。デフォルトの料金は、毎秒1000レコードというデータ取り込み量を想定している。サービスのスケールアップ/ダウンは、必要に応じて自動的に行われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSのElastic MapReduce 5.0.0は16種のHadoop関連プロジェクトをサポートしてビッグデータ処理の実用性を増強

15558382212_a81f9f4a3a_k

Amazon Web Services(AWS)が今日(米国時間8/2)リリースを発表したElastic MapReduce(EMR) 5.0.0は、16種のHadoop関連プロジェクト(派生プロジェクト)をサポートする。

AWSはつねに、顧客がクラウド上の多様なエンタープライズ機能を管理するための、さまざまなツールのアップグレードに努めているが、今回のものは、Hadoopでビッグデータプロジェクトを管理しているデータサイエンティストやその関連部署に向けられている。

この分野に強いForresterのアナリストMike Gualtieriの言葉を借りると、Hadoopとは基本的に、“大きなデータ集合を保存し処理するためのインフラストラクチャ的ソフトウェア”だ。

従来のデータ処理ソフトウェアと違ってHadoopは、データの保存と処理を複数のノード(数千に及ぶこともある)に分散して行い、それにより大量のデータ処理を効率化する。

しかもそれは、Apacheのオープンソースプロジェクトとして、きわめて人気が高い。かわいいマスコットまである(上図)。Hadoopを軸に大きなエコシステムができていて、プロジェクトの改良充実にたえず貢献している。また、そこから生まれる派生プロジェクト(“Hadoop関連プロジェクト”)も多い。

今のHadoopはそれらの派生プロジェクトを積極的に取り入れて、ユーザーによる大量のデータ集合の管理を助けている。たとえばHiveはHadoopのためのデータウェアハウスであり、HBaseはスケーラビリティの高い分散データベースだ。AWSは、どちらもサポートしている。

Hadoopによるシステムの実装やデータ処理を助ける企業も続々生まれていて、有名なところとしてはCloudera, Hortonworks, MapRなどが、Hadoopの独自の商用化バージョンを提供している。

AWSは昨年の7月以来、AWS本体ツールの継続的アップデートとともにHadoop関連プロジェクトのサポートのピッチを上げ、顧客の選択の幅を広げようとしている(下図)。

[EMRの更新履歴(4.7.0まで)とHadoop関連プロジェクトのサポート]

Chart showing updates to EMR tool since January, 2016.

図表提供: AWS.

AWSは、もうひとつのApacheオープンソースプロジェクトBigtopも使ってきた。これは、プロジェクトのページによると、“Hadoopのビッグデータコンポーネントの、インフラストラクチャのエンジニアやデータサイエンティストによるパッケージングとテストと構成を助ける”、という。AWSのブログ記事によると、AmazonはBigtopの開発のペースアップに協力し尽力してきた。

以上は、データサイエンティストと、クラウド上の大型データ集合を扱う社員たちにとって、良いニュースだ。今回のリリースではオプションの数がぐっと増え、AWS上で有用なHadoop関連プロジェクトを、より見つけやすくなったと言えるだろう。

ビッグデータは今やAWS上の重要なユースケースだから、Hadoop本体はもちろんのこと、ストレージやコンピューティングを効率化するためのさまざまなツールを必要とする。〔そしてそのニーズの多くをさまざまなHadoop関連プロジェクトがサポートする〕。ユーザーから見ると、AWSのようなクラウドベースのインフラストラクチャは文字通りエラスティック(elastic, 伸縮自在)であり、オンプレミスの場合のように、扱いデータの増加とともに新たなリソースの手配をいちいち心配する必要がない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

オープンソースのインメモリNoSQLデータベースとして好評のRedis Labsが、シリーズC $14Mの調達へと成長

shutterstock_141093727

インメモリキー-ヴァリューストア(KVS)データ構造(NoSQL)Redisをオープンソースで提供しているRedis Labsが今日(米国時間7/21)、Bain Capital VenturesCarmel Ventures率いるシリーズCのラウンドで1400万ドルを調達したと発表した。同社の前からの投資家Silicon Valley BankとTamar VenturesのマネージングパートナーZohar Gilonも、このラウンドに参加した。

これはこの前の1500万ドルのシリーズBに次ぐもので、Redis Labsの調達総額はこれで総額4200万ドルに達した。

同社によると、新たな資金は営業とマーケティング努力の拡大、およびエンタープライズユーザーベースの一層の強化に投じられる。

2011年に創業された同社は今日さらに、今年の前半で新たなエンタープライズ顧客600社を獲得したことを発表した。今や顧客は多様な業種業態に広がり、著名な企業としてはGroupon, TD Bank, Verizon, HipChat, DBS, Ring Central, Menards, Twitch, flydubaiなどの名が挙げられる。

Redis Labsは現在の成長市場であるインメモリデータストアで、その成長に乗じて業績を上げている典型的な企業のひとつだ。同社は最近、高価なRAMではなくSSDを利用するRedisデータストアとしてRedis on Flashをローンチした。IoTに注目する企業が増え、リアルタイムのデータ分析の高効率化が求められるようになると、Redisのような高速なデータストアへのアクセスがますます重要になる。

今日の発表声明でRedis LabsのCEOで協同ファウンダーのOfer Bengalは語る: “今は、過去のどんな時期にも増して、企業は大量のデータ集合を高速に処理できるソリューションを必要としている。われわれがRedis Labsを創業したのは、Redisの力をエンタープライズ向けに拡大し、複雑巨大なデータの管理を単純化したいという彼らのニーズに応えることを、使命とするためだ。Redisの真価を理解するエンタープライズとデベロッパーがこのところ増えているので、今回のシリーズCの投資により、ハイパフォーマンスなRedisソリューションの、さらなるイノベーションとそのデリバリ能力を、拡大強化していきたい”。

オープンソースをベースとするエンタープライズ企業の通例として、Redis Labsもその中核的データベース技術は無料で提供している。しかしクラウドからの完全な管理サービスプロダクトRedis Cloudや、そのRedis Labs Enterprise Clusterのサポートなどは、同社のメインの収益源である。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MicrosoftとBoeingがAzure上のビッグデータシステムで提携、Cortanaで利用インタフェイスも合理化迅速化

????????????????????????????????????

Microsoftと航空機メーカーのBoeingが今日(米国時間7/18)発表したパートナーシップにより、BoeingはMicrosoftのAzureをベースとするビッグデータ分析を導入することになり、それにより各種航空機情報を提供するサーバーがより賢くなるだけでなく、そのエンドユーザーインタフェイスとしてMicrosoftのパーソナルアシスタントCortanaが使われる。空を飛ぶことで人間に知恵を提供するとなると、Cortanaはいよいよ本物のCortanaに近くなるのかもしれない。

“同社のデジタル航空機アプリケーションをAzure上で集中管理方式にすることによりBoeingは、複数のソースから提供される大量のデータ集合を分析できるようになる”、とMicrosoftのスポークスパーソンは説明する。そのビッグデータ分析システムは、Boeing社だけでなく、航空会社も利用する。“航空会社の人びとはCortana Intelligence Suiteを使って、より効果的な在庫管理や、パイロットやキャビンクルーのより効率的なスケジューリング、将来予測に立ったスケジュールの先取り的なメンテナンスなどができるようになる。このような、予測的スケジュールメンテナンスができないと、急な繁忙時にフライトの遅れが発生したりする”。

パートナーシップが実際に動き出すのは、まだこれからだが、その目標の第一はBoeingや顧客航空会社のいくつかのタスクを迅速化することだ。第二に、Cortanaが飛行機に乗って飛ぶわけではない。むしろ、Boeingのシステムで毎日のように処理される大量の情報とそこから得られるデータを、時間のロスなく利用でき、また利用者が毎度々々同じ、面倒で時間のかかるデータ取得作業を繰り返さなくてもすむようにすることが、目標だ。エンドユーザーにおける、日々の情報取り出し/利用作業を簡便迅速にする、それがCortanaの役目だ。

たとえば集中管理されるようになった‘スマートスケジューラー’は、どの飛行機がいつ、メンテナンスを必要とするかを知っている。しかも、並行して、スタッフの可用性やフライトのスケジュール、積荷の積載負荷にも目を配るから、人間がこれらの要素をいちいち調べて作るスケジュールよりも適切なスケジュールを、しかも、人間がやるよりもずっと早く、現場や管理者に提供できる。

航空機などのシステムがこうやってインターネットに接続されるようになると、サイバー犯罪が心配される。MicrosoftとBoeingもそのことはよく承知しているから、システムの設計で最優先するのがセキュリティだ、と言っている。

たとえば、なかなか現れない自分の手荷物について、係(人間)に文句を言って人間に調べてもらうより、それが今どこにあるかCortanaが教えてくれた方が早いし便利だ。時間を無駄にせずにすむ。でもそんなのはまだ遠い先の話で、今回のパートナーシップでまず最初にやることは、両社による準備的な共同作業だ、とMicrosoftは言っている。年内は、それで手一杯だそうだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビッグデータ、そして没落するデータの利用者

humanpie

編集部注: Ben SchlppersはHappyFunCorpの共同創業者だ。

ソーシャルサービス同士の権力争いも落ち着きを見せはじめ、その闘いの勝者が明確になってきた。一握りの企業がソーシャルデータの95%をコントロールする今、インターネットは以前よりも自由のない、閉ざされたものになった。

過去15ヶ月間、ビックデータという用語(そして、その背後にあるコンセプト)をよく耳にするようになった。ここで言うビックデータとはユーザーに関するデータのことだ。ユーザー・データとは主にソーシャル・サービスによって集められたデータであり、企業のAPIの範囲に限ってそれを活用することで、より効果的にアプリやビジネスを構築することができる。

その基本的な例をいくつか見てみよう。まずはFacebookだ。ディベロッパー、製品アーキテクト、起業家などは、Facebookから入手できるユーザーの名前や写真、シェアされた記事などのデータを利用することができる。スナップチャットから入手できるのはシェアや、送信されたアイテムの数などのデータだ。同様に、インスタグラムからはユーザー、ハートの数、コメントなどのデータを、テスラからは車両の位置、エネルギー消費量、最後に充電された時間などのデータを入手することができる。このような例は他にもたくさんある。現代のウェブサービスはデータをオープンにやり取りすることによって成り立っているのだ。

良いアプリとは何か。私はよくそう聞かれる事がある。それに対するシンプルな答えは、データだ。もっと詳しく言えば、ユーザーに関するメタデータのことだ。ユーザーこそがデータの源泉なのだ。アプリがどれだけ優れていても、ユーザーが存在しないアプリは機能しない。それだけのことだ。

そして、こう答えると決まって「では、どうすればユーザーを獲得できるのでしょうか?」と聞かれる。

その質問に対する答えは何百万ドルもの価値がある。既存のソーシャル・サービスを通せばユーザーを獲得することができるというのはよくある宣伝文句だ。ただ、それが本当だとは限らない。実際のところ、ユーザーを買うことはできないのだ。自身のサービスやソフトウェアと既存のソーシャル・サービスをつなぎ合わせるだけでは、ユーザーを獲得することはできないし、何も生み出すことはできないのだ。人々は既存のサービスにそっくりなソフトウェアが次々と生み出されることにうんざりしている。アプリを成功させるうえで一番難しいのは、ユーザーを獲得し、そして維持することなのだ。

かつて、ディベロッパーはFacebookのソーシャルグラフを大いに活用することができた。その貴重なデータを多種多様のウェブサービスやプロダクトに落とし込むことができた。そして、最も重要なことに、かつては帯域制限にひっかかることなく大量のデータをリクエストすることができた。

ここ数年で、その状況は大きく変わった。悲しいことではあるが、その変化を示すための例としてZyngaの栄光と没落の歴史を見てみよう。かつてFacebook Graph APIから利用できるデータの範囲が広かったころ、Zyngaは他のどの企業よりもGraph APIを有効に活用し、素晴らしいゲームビジネスを構築することに成功した。しかし、それから数年が経ってFacebookがGraph APIに制限を加えたことで、Zyngaはその著しい成長のスピードと同じ速度で坂を真っ逆さまに転がり落ちることになったのだ。同様に、大小さまざまな企業がその変化に対応することができずに没落していった。

サービスやプロダクトを開発する者たちは、キャンディーに惹きつけられるお金のない子どものようにソーシャル・ビックデータをもつ企業に夢中になってしまう

サービスやプロダクトを開発する者たちは、キャンディーに惹きつけられるお金のない子どものように、ソーシャル・ビックデータをもつ企業に夢中になってしまう。そこで与えられるのは、終わりのない誘惑と甘い香りの解決策だけだ。大企業のAPIドキュメンテーションには、ハイクオリティなデータを素早く手に入れられるだとか、ソーシャルグラフを隅々まで活用することができるなどと大きく謳われている。しかし、現実の世界と同じように、悪魔は細部に宿っている。注意した方がいい。もちろんデータを素早く入手することは可能だろう。しかし、いったんAPIの速度が制限されることになれば、ナイアガラの滝のように流れ込んでいたデータは、蛇口から漏れる水ほどにしか流れてこないだろう。データを素早く取得できなければ成り立たないようなビジネスは、その時どうなるだろうか。

ソーシャルグラフから細部に渡るデータを取得して、それを分析することも可能だろう。しかし、そこで得られる位置情報、ユーザーの人物情報、ハートの数、シェア数などのデータのなかで、本当に有益なものは全体の1%から3%ほどだろう。その小さな金塊にどれほどの価値があるだろうか。

結局、Zyngaやその他の名もなき企業たちが私たちに教えてくれたのは、他社のビジネスがあって初めて成り立つビジネスを構築するべきではないということだ。そのようなビジネスは他社の気まぐれに大きく左右されてしまうからだ。データを持つ企業は、その公開範囲を自由にコントロールすることができる。そして、それによって企業の寿命や利益性が大きく左右されることになるのだ。

「ソーシャル」はビジネスの特徴の1つではあるが、それだけが頼りのビジネスを構築してはならない

草原が広がる約束の地はもう存在しない。データを無制限にリクエストしたり、ユーザー・データの細部まで入手できる時代はもう終わったのだ。その地に踏み入っていじめを受けるだけで済むなら良いほうだ。インターネットやソーシャル・ビジネスが成熟した今、本当の価値は壁で囲まれた庭に隠されているのだ。ユーザー・データを自社のコアビジネスに限定して活用すれば広告料を稼ぎ出すことが可能だからだ。広告戦略が他社よりも優れている企業もなかにはいるが、対価を払えば不自由なくデータにアクセスできるというビジネスモデルは絶滅していく。そのモデルを支えるにはマーケットが小さすぎるのだ。

それでは、これからのビジネスはどうあるべきであろうか?まだ可能性は大きく残されている。ただ、これまでとは違った見方で物事を考えればいい。「何かアイデアを思いついてみせる。それを成長させるために既存のコミュニティを活用する」と考えるだけではダメだ。今のAPIはそれを許してはくれない。最近のところでいえば、UberやPinterest、Snapchatがそうであるように、起業家は新しいコミュニティを活用する方法を考え出さなければならない。より縦断的で何かに特化したビジネス、つまり「共通の趣味・関心を持つ者のコミュニティ」を利用したビジネスだ。

「ソーシャル」はビジネスの特徴の1つではあるが、それだけが頼りのビジネスを構築してはならない。土台もなしにソーシャルの事ばかりを考えていても、誰にも利用されることのない「非ソーシャル」なアプリしか生まれない。それは間違いなく、失敗への近道なのだ。

[原文]

(翻訳: 木村 拓哉 /Website /Twitter /Facebook

 

Microsoftはビッグデータ分析とその応用プロダクトでApache Sparkに総賭けの姿勢

microsoft_cloud_logo

Microsoftが今日(米国時間6/6)、オープンソースのクラスターコンピューティングフレームワークApache Sparkに、本格的にコミットしていく、と発表した

昨年、Sparkのエコシステムの浅瀬でちょっと足を濡らしてみたMicrosoftは、本日、いくつかのSpark関連サービスのプレビューを終えてそれらを公式ローンチし、またR Server for Hadoopのオンプレミスバージョンが今後はSparkベースになる、と発表した。R Serverの‘R’は、今人気がますます盛り上がっている、ビッグデータ分析とモデリングのためのオープンソースの言語Rを指す。

spark-logo-trademark

さらにMicrosoftは、R ServerのAzureクラウドバージョンR Server for HDInsightがこの夏の終わりごろプレビューを終えて一般公開される、と発表した。なおSpark for Azure HDInsightは今すでに一般公開されていて、Hortonworksによる管理を伴うSparkサービスがサポートされる。MicrosoftのビジネスインテリジェンスツールPower BIも、今ではSpark Streamingをサポートし、ユーザーはリアルタイムデータをSparkから直接Power BIへプッシュできる。

これらの発表はすべて、Microsoftが“Sparkへの幅広いコミットによってMicrosoftのビッグデータ分析プロダクトを強化する”、と述べる方針の実現(の一環)だ。プロダクトはPower BIやR ServerだけでなくCortana Intelligence Suiteも含まれる。こちらはMicrosoftの複数のビッグデータ分析サービスを併用し、いくつかの機械学習ツールも利用するシステムだ。〔Cortana参考サイト

今週サンフランシスコで行われるSpark SummitでMicrosoftは、Google, Baidu, Amazon, Databricksなどなどと共にスポットライトを浴びる気でいる。その席でMicrosoftは、同社がSparkに今どれだけ入れ込んでいるか、その情報をシェアする、と約束している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビジネスとしてのビッグデータ分析はいまやっと“成熟期”に入ったばかり、今後の機会が大きいとVCたちは見ている

binary_data

[筆者: Harry-Stebbings](ベンチャーキャピタルに関するポッドキャストThe Twenty Minute VCのファウンダーでホスト。)

最近のインタビューで、“ビッグデータはいよいよこれからが本番だ”、と語ったFirstMark CapitalのMatt Turckによると、2010年にはシリーズA市場のわずか2.5%にすぎなかったビッグデータへの投資が、今ではVCたちの投資全体の7.5を超えている。そもそも、ビッグデータ分析という業態は、今どんな段階にあるのか? そして最近のAI熱は、ビッグデータと密接な関係があるのか?

エコシステムの成熟

ビッグデータのこれまでの進化には、三つの段階がある。まず、その形成期は、LinkedIn, Facebook, Googleなど少数の大手インターネット企業が支配した。彼らのもとに大量のデータセットが集まり、彼らにはレガシーのインフラストラクチャがないから身軽で、しかも優秀な技術者がたくさん集まった。彼らは、これからの世界が必要とする技術を作っていった。

そして次の第二の段階では、これら大手インターネット企業の技術者たちがスピンオフして自分のスタートアップを作り始めた。彼ら未来のユニコーン(10億ドル企業)候補たちは、彼らと同じくレガシーのインフラストラクチャのない企業を顧客にしていった。Turckはこう言う: “レガシーのインフラストラクチャがないことこそが、彼らのイノベーションの基盤だった”。そして彼らにとってイノベーションの最先端といえば、ビッグデータスタートアップの初期の顧客になることだった。

そして、今現在の第三段階が、大きな課題をもたらしている。さまざまな企業がビッグデータ技術に関心を持ち、採用を始めているが、それ自体はまだ、ごくごく初期的な段階なのだ。

第二段階のときと違って、今の企業は多くがレガシーのインフラストラクチャを抱えているから、ビッグデータ革命によって失うものも多い。彼らの既存のインフラストラクチャは、企業の現状をまがりなりにも支えているから、ビッグデータにとって大きなハードルになる。ビッグデータには、彼らの経営の核であるレガシーのインフラストラクチャを捨ててもよいほどの価値があることを、どうやって説得すべきか?

Turckは語る: “これからのスタートアップの仕事は、データによって企業経営がよりスマートになることを、顧客に理解してもらうことだ”。また、“大企業が率先してビッグデータ分析を試行的に導入していくこと、スタートアップがそこから食い込んでいくことも重要だ”。

AI

AIの最近の進歩と、それに対する関心の高まりは、ビッグデータがなければありえなかった。Turckは極論する: “AIはビッグデータの子どもだ”。たとえば深層学習(deep learning)のアルゴリズムが作られたのは数十年前だが、それが今や、大量のデータ集合を扱う実用技術になり、コストも実用レベルまで下がってきている”。だから、“AIが可利用性の高い実用技術へと開花結実してきたのも、ビッグデータのおかげだ”。

ビッグデータエコシステムの成熟と進化がこれからも続けば、AIがビッグデータのアプリケーション層の成長を導く触媒になるだろう。でも、ビッグデータは、今はまだまだ初期的な段階だから、今後のアプリケーションの多様化とともに、ビジネス機会としてのビッグデータはますます大きくなっていくだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Crayの最新のスーパーコンピューターはOpenStackを搭載してオープンソースのビッグデータツールを動かす

ms_front-right-angle_0293_high-res

Crayといえば、スピードとパワーをつねに連想するが、同社の最新の計算怪物Cray Urika-GX systemは、ビッグデータのワークロード専用に設計されている。

しかも、そのベースシステムはオープンソースのクラウドプラットホームOpenStackで、その上でビッグデータを処理するHadoopやSparkなどのツールが仕事をする。

Seymour CrayがCray社を立ち上げたのは70年代の初頭だが、その後のコンピューティングの進化を同社はよく認識している。作っているのは相変わらずハイパワーのコンピューターだが、今ではクラウドコンピューティングという強敵がいる。人びとはコンピューターを買わずに、その都度必要なぶんだけ利用して、料金を払う。

そんな強敵と戦うためにUrkia-GXは2ソケットのIntel® Xeon® v4(Broadwell)を16〜48ノード搭載し、そのコア数は最大で1728、DRAMは最大で22TBを持つ。ストレージは35TB PCIe SSDと192TBのハードディスクを、ローカルストレージとして持つ。

しかも同機はCray特有の高速マシンであるだけでなく、差別化要因として、顧客企業が求めるビッグデータ処理ソフトウェアの完全セットアップサービスがつく。HadoopやSparkだけでなく、顧客が求めるものは何でもインストールし、構成し、実働状態にしてから納品する。

また、同社独自のグラフデータベースCray Graph Engineを標準で搭載する。それは複雑なビッグデータ分析において、既存のグラフソリューションの10倍から100倍は速いそうだ。グラフというデータ構造はいろんなものを複雑に結びつけたり比較する処理に適していて、たとえばeコマースのサイトでは顧客が買った物と似たものを見つけたり、逆にそんな物が好きな友だちをソーシャルネットワーク上に見つけたりという、複雑な関係操作が得意だ。

今クラウドに人気があるのは、ITの面倒な部分をすべてクラウドベンダが肩代わりしてくれるからだ。そのことを認識しているCrayは、クラウド上のSaaSではなく、オンプレミスのSaaS、ソフトウェアのインストールから構成〜実働までのすべての面倒を見るサービスに徹しようとしている。それは、Urika-GXとビッグデータ分析に関して、上で述べたとおりだ。しかもソフトウェアのアップデートも、半年ごとにCrayがすべてやってくれる。

顧客が日常使うのはシステムの最上層のアプリケーションだが、その下の部分は顧客企業のIT部門を手伝いながら主にCrayが担当する。ソフトウェアのメンテナンスのお世話をする、という言葉は単純だが、顧客が上の方の、Crayがせっかくインストールしたソフトウェアの上で黙って勝手なことをして、おかしなことになっても、その修復がCrayの仕事になるから、たいへんだ。

でもCrayのプロダクト担当SVP Ryan Waiteによると、同社は顧客と一緒に仕事をしていく歴史が長いから、どんなにわかりにくい問題が生じても十分対応できるそうだ。

費用についてWaiteは、そのほかのビッグデータ処理ソリューションとそれほど変わらない、と言う。みんなが考えるほど、高くはない、と。ということは、Crayコンピューターの数百万ドルというプライスタグは、すでに過去のものか。彼によると、価格はハードウェアとソフトウェアの組み合わせ次第で変動幅が大きい、という。言い換えると、顧客のニーズ次第、ということだ。

というわけで、まだ表面的なことしか分からないが、Crayが今でも強力なコンピューターのプロバイダであることは確実だ。かつてのギークたちの夢は、どっこい、まだ生きていた。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビッグデータ分析に基づくユーザー認証がパスワードに代わるテクノロジーに

2016-05-04-behavior-authentication

〔編集部〕この記事はソフトウェア・エンジニア、フリーのライターのBen Dicksonの寄稿。TechCrunch Networkのメンバー。Dicksonはビジネス、テクノロジー、政治について頻繁に執筆している。他のTechCrunch記事:

事実は非常に明白だ。オンラインでわれわれの身元を認証する手段としてパスワードはもはや安全ではない。何年も前から2段階認証(two-factor authentication=2FA)や多段階認証(multi-factor authentication=MFA)身元確認と各種の詐欺の防止のためにが用いられているが、その有効性については議論が続いている。

テクノロジーの進歩に伴い、モバイル産業では新しい認証手法が多数開発された。現在、メーカーやベンダーは生体認証、物理的ドングル、ソフトウェア鍵、モバイルに送信されるコードなどさまざまなソリューションを利用している

しかし、たとえば、多段階認証にも固有の問題がある。たとえば頻繁に多段階認証を要求することはユーザー体験を大きく悪化させる。あまりに負担をかけるなら、ユーザーは2段階認証を無効化してしまうだろう。さらにハッカーは多段階認証の弱点を突く方法を開発している。

こうした問題は2FAやMFAの広汎な採用を妨げるハードルとなっている。その結果、何百万ものアカウントが低いセキュリティーのまま放置され、簡単に乗っ取られる結果も招いている。 年間の統計では、2015年だけでも、ハッカーの攻撃により、2000万ものアカウント情報がリークしている。

いかにしてユーザー体験の著しい悪化を招くことなくセキュリティーを強化できるかというのは非常に重要な課題だ。ビッグデータ処理と高度なデータ分析という最近のコンピューティングの2つのトレンドに解決のヒントがあるかもしれない。

ユーザーにとって負担にならない方法で日頃のオンライン上の行動をモニターし、収集したデータにもとづいて悪意ある第三者が利用することが不可能なそれぞれのユーザーに固有なプロフィールを作成することができる。次の段階は、こうしたプロフィールに基づいてオンライン上の活動をモニターし、悪意のあるいは不審なアクセスを選別することだ。通常と異なるそうした活動が探知された場合のみ、ユーザーはパスワード入力などの身元認証手段を用いることを求められる。

このモデルはいくつもの点で優れている。ユーザー・プロフィールはパスワードや物理的なドングルのように忘れたり、故障したりすることがない。ユーザーは無意味な文字列を暗記するよう努力しなくてもすむ。盗まれたり、不正にコピーされたりしない。指紋や虹彩のパターンでさえコピーしようと思えばできる。最大の利点はユーザーに無用な負担をかけないところだだろう。

この手法が可能になったのはデータの保管コストが劇的に低下し、クラウドサービスが広く普及したためだ。またデータ収集技術の進化し、ウェブとモバイルのプラットフォームも一般ユーザーに浸透した。ビッグデータ認証というコンセプトはすでにいくつかの例で有効性が実証されている。

オンライン・アカウントを不正から守るためのユーザー認証にとって最良なのは階層的アプローチだ。

— Jess Leroy TeleSignプロダクト管理担当上級副社長

モバイル・セキュリティーの分野でTeleSignは代表的な企業の一つだが、最近、ユーザー行動のモニターをベースにしたユーザー認証テクノロジー、Behavior IDプラットフォームをリリースした。これはソフトウェア開発のためのSDKで、ウェブやモバイル・アプリの開発者はBehavior IDキットを用いて各ユーザーのオンライン上の行動のバイオメトリクスを分析することができる。パブリッシャーはユーザーがパスワードなどの伝統的手法でログインした後でもこのデータを用いて連続的にモニターを続け、乗っ取りなどの不正を検知することができる。

Behavior IDは多用な側面からユーザー行動のデータを収集する。これにはユーザーがパスワードを入力するパターン、アクセスしてくるデバイス、デバイスのスクリーンにタッチする頻度やタッチする箇所などのインターフェイス利用方法などが含まれる。これらのデータにもとづいてユーザー行動の「デジタル指紋」が生成される。TeleSignのCEO、Steve Jillingsは「ユーザー・プロフィールはTeleSignのクラウド・プラットフォームに格納され、クライアントのシステムはこのデータをユーザー認証に役立て、乗っ取りやなりすましを検知した場合には即座にブロックすることができる。われわれの目的はユーザー体験の悪化を招くことなく、身元確認の精度をアップさせることだ」と説明する。

Behavior IDはログイン中のユーザー行動をそのユーザーの過去の行動と比較して「類似性指数(similarity score)」を計算する。これにより身元の確実な正当なユーザーには負担をかけずにシステムがユーザーの不審な行動を検知する能力を大きく高める。詐欺や乗っ取りが疑われるときはシステムはユーザーに2段階認証などを改めて求めることができる。

「オンライン・アカウントを不正から守るためのユーザー認証にとって最良なのは階層的アプローチだ」とTeleSignプロダクト管理担当上級副社長の Jess
Leroy は考えている。

サイバーセキュリティーのトップ企業、RSAAdaptive Authenticationは統計的データ処理を応用した身元認証プラットフォームのもう一つの例だ。Adaptive Authenticationはユーザーの使用するデバイス、OS、ブラウザーの種別などのデータを収集して保存する。これとユーザーの普段の行動パターンのデータを自己学習能力のある統計エンジンに読み込ませ、リアルタイムでログインしているユーザーの危険度を判定する。

この処理はすべてバックグラウンドで行われるのでユーザー側では通常何もする必要がない。ただしユーザー行動に異常が見られたり、新しいデバイスや危険なロケーションからアクセスしてきた場合はセッション中断などの措置が取られる。

ユーザー行動の異常が示されたた場合、どのような行動に対しするシステムの反応内容は 密かにセキュリティー部門に警告を発することから再ログインの要求、あるいはアクセスの完全なブロックなどパブリッシャー側で予め決めておく必要がある。

データ・アナリティクスとビッグデータはオンライン企業にとって不可欠のツールだ。。これらのテクノロジーを適切に活用することで、コストを低下させながらセキュリティーとユーザー体験をアップさせ、最終的にはビジネスの収益性の改善に結びつけることが強く期待されるようになっている。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

インメモリデータベースのMemSQLがシリーズCで$36Mを調達、ビッグデータの優等生に投資家が殺到

23827490171_fb0198e989_k

インメモリデータベースのMemSQLが今日、シリーズCで3600万ドルを調達したことを発表した。新規の投資家REVとCaffeinated Capitalがラウンドをリードし、既存の投資家Accel Partners, Khosla Ventures, Data Collective, IA Ventures, およびFirst Round Capitalも参加した。

2011年にY Combinatorを卒業したMemSQLは、リアルタイムのビッグデータ分析という分野で活躍するスタートアップで、ほかにHortonWorks, Cloudera, Couchbase, SAP Hana, MongoDBなどもこの分野の主力選手たちだ。MemSQLの協同ファウンダーEric Frenkielによると、今回のラウンドは参加を希望する投資家が多すぎて、一部のコンペティターの評価額が下がってる中でのその現象はきわめて異例だ、という。

“ビッグデータの市場は今急速に、主記憶とApache SparkやKafkaのようなソフトウェアを使うリアルタイム処理に移行しつつある。企業はMemSQLを利用して、データのリアルタイムストリームを作り、分析できる”、と彼は語り、加えて、“ビッグデータ企業の多くが、オープンソースのモデルで投資家の高い期待に応えようとして、苦戦している。しかもそのやり方は、結構高くついている”、と述べた。MemSQLには、そのデータベースの無料バージョンはあるがソフトウェアはオープンソースではない。

Frenkielによると、同社の現在の顧客の中には、Pinterest, Comcast, Akamai, Kellogg’sなどがいる。

今回の新しいラウンドは、2014年の3500万ドルのシリーズBに次ぐ資金調達だ。同社の調達総額は、これで8500万ドルになる。計画では今回の資金は、“技術、営業、サポート、マーケティングなどすべての分野で成長を加速していくために”、使われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Strata + Hadoop World 2016に見るビッグデータの最新トレンド、「インメモリ」で「リアルタイム」へ

15366067990_febad7909e_k

[筆者: Josh Klahr](Atscaleのプロダクト担当VP)

今年もまたStrata + Hadoop Worldが始まる。それはいつも、一歩引いてセッションの内容を一望し、ビッグデータの最新の動向を理解するための、良い機会だ。

これまで毎年のようにこのカンファレンス参加してきた人は、このイベントがオープンソースの技術を実験するソフトウェアデベロッパーのための催しから、重要なエンタープライズソフトウェアの大会に変わってきたことを、目撃されただろう。今ではデベロッパーだけでなく、企業の役員たちや、ベンダー、プロフェッショナルなサービスのプロバイダーたちが一堂に会して、この分野の最新の開発について共有し、学習している。

サンノゼで行われる今年の大会の、もっともホットな話題を知るために、この週全体にわたるコンテンツ(教育訓練クラス、キーノート、プレゼンテーションなど)のタイトルに登場する言葉の頻度を数えてみた。当たり前のような言葉(Hadoop, data, analytics, Apacheなど)を取り除いて集計すると、上位の語彙は下図のようになる:

pasted image 0 (10)

このデータをじっくり見ると、ビッグデータ界隈における、いくつかの重要なトレンドが浮かび上がってくるのではないだろうか。

Sparkの採用と関心が成長を続けている: 採用の絶対数では依然としてHadoopがトップだが、このところ、ビッグデータのエコシステムにおけるSparkの成長が著しい。HadoopとSparkは二頭の王座、と言えるかもしれない。とりわけSparkはユースケースの幅が広くて、データのパイプライン処理や、データサイエンスワークロードの並列処理といった分野でも利用されている。

ストリーミングとリアルタイムが“次の大物”: 上図では、“streaming”や“real-time”と並んで、“kafka”、そしてKafkaの商用ディストリビューションである“confluent”が上位に来ている。今企業は、Hadoopのクラスタにデータをバッチでロードし処理することには成功し、次の段階として、リアルタイムのデータ取り入れ、処理、そして分析へと関心を移しつつある。

視覚化は依然として重要: AtScaleのHadoop Maturity Surveyによると、最近の企業はますます、Hadoop上のビジネスインテリジェンスユースケースの展開に力を入れつつある。その関心は、データサイエンスへの投資を上回っている(メディアは今でもデータサイエンスを“セクシー(ナウい!)と持ち上げているけど)。データの視覚化とセルフサービスは、Hadoopの世界においても、今後も重要な投資対象であり続ける。

SQL-on-Hadoopが脇役から主役に昇進: 上図のHadoop World上位語彙のリストにはSQL-on-Hadoopが見当たらない。前年までは、Hiveに始まりImpalaやSparkSQL(そしてそのほかの商用SQL-on-Hadoop製品の数々)に至るまで、これらの技術に対する熱い関心があった。しかしSQL-on-Hadoopは勢いが衰えたのではなくて、Hadoopツールキットにおける“必須品目(must have)”になり、メインストリームの一員になったのだ。Hadoop上のビジネスインテリジェンスに関する最近のベンチマークが示しているように、今ではこれらのSQLエンジンが大規模で分析的なSQLワークロードをサポートしている。

インメモリサブストレート…それは次の最適化か?: 語彙リストの上位に登場している“alluxio”とは、なんだろうか? Alluxioは、最近Tachyonから改名された仮想分散ストレージシステムだ。それはメモリ基板(サブストレート)を利用するストレージなので、クラスタ間のデータ共有がメモリのスピードで行われる。SQL-on-Hadoopエンジンの場合ならそれによってクェリの時間が速くなりパフォーマンスが上がる。Alluxioを採用したBaiduの経験でも、確かに彼らの分析的データ処理がスピードアップしている。

Hadoopの採用が最大の関心: “adoption”と“production”がリストの上位: 今では多くのIT組織が、次世代のデータプラットホームとしてHadoopに大きな期待を寄せ、ワークロードをTeradataのようなレガシーシステムから、もっとローコストでスケーラブルな環境へ移行させつつある。これらの組織にとって重要なのは、彼らのHadoopへの投資が、ビジネスインテリジェンスなどの中核的なビジネス機能によってプロダクションクラスタ(実用・現用システムで使われるクラスタ)の形で採用され、現実にコスト低減に貢献している、と実証することだ。“production”へのこだわりは、試用やパイロットの段階を超えた実践実用レベルへの関心の強さを表している。

クラウド上のビッグデータを忘れるな: AmazonとMicrosoftの二社がリストに登場している。Hadoopへの取り組みが遅かったMicrosoftも、今ではビッグデータの分野で大きな成功を収め、HDInsightのようなサービスを提供している(WindowsではなくLinux上で動く!)。そしてAmazonは前から一貫して、ビッグデータの分野に大きな貢献を果たしている。中でもとくにRedshiftは、S3やEMR(Elastic MapReduce)などの人気サービスを補完するサービスとして、採用が引き続き増加している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビッグデータ技術者のいない中小企業のためにHadoopクラスターを5分で立ち上げるGalactic Exchangeがオープンソースでスタート

shutterstock_230176666

Galactic Exchangeというクールな名前の企業が今日(米国時間3/24)ステルス状態を脱(ぬ)けて、そのすばらしいアイデアを披露した。同社の主張によると、同社はHadoopのクラスターを5分でセットアップし、即、動かせるようにする。複雑で面倒で難しいと言われていたHadoopが、誰にも簡単に使えるようになるのなら、それはすごいことだ。

同社のプロダクトClusterGXは、今週サンノゼで行われたStrata+HadoopWorldでベータでリリースされた。クラスターの上で動くアプリケーションとそのためのデータは、ユーザーが自分で用意しなければならない。

このプロダクトは、Hadoopのクラスターを短時間で立ち上げられるだけではなくて、オープンソースだから今後ユーザーの寄与貢献で改良していけるし、しかも無料で使える。ただしビッグデータを扱うHadoopはデータ用に大量のストレージを必要とするから、そのためのクラウドインフラにはお金がかかる。

Galactic Exchange自身も慈善事業ではないから、今後はセキュリティ機能やビジネス関連の機能を完備したエンタプライズバージョンを、収益源にしていくつもりだ。そのためにはもちろん、最初の無料のオープンソースバージョンが、企業ユーザーにとって魅力的でなければならない。

同社のプロダクトは、Hadoopとビッグデータ分析を導入したいが技術者がいない、という典型的な中小企業が主なターゲットだ。CEOのRob Mustardeは、そう説明する。

どれぐらい、簡単なのか? Mustardeによると、スマートフォンにアプリをインストールするぐらい簡単だそうだ。インストール先は、WindowsでもLinuxでもOS Xでもよい。あるいはベアメタル(つまり専用クラウドサーバー)でもよい。

同社は長期的には、HadoopやSparkに限定されない幅広いサービスを提供していきたい、と考えている。Mustarde曰く、“長期的なプランは、ユーザーのアプリケーションとコンピューティングと仮想ストレージが完全に一体化した環境を提供していくことだ”。

今に関して言えば、オープンソースのプロダクトで立ち上がるのは賢明なやり方だと思える。Enterprise Strategy GroupのアナリストNik Roudaのところには、そんなやり方を肯定するデータがある。それによると、“われわれの調査では、企業でビッグデータ戦略を任されている人たちの90%以上が、ベンダがオープンソースで積極的な活動をしていることを、高く評価している。そして24%が、Hadoopの環境は純粋にオープンソースのディストリビューションで構成したい、と言っている”。

今週スタートした同社にとっても、これはまさに吉報だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

BIサービスのTableauがドイツのHyPerを買収してビッグデータ分析を高速化

shutterstock_1301396992

BIサービスのTableauが、ドイツの先進的データベース企業HyPerを買収したことを発表した。Tableauのねらいは、彼らの技術を自社のプロダクト集合に組み入れることだ。

Tableauはビジネスインテリジェンスとデータ分析の企業として、企業顧客が自分たちのデータからインサイトを得ることを助けている。大学の研究から生まれたHyPerのデータベース技術は、Tableauのすべてのプロダクトのパフォーマンスを向上させる。Tableauのエンジニアリング担当シニアディレクターPatrice Pellandは、そう説明する。

“HyPerはダイアモンドの原石だ。ミュンヘン工科大学(Technical University of Munich, TUM)の研究チームがそれを開発した”、とTableauは述べている。

Tableauは実は、この若い企業に前から注目していた。最初に発見したのは、データベース技術に関する学界の場だった。その技術が姿をなしてくるにつれてTableauは、それが同社のBIサービスによくフィットしていることが分かってきた。

HyPerがTableauに持参する能力の中には、データ分析の高速化がある。それは、データセットのサイズとは無関係であり、トランザクションのシステムと分析システムを一体化してプロセスをスピードアップする。またその多様な分析能力は、定型データと非定型データの両方をサポートし、ビッグデータの分析に威力を発揮する。

まだ生まれたてほやほやのHyPerは資金もなく、Tableauが買収しようとしたとき、顧客もいなかった。買収の条件をTableauは公表していないが、Tableauのスポークスパーソンによると、“それは現金以外の取引なので公表はできない”、という。つまり、おそらくそれは1億ドルに満たない価額と思われるが、まだ新生児のような企業だから、それも当然かもしれない。

HyPerのトップは、TUMの二人の教授で、これまで院生たちとともに研究を続け、HyPerデータベースシステムの開発に至った。Tableauも数年前に、大学(スタンフォード)の研究プロジェクトから生まれた。つまり両者は‘大学発’というルーツを共有する。二人の教授は当面コンサルタントとして仕事を続け、プロジェクトに関わった4人のPhDは、ミュンヘンに設けられるTableauのR&D部門を担当する。

そのオフィスは今後拡張する予定だが、最初何名の社員でスタートするかは、公表されていない。

今現在、彼ら新しい社員たちは、シアトルにあるTableauの本社を訪れて、技術者たちとHyPerのデータベース技術とTableauのプロダクトとの統合について、話し合っている。

これはTableauの二度目の買収だ。“うちの企業をもっと良くする機会はいつも探しているが、企業文化という重要なものがあるので、買収にはつねに慎重だ”、とPellandは述べる。

なお、Tableauは2013年に上場し、昨年7月には一株127ドル44千とという高値をつけた。しかし今週水曜日(米国時間3/9)の時間外では、42ドル64セントと落ち込んでいる。今年のテクノロジー株は年初から良くないが、Tableauの下げは激しすぎる。

〔ここにグラフが表示されない場合は、原文を見てください。〕

[graphiq id=”3oaS89DzStf” title=”Tableau Software Inc. (DATA)” width=”700″ height=”414″ url=”https://w.graphiq.com/w/3oaS89DzStf” link=”http://listings.findthecompany.com/l/14692592/Tableau-Software-Inc-in-Seattle-WA” link_text=”Tableau Software Inc. (DATA) | FindTheCompany”]

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IBM、ヘルス・アナリティクスのTruvenを26億ドルで買収へ―Watson Healthを大幅強化

2016-02-19-watsonhealth

今日(米国時間2/18)、IBMは、Truven Health Analyticsを買収する意向を発表した。価格は26億ドルという驚くべき額だ。これはWatson Health事業部が2014年に創立されて以來、4回目の大型買収となる。

Watson Healthは2014年4月にIBMがPhytelとExplorysを買収したのを機に創立された。両社ともデータ処理をメインとするヘルス関連企業だった。

Watson Healthはその後、2015年8月に10億ドルでMerge Healthcareを買収した。これによりWatson Healthは膨大な医療画像データを所有することとなった。

今日の買収で、IBMはTruvenの大規模なクラウド・ベースのデータ・リポジトリにアクセスが可能となる。Truvenは社員2500人で8500のクライアントを持ち、その中にはアメリカの連邦政府や州の機関、またその従業員組合、健康保険会社、生命保険会社が含まれる。

Truvenの買収により、IBMは保険請求、治療内容、治療結果、医療費詳細、その他何百種類もの情報という宝の山を入手する。Watson Healthのバイス・プレジデント、Anil Jain(元Explorys)は「これは単にデータのための買収ではない」と強調した。

JainはTechCrunchのインタビューに対して「われわれは〔この買収で〕膨大なデータとそれを収集したリソースのすべてを入手する。〔しかし本当に価値があるのは〕豊富なデータに基づく洞察、深い知識に基づく洞察だ」と述べた。

Jainはまた大量のデータを意味あるものにするのは人間のエキスパートだとつけくわえた。そしてTruvenの買収によってWatson Healthに加わることになった2500人の社員には多数のデータ・サイエンティストや研究者などの専門家が含まれると述べた。

有力企業を次々に買収することと、それら企業の持つデータやノウハウを有機的に組み合わせて新たな事業部にすることはまったく別の作業だ。 Jainはこれが困難な課題であることを認めたが、同時にIBMは買収企業の統合には豊富な経験を持っていることを強調した。

「Watson Healthプラットフォームにはクラウドがあり、コアとなるテクノロジーがある。それらはクライアントの課題の解決のために役立てられる。ソリューションはわれわれが開発するものもあるが、われわれのパートナーが作るものある」とJainは述べた。

IBMのパートナーにはApple、Medtronic、Johnson & Johnson、Teva Pharmaceuticals、Novo Nordisk、CVS Healthなどが含まれる。

ヘルスケア・テクノロジーでいつもプライバシーが問題になる。たしかにIBMは膨大なヘルス関連情報にアクセスが可能だ。Jainは「この点についてしばしば質問される」と認めた。しかし「IBMは患者情報の秘密保護に関してHIPAAは(医療保険の相互運用性と責任に関する法律)の規定を順守している。またIBMのシステムは重大な疾病の診断に関して患者を特定できるような具体的な知識を持たない仕組みとなっている。われわれの目的はあくまでクライアンの業務を適切な情報提供によって効率化することだ。その情報が具体的にどのような個人に結びつけられるかについてはIBMは一切情報を持たない」と述べた。

これはつまり、ある患者に特定の症状が合った場合、Watson Healthは他の患者のデータを分析し、似たような症状を選び出し、症状のパターンを教える。ただしデータの背後にある個人については身元特定可能な情報を持たない仕組みになっているということだ。医師の指示に応えてWatsonはそうした症状に対するさまざまな治療法とそれぞれの成果を専門誌の論文から収集する。 こうした情報は医師の診断や治療法の選択に大きな助けとなる。

現在、Watson Healthを構成する各社はIBMによる買収以前と同じく、各地に散らばるそれぞれの本社で運営されている。これは当分そのままとなるはずだが、IBMはWatson Healthの新しい本社を,マサチューセッツ州ケンブリッジに 建設中で、運用開始は今年後半になる予定だ。

Featured Image: Matej Kastelic/Shutterstock

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Databricksの無料Spark学習コースにオンラインのマイクロインスタンスCommunity Editionが補助教材として加わる…受講者10万超をねらう

shutterstock_230086303

Apache Sparkオープンソースプロジェクトの商用実装をビジネスとするDatabricksが今日(米国時間2/17)、Sparkの使い方を人びとに教えるための、無料のCommunity Editionをリリースした。それは、同社が昨年作った無料のオンラインコースMOOCs〔複数形〕)の教材として利用される。

この無料バージョンは有料のエンタープライズバージョンにある高度な機能はなくて、Sparkによるビッグデータ処理の初歩を、小さな単一のSparkインスタンス(“マイクロインスタンス”)で学んでいく。

同社のMOOCsは驚くほど好評で、これまで50000名が受講、演習やテストを含め全課程を終了した者は20000名に達する。DatabricksのCEOで協同ファウンダーのAli Ghodsiが、そう説明した。

Sparkを学びたいという関心がこれほどまでに大きいことを見た同社は、コースの補助教材としてCommunity Editionを作ることにした。Community EditionとMOOCsを結びつけることによってDatabricksは、地球上のへき地に住む低所得の人たちにも、データサイエンスの初歩とSparkを教えることができる。つまり、コンピュータとインターネット接続と、コースを完了する意志さえあれば、誰でもコースを受講できる。

学習者はDatabricksの基礎的な機能にアクセスして、マイクロクラスタの作り方とか、クラスタ管理ツールの使い方、ノートブックやダッシュボードの作り方を学ぶ。もっと大きなクラスタの作り方や高度な機能を会得したければ、クレジットカードをスワイプして本格的なビジネスコースへ進めばよい。

Databricksに投資しているAndreessen Horowitzの協同ファウンダーでパートナーのBen Horowitzによると、Community Editionによってビッグデータとその分析の敷居が、きわめて低くなり、誰もが気軽に学べるものになった。

“それまでは自分でクラスタを作るか、あるいは大学のコースなどに毎月何千ドルも払って、データサイエンスや高度なデータ分析、機械学習などを本格的に勉強する必要があった”、とHorowitzは声明文の中で言っている。

安上がりをねらった同社は、まず、学習者がクラスタの構築や保存のために使うコンピューティングリソースとして、Amazon Web Servicesを利用している。その高度な共有環境を同社が細心の注意をもって管理することにより、低コスト化に成功している。

“仮想マシンを共有することにより、コストを大幅に下げることができた。同じリソースを複数の学習者が再利用していくから、無駄が生じない。その方法をMOOCの一つで試してみて、意外なほどうまくいったんだ”、とGhodsiは語る。

もちろんこれは、慈善事業ではない。たくさんの人間にSparkと関連ツールの使い方を無料で教えれば、その後、その中の何人かが必ず有料の顧客になる、と同社は確信している。同社はすでに、MOOCsでそんな経験をしている。Community Editionが加われば、それがもっと増えるだろう。

“これはとても優れた見込み客生成プロジェクトだ。うちの企業経営に大きく貢献するだろう”、と彼は語る。

DatabricksのMOOCは、今年もっと増える。そして来年には、受講者数を10万人以上にもっていきたい、という。無料のCommunity Editionが好評なら、それも夢ではないだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのBigQueryがアップデートで細かいコスト管理を提供、監査ログやストリーミングAPIの改良も

cbf_009

GoogleのSQLベースのビッグデータ分析サービスBigQueryが今日(米国時間12/15)アップデートされ、ユーザは暴走クェリで費用が発生することを避けやすくなり、また大量のデータを自分たちのデータベースへ直接ストリーミングできるようになった。

またこのアップデートにより、BigQueryの監査ログがベータで導入された。この機能によりITのアドミンたちは、ユーザがこのサービスの上でやってることを把握しやすくなる。

big-data

クォータをユーザが設定できるようになったので、クェリが処理するデータ量をプロジェクトのレベルやユーザのレベルで制限できる。設定の単位量は、ユーザレベルでは10TB、プロジェクトレベルでは50TBだ。BigQueryの処理料金は1TBあたり5ドルである。

担当マネージャのTino Tereshkoは今日の声明文の中で次のように述べている: “BigQueryできめ細かい費用管理ができるようになったことは、従来の固定サイズのクラスタに慣れていた方にも歓迎されるだろう。固定サイズの場合は費用も定額であり、スケーリングが難しかった。サイズが固定では負荷の増加と共にパフォーマンスが劣化し、しかも簡単にはスケーリングできない。今回のきめ細かいコストコントロールにより、企業はBigQueryの利用に関しても十分な予算管理ができるようになるだろう”。

同じくコスト管理の面では、今回のアップデートによりBigQueryのユーザは、自分たちのクェリが実際にどのように実行されているのかを、容易に見ることができる。そのために提供されるのがQuery Explainと呼ばれるグラフィカルなツールで、これを使えばパフォーマンスのボトルネックがどこにあるかも、分かるようになる。

download

そしてStreaming APIも改良され、EUのユーザがEU内のデータセットをロードできるようになった。またストリーミングの待ち時間(“ウォームアップ”)もなくなり、ビッグデータの分析はデータの最初の行がテーブルにストリーミングされた直後からすぐに始まる。これまでのウォームアップは数分を要したが、これからはデータが直ちに可利用になる。

Streaming APIをよく使うユーザのために新たに導入された’テンプレートテーブル‘機能により、INSERTリクエストをストリーミングする場合既存のテーブルをテンプレートに指定できる。

今回のアップデートで、いちばん分かりやすいメリットは、クェリのコスト管理が改善されたことだろう。GoogleはAmazonやMicrosoftに対抗してなるべく多くのエンタプライズユーザを獲得しようと努めているから、そのためにはコスト管理機能がとりわけ重要だ。

[原文へ]。
(翻訳:iwatani(a.k.a. hiwa)。

Hadoopベンダとして5年を超える古参MapRがビッグデータストリーミングで新境地を開拓

shutterstock_272856935

MapR(MapR Technologies)は、オープンソースのHadoopプラットホームを提供する企業のひとつだが、今そんな企業は多いから競争も激しい。今日(米国時間12/8)同社は、資金潤沢なライバルたちに対する差別化努力として*、MapR Streamsという新製品を発表した。〔*: CEOはこの説を否定(後述)。〕

この新しいプロダクトは、その名のとおり、コンスタントなデータストリームを顧客に供給する。それが消費者データのフィードなら、アドバタイザーは広告の個人化に利用するだろう。保健医療に関するデータなら、それをもとに医師や保健医療機関が処方や処理の適正化を図るだろう。いずれの場合も、ほとんどリアルタイムで。

同社が提供するデータストリームは通常、個別企業等のオーダーメイドではなく、クラウド上で複数の顧客(人間または機械)が会員/会費制で利用する。たとえば顧客が使っているメンテナンスプログラムは、売り場やメーカーからのデータを見て、自分が納めたシステムの使われ方やボトルネック、損耗の状況などを知るだろう。あるいはIT部門はログ情報のストリームを見て、メンテナンスを必要とする異状や、セキュリティの侵犯などを知る。

またMapRが提供するストリームは、上記のようなリアルタイムに近い利用のほかに、記録システムとしての用途もある。それは、過去のどの時点へも巻き戻せるから、不具合の分析などに役に立つ。つまりそれは、完全な監査対象データであり、いろんな規制の多い業種業界では、すべてのトランザクションを記録できることが重宝するだろう。

これと同時に同社は、データを総合化するためのプラットホームも発表した。それは、ファイルやデータベース、アナリティクスなどのデータを単一のプラットホーム上で総合化し、分析できるシステムだ。その場合データソースはHadoopだけでなく、Apache Sparkも使える。それは、2010年にカリフォルニア大学バークリー校で開発された、オープンソースのビッグデータ高速分析プラットホームだ。

CEOのJohn Schroederは、今回の新製品発表について、そろそろHadoopオンリーから脱したいので、と言う。“このプロダクトはエンタプライズ級のHadoopとしてプレゼンしたし、それは今でもうちにとって、さしあたり重要なことだが、実際にはそれ以上のものでもある”。

前向きの脱Hadoopは、Hadoop市場があまりにも混み合っているせいでもある。

たとえば、MapRと同期のHadoopベンダHortonworksは、昨年上場した。また、昨年は10億ドル近い資金を調達した大物のClouderaは、評価額が40億ドルに達している。コンペティタたちにのしかかるプレッシャーは、ますます強まる。ClouderaのCEO Tom Reillyは、どこのベンダもHadoopだけをサポートしているわけではないから、ベンダ全員が健全なエコシステムの恩恵を被っている、と言うのだが(Intel Capitalの今年のGlobal Summitでインタビューしたとき、そう語った)。

それでもしかしSchroederは、今回のアップデートを競合戦略だとは言わない。むしろ、顧客の要望への対応だ、と述べる。“顧客のニーズに基づいて会社を経営している。コンペティタが何をやってるかは、経営の指標にはなりえない”、と彼は語る。

MapRの創業は2009年だ。同社は独自のHadoopビッグデータプラットホームを作り、それを無料でオープンソースのプロダクトとして提供している。そして企業顧客のための関連製品やサービスが、有料だ。同社はこれまでに、1億7400万ドルを調達した。いちばん最近は、2004年6月の、プライベートエクイティによる8000万ドルだ。

参考日本語ページ(1)(2)CrunchBaseページ。〕

[原文へ]。
(翻訳:iwatani(a.k.a. hiwa)。

ビッグデータによる大規模3D動画シミュレーションの開発システムImprobableのSpatial OSにAndreessen Horowitzが$20Mを投資

screenshot-2015-11-11-16-38-06

シミュレーションとデータ技術の未来を作る、と称するロンドンのスタートアップImprobableは、3月にAndreessen Horowitzから2000万ドルを調達していた。今日(米国時間11/11)はそのプロダクトSpatial OSが発表されたことによって、その、簡単に定義することの難しい技術の一端が、すこし分かってきたようだ。

ImprobableのCEO Herman Narulaによるその発表の舞台は、ヘルシンキで行われたSlushのイベントだった。Spatial OSは要するに、高度かつ大規模なデータシミュレーションを開発し動かすためのオペレーティングシステムだ。…と言ってもまだ全然分からないだろうから、これから徐々に説明しよう。

いずれにしても、この、‘OS、オペレーティングシステム’を自称するプロダクトの視野はとても大きい。Narulaの説明では、このシステムを使ってゲームのWorlds Adriftのような仮想世界を作ることができ、その環境は地球上の本物の国と同じぐらいの人口と土地面積を擁することができる。そしてそのデータ処理システムが、交通、人口動態、住宅、経済など、その‘国’のあらゆる要素をマップしモデリングできる。

“都市行政、国防、経済、エンタテイメントなど、複雑で大規模なシステムの見方・見せ方を変えて、未来の新しい種類のアプリケーションとビジネスを可能にする”、とImprobableのWebサイトは説明している。

〔要するに大規模データの動態シミュレーションをリアルタイム3D動画で視覚化する、というシステムの開発と稼働を支えるバックエンドプリミティブ集合。OSというより、API/SDK集。〕

Spatial OSには、主要モジュールがいくつかある。たとえば、ゲームエンジンUnityや、すでに広く使われている既存の交通シミュレータなどだ。しかし仮想現実のような消費者製品の場合は、何百万ものユーザにサーブできるほどにスケール可能だ。エンドユーザのシステムは、モバイルやVRのハードウェアでもよい。デベロッパが何を目的デバイスにするか、に応じて適切なSDKと、ブラウザ上のアプリケーション管理システムを利用できる。

いちばん分かりやすい例が仮想現実(VR)なので、SlushのイベントではデモとしてWorlds Adriftが使われた。

Narulaによると、Spatial OSを使えば世界そのものを、そのままの規模で作ることもできるが、もっとすごいのはそれが、本物の世界のように永続することだ。たとえばどこかに一本の木を植えたら、それは老いて枯れ死するまで成長し生き続けるし、どこかの部屋にテーブルを置いたら、誰かがそれを一生使い続けることができる。

  1. worlds-adrift-screenshot-01.jpg

  2. worlds-adrift-screenshot-02.png

  3. worlds-adrift-screenshot-03.jpg

  4. worlds-adrift-screenshot-04.jpg

  5. worlds-adrift-screenshot-05.jpg

しかし仮想現実は、Spatial OSにできることの氷山の一角だ。デベロッパがもっとさまざまな複雑系に目をつけて、企業や社会の新しい意思決定に資していくことを、Narulaは期待している。

今開発中のプロジェクトの中には、ロンドン市そのものを完全にモデリングする、というものがある。交通や人口動態などを、行政目的等のためにシミュレーションできる。そのほか、熱帯雨林のモデリングや、住宅供給計画のための土地利用シミュレーション、経済動向、細胞生物学、などのプロジェクトが提案されている。

NarulaはSpatial OSの紹介を始める前にこう述べた: “これまでのシミュレーションはとても幼稚で素朴だ。それは1970年代ごろのデータ科学をベースにしている。しかしシミュレーションを現代的にスケールすることは、対象をひとつの巨大なサーカスから、奇怪な演物(だしもの)ばかりある何千ものサーカスの集合に切り替えることに似ている”。

ImprobableのSpatial OSは、ビッグデータによるシミュレーションのためのベースシステムだ。すでに数社のパートナーが使用しているが、試してみたいデベロッパはここで申し込むとよい。

[原文へ]。
(翻訳:iwatani(a.k.a. hiwa)。

AWSが外部に一般供用するKinesis FirehoseはIoTなどのセンサデータをクラウドへ直接送る

screen-shot-2015-10-07-at-12-18-51-pm

今日(米国時間10/8)のAmazon AWS re:inventで、センサなどからのデータストリームをクラウドに直接送るサービスKinesis Firehoseが紹介された。

AWSのSVP Andy Jassyによると、Amazonがこの種のストリーミングデータをゲットするためにKinesisをローンチしたのは数年前で、すでにこれを使ってデータを処理するカスタムアプリケーションをいくつか作ってきた。そしてAmazonは顧客を待たせすぎであることに気付き、そしてまた、一部の顧客はそんなデータストリームユーティリティを自分で作るためのリソースを欠いていた。

このFirehose as a service(FaaS)を使えば、ユーザ企業はデータストリーミングのためのアプリケーションを自分で作る必要がなくなる。Jassyによると、APIを一回呼び出すだけで顧客はデータをAmazon RedshiftやS3に置くことができ、ただちにそのデータを使って仕事を開始できる。

このシステムはもちろんエラスティックで、データの量が多ければそのぶん、多くのストレージを使える。データはKinesis上で圧縮および暗号化され、ユーザはデータアップロードの時間間隔や、一回のデータ送付量のリミットを指定できる。

そしてデータがシステムに入ってしまえば、顧客はその暗号を解いてデータをHdoopのクラスタなどにロードし、処理や分析を開始できる。

これには、AWS側に二つのアドバンテージがある。ひとつは、AWSがそのビッグデータ関連サービスをIoT分野にも拡大できること。そしてそれにより、S3などストレージサービスの利用量が大幅に増えることだ。

顧客は自分のアプリケーションのあるAWSにデータを送って利用できるし、Amazonは客単価を増大できる。まさにwin-winの関係だ。

AWS re:Invent 2015

[原文へ]
(翻訳:iwatani(a.k.a. hiwa)。