データダッシュボードのスタートアップCountが約2.6億円を調達

アーリーステージの企業は、組織全体で扱うデータ量に悩まされることが多い。データが増えてくると、特にそうだ。データソフトウェア、データの混乱、データパイプラインの扱いに多額の費用がかかる。これらはすべてデータウェアハウス、クリーニングツール、視覚化プラットフォームに関わる。

Countは、オールインワンのデータプラットフォームを作ってこの問題を解決しようとしているスタートアップで、アーリーステージのチームに安価なデータパイプライン構築のためのツールを提供している。

Countはこれまでのステルスモードを終了し、240万ドル(約2億5800万円)の資金調達を発表した。この資金調達はLocalGlobeが主導し、Global Founders Capitalが参加した。同社のエンジェル投資家には、Micrrosoft(マイクロソフト)の企業戦略責任者だったCharlie Songhurst(チャーリー・ソンハースト)氏がいる。

Countは2016年に、経営コンサルタントだったOliver Hughes(オリバー・ヒューズ)氏とインペリアルカレッジの物理学者のOliver Pike(オリバー・パイク)氏が創業した。2人は、標準的なデータソフトウェアの複雑さと、業界で容認されている技術や設計上の制限のため、企業はデータドリブンの決定を下すことができないと分析していた。

発表の中でヒューズ氏は、同社が解決しようとしている問題について次のように述べている。「大きく成長しているチームは、データを管理するために複数の別々のソリューションに対して多額の投資が必要だった。そのようなソリューションを購入して実装するには1年から1年半かかる。そのため多くのスタートアップは、ツールが自分たちに合わなくなっても長期の契約に縛られる。Countはシンプルな従量課金制モデルなので、プラットフォームを無料で使い始め、チームの成長とデータの増加に伴ってその分だけ支払えばよい」。

LocalGlobeのパートナー、Remus Brett(レマス・ブレット)氏は次のように述べている。「データが極めて重要であることは多くの人が認識しているが、データを扱い、ストーリーを語るのはいまだに難しい。現在では、重要な決定をするためにデータを迅速に処理し分析することの価値は、かつてないほど大きい。Countを利用すれば、ごく初期の企業であってもデータ分析に基づいた意思決定を始められる」。

Countを利用しているTiney.coのCTO、Edd Read(エド・リード)氏は「Countによって我々はデータをすべてまとめてチーム全体の報告書を作れるようになった。同社の製品であるNotebooksを使えば、状況に応じた考察を共有し、SQLを学ばなくてもデータのクエリを利用できる」と述べている。

Countには、データウェアハウスではSnowflake、データクリーニングツールではDBT、分析プラットフォームではLookerなど、多くの競合がある。

[原文へ]

(翻訳:Kaori Koyama)

データストレージのCloudianがエッジデータ分析特化の新事業を日本で立ち上げ

企業の大量のデータを保存して管理するサービスCloudian(クラウディアン)は米国時間9月17日、大きなデータセットのエッジ分析にフォーカスする新たな事業部門であるEdgematrix(エッジマトリックス)のローンチを発表した。EdgematrixはCloudianが株式の多くを持つ子会社で、最初はEdgematrixの本社が置かれた日本でサービスを開始する(Coudianの本拠地はカリフォルニア州サンマテオ)。

同社は900万ドルのシリーズAを、NTTドコモ、清水建設、日本郵政キャピタルなどの戦略的投資家およびCloudianの共同創業者でCEOのMichael Tso(マイケル・ツォ)氏と取締役のJonathan Epstein(ジョナサン・エプスタイン)氏らから調達した。資金は製品開発とそのデプロイメント、および営業マーケティングに充当される。

Cloudian自身は、昨年の9400万ドルのシリーズEを含めて計1億7400万ドルを調達している。同社の製品は、企業が数百TBものデータをオンプレミスで保存できるHyperstoreプラットホームおよび、データ分析や機械学習のソフトウェアなどだ。Edgematrixも大規模なデータセットの保存にはHyperstoreを利用し、独自のAIソフトウェアとハードウェアによりネットワークの「エッジ」におけるデータ処理を行う。エッジは、センサーのようなIoTデバイスからのデータが実際に集まる場所に近い。

同社のソリューションは、リアルタイム分析が必要な状況に向いている。たとえば、高速道路上の車のメーカーや車種や年式などを検出して、ドライバーに向けて表示される広告の最適なターゲティングがリアルタイムでできるだろう。

ツォ氏によると、Edgematrixが生まれたのは、Cloudianの共同創業者で社長の太田洋氏と彼のチームが、顧客のデータの処理や分析をより効率化する技術の研究開発に取り組んだ経験からだ。

ツォ氏は「最近では、IoTのデータをはじめとして、ますます多くのデータがエッジで作られ、しかもリアルタイムのデータ分析や意思決定をエッジの近くで行いたいというニーズが拡大している。データをどこかへ運んでからでは、通信費用やレイテンシーがどうしても発生する。最初はCloudianのチームが小さなAIソフトウェアによるソリューションを開発して成功し、同社のトップレベルの顧客たちの注目を集めた。そこでわれわれは、その成功を核として戦略的投資家たちによる子会社を作るのがベストだ、と決断した」と語る。

Edgematrixを日本で立ち上げるのは、AIシステムへの支出が今後どこよりも大きく伸びると期待されるからだ。IDCによると、その予想成長率は2018年から2023年までの5年間で45.3%にもなる。

ツォ氏は「日本はAI技術のアーリーアダプターとしてトップを走ってきた。政府と民間部門の両方が、AIを生産性向上に欠かせないと見ている。Edgematrixは、少なくとも次の1年間は日本市場に注力し、結果が良好なら北米とヨーロッパに拡張したい」とコメントした。

画像クレジット: Hiroshi Watanabe/Getty Images

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

コラボレーションできるデータサイエンス視覚化ツールDataikuが$101Mを調達

Dataikuは、うわついた流行(はや)り言葉を実際のサービスに変えたい。同社は、世間がビッグデータやデータサイエンスや機械学習で騒ぎ始める前から長年、データツールを作っている。

その同社がこのほど、Iconiq Capitalがリードするラウンドで1億100万ドルを調達した。Alven Capital, Battery Ventures, Dawn Capital, そしてFirstMark Capitalがこれに参加した。

Dataikuは、常時大量のデータを生成している企業や団体を顧客にして、それらのデータ集合に隠されている意味を見つける。まず顧客は、Dataikuに接続して自分のストレージにデータをインポートする。Dataikuのプラットホームは非常に多種類のデータベースのフォーマットとデータソースをサポートしている。Hadoopでも、NoSQLでも、画像でも、なんでもよい。

Dataikuは、それらのデータを視覚化したり、データ集合を掃除したり、それらのデータから機械学習のモデルを作ったりする。機械学習システムのデプロイも行なう。また、ビジュアルなコーディングツールも提供しているが、モデル作りにはユーザーが自作のコードを使ってもよい。

しかしDataikuは、単なるデータサイエンティストのためのツールではない。ビジネスアナリストのような人でも、Dataikuから直接、データを取り出して視覚化できる。しかもそれはSaaSだから、複数のデータサイエンティストやデータアナリストから成るチームがDataikuの上でコラボレーションできる。

またユーザー企業は、Dataikuを使って変動を追ったり、詐欺を検出したり、需要予測をしたり、製品〜商品のライフタイムを最適化したりできる。現在の同社の顧客には、General Electric, Sephora, Unilever, KUKA, FOX, BNP Paribasなどがいる。

同社が今回の資金でやりたいことは、スタッフの倍増だ。現在200名の社員がニューヨークとパリとロンドンにいる。シンガポールとシドニーにもオフィスを開く予定だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Sumo Logicのアプリケーションモニタリングとリアルタイムデータ分析がコンテナをサポート

アプリケーションの状態をリアルタイムで分析するSumo Logicの長年の目標は、顧客企業のデータの理解を助けることだ。そのデータが、どこに潜んでいても。しかしコンテナの時代になると、コンテナは本質的に短命だから、その目標がさらに難しい。そこで同社は、にもかかわらず、コンテナ化されたアプリケーションでも扱えるように、プロダクトの強化を発表した。

その新しい機能は、DockerのユーザーカンファレンスDockerConで披露された。このイベントは今週、サンフランシスコで行われている。

SumoのCEO Ramin Sayerによると、コンテナの定着は、DockerとKubernetesがメインのツールとして使われるようになった12〜18か月前から始まった。その人気を見て、Sumoは自分たちもコンテナに対応したい、と考えた。“DockerとKubernetesは圧倒的にスタンダードなツールとして新旧大小あらゆるショップで、新しいアプリケーション開発や既存のオンプレミスアプリケーションのクラウドへの移行、あるいはワークロードをベンダーAからBへ容易に移行できるようにするために、利用されている”、と彼は語る。

もちろん彼は間違っていない。コンテナとKubernetesは1年半前ぐらいから大々的な離陸が始まり、デベロッパーもオペレーションもどちらも、それらの理解と採用に奮励努力してきた。

“しかしそれらの利用が標準化してきたために、その扱い方もわかりやすくなってきた。そしてコンテナの扱い方が分かってくると、コンテナ化アプリケーションのベンチマークも提供できるようになった”、とSayerは説明する。

同社はそれを、エージェントを使わずにやろうとする。アプリケーションがVMで動こうが、コンテナで動こうが、どこで動いても、Sumoはデータを捕捉して、ユーザー自身には困難だったフィードバックを届ける。

スクリーンショット提供: Sumo Logic(トリミングした)

同社はKubernetesとAmazonのElastic Container Service for Kubernetes(Amazon EKS)をネイティブでサポートする。Kubernetesのユーザーお気に入りのオープンソースのモニタリングツールPrometheusもサポートする。Sumoの目標は、顧客が問題を早く修復し、ダウンタイムを減らすことだ。

こういう新しいテクノロジーを揃える中で重要になってくるのが、顧客への周知と教育だ。“顧客にはガイドを提供し、ベストプラクティスや使い方のコツを教える。彼らがやってることだけでなく、Sumoのほかの顧客との比較も提供している”、と彼は語る。

Sumo Logicは2010年に創業され、これまでに2億3000万ドルを調達してきた(Crunchbaseによる)。最近のラウンドは、昨年6月にSapphire Venturesがリードした7000万ドルのシリーズFだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

トランプの新大統領補佐官は、ケンブリッジ・アナリティカとつながっていた

トランプ政権3代目の国家安全保障担当補佐官、ジョン・ボルトン氏は、初代補佐官だったマイケル・フリン氏と少なくとも1つ共通点がある。ふたりとも、炎上するFacebookのプライバシー問題の中心をなす政治データ分析会社、Cambridge Analyticaと結びつきがある

The New York Timesの最新記事によると、ジョン・ボルトンの政治活動団体であるThe John Bolton Super PACは、Cambridge Analyticaと2014年8月に契約を結んでいた。同社が設立された数カ月後で、まだFacebookデータを収集していた時期だ。

Cambridge Analyticaの設立当初、Boton Super PACは、市場調査および「サイコグラフィック・メッセージング」を用いた精密な行動ターゲティングのために2年間にわたり120万ドルを同社に注ぎ込んだ。

この作業を行うために、Campbridge社はFacebookのデータを使ったことが、文書および本件に詳しい元従業員2名の証言からわかったとThe New York Timesは報じている。

調査結果は、共和党のトム・ティリスの2014年上院議員選挙に貢献した。記事によると、ボルトン氏のSuper PACはデータの出所がFacebookユーザーであることを認識していたが、データがFacebookデベロッパーから同意なく取得されたことをボルトン氏が知っていたかどうかは明らかにされていない。

Cambridge Analyticaは、同社が不正にデータを取得したとする報道に対して今も反論を続けている。同社の新たな声明で、CEO代行のAlexander Taylorは、親会社がFacebookデベロッパーからライセンスしたデータを、同社が不正入手した認識はないとの立場を貫いている。

当社は問題のデータがFacebookの利用規約およびデータ保護法に沿って入手されたものと信じている。

私は2015年10月にCambridge Analyticaの最高データ責任者に就任した。その少しあと、Facebookからデータを削除するよう要求があった。当社は直ちにファイルサーバーから原データを削除するとともに、システム内の派生データを探し削除する作業を開始した。一年前にFacebookが再度確認を求めてきた際、当社は内部監査を行い、データ、派生物、およびバックアップがすべて削除されていることを確認し、その旨の証明書をFacebookに提出した。私は2016年米国大統領選挙で当社が実施した作業でGSR社のデータを利用していないことを確信している。

Cambridge Analyticaと同じく、ボルトン氏の政治団体は、トランプ政権に多大な影響力をもつ保守系資本家であるRobert Mercerから資金提供を受けていた。

[原文へ]

(翻訳:Nob Takahashi / facebook

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

つねに一歩先を見ながらやっていける農業経営をデータ分析で支えるFarmLogsが早くもシリーズCで$22Mを調達

jesse-vollmar-farmlogs-06

収穫量の計算、利益予測、天候被害や害虫/疫病対策など、農家の経営のさまざまな側面を支えるミシガン州アンアーバーのFarmLogsが、立ち上げから4年で早くもシリーズCの資金調達ラウンドを迎え、2200万ドルを獲得した。ラウンドをリードしたのはNaspers Venturesで、同社の初期の投資家Drive Capital, Huron River Ventures, Hyde Park Venture Partners, SV Angel, それにY Combinatorの社長Sam Altmanのような個人も参加した。

FarmLogsのCEOで協同ファウンダーのJesse Vollmarによると、Y Combinatorのアクセラレータ事業を2012年に卒業した同社はその後、衛星画像およびデータの分析利用に重点投資をしてきた。それらの原始データをもとに予測モデルを開発し、農家の“計画的な”農業経営を助ける。

“今では全国各地の農地を年間を通して分析している。そして問題の兆候が見えたらそこを強調して農家に警報している。彼らは、地上にいるだけでは分からない初期的問題をチェックでき、対策を講じる。それができるのは、衛星画像を複数年にわたって分析している、われわれの積み重ね努力のおかげだ”、とVollmarは説明する。

最近の例では、近隣の農家がどこもバッタの被害に遭っているから、うちでもすでにどこかで発生しているかもしれない、被害がわずかながら始まっている場所を特定してくれ、という依頼が大規模農家からあった。これなどは、衛星画像が得意とする分野だ。もうひとつの例では、やはり大規模農家から、灌漑設備に故障が起きて過灌水や乾燥が生じている箇所を見つけてくれ、という依頼があった。そんな農地では、高価な肥料や農薬が無駄になってしまうのだ。

Vollmarは農家の子どもとして農村で育った。実家は、コーンを有機栽培していた。FarmLogsはこれまで主に、コーンや大豆のような条植作物の生産農家を対象にしてきた。それらはアメリカの農業生産の大きな部分を占める。Vollmarによると、農家が同社のモバイルアプリやWebサイトを好むのは、データサイエンスに基づくデータ駆動の農業経営のために、自分で大量のハイテク機器を導入せずにすむからだ。しかし今ではトラクターなど主な農業機械には必ずデータ収集機能があるから、それらJohn Deere, Holland, Case Corporationなどの農業機械メーカーが作った機器からFarmLogsは原始データを集め、それらのデータをあらゆる角度から分析する。

FarmLogsの正社員は今や約70名いるが、今度の資金でさらなる増員を図り、もっと多くの条植作物農家に同社の技術を知ってもらいたい。この投資の一環としてNaspers Venturesのアメリカにおける投資のトップMike Katzが、FarmLogsの取締役会に加わる。

同社の主な競合相手は、Monsanto傘下のClimate Corp.と、そのClimate FieldViewアプリケーションだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

メモリ中心型の分散ストレージでビッグデータのワークロードを超高速化するAlluxioが本番稼働を開始

BIERE, GERMANY - JULY 01: Close-up of cables and LED lights in the new data center of T-Systems, a subsidiary of Deutsche Telekom AG on July 01, 2014, in Biere, Germany. T-Systems is the largest German and one of the largest European IT services companies. (Photo by Thomas Trutschel/Photothek via Getty Images)

大規模なストレージサービスをハードディスクではなく主にメモリで提供するAlluxio(元Tachyon)が、Andreessen HorowitzらによるシリーズAのラウンドで750万ドルを調達した。そして今日(米国時間10/26)同社は、その、オープンソースでメモリ中心型分散ストレージプラットホームのベータを終えて、初めての商用製品ローンチした

Alluxioが企業に提供するソリューションは、大量データの統一化によるアクセスの高速化、データストアの安定性、そして堅牢・安全性の実現だ。今、多くの企業が抱える膨大な量のデータは、社内のさまざまなストレージシステムや、ときには外部クラウドにも、ばらばらに保存されている。有意なデータ分析ができるためには、それらのすべてにアクセスしなければならないが、その無計画な、分散というより散乱散在状態では、高速なアクセスと分析はほとんど不可能である。

Haoyuan Liが創業したAlluxioは、SparkやMapReduceなど既存の優れたコンピュートフレームワークを活用して(下図)、それらすべてのデータを単一のネームスペース(名前空間)のもとに一本化し、データの散乱を単一の分散ストレージシステムに変貌させる。そのストレージのアーキテクチャは層状(三層構造)であり、とくに、利用頻度の高いデータはコンピューターのメモリに収める。それらに次ぐ利用頻度のデータはSSD、そしてその他は従来的なハードディスクに収容する。いわばAlluxioは、ビッグデータワークロードのための、きわめて高度なキャッシュシステムだ、と考えられる。

このソフトウェアは最初、UC BerkeleyのAMPlabで開発され、ファイルシステムはHadoopと互換性がある。多くの(ときには何千台もの)マシンに分散している大量のデータを保存するための、今や標準的な方法が、Hadoopのファイルだからだ。

screenshot-2016-10-26-at-14-07-14

今日Alluxioがベータを終了してローンチするソフトウェアには、Enterprise EditionとCommunity Editionのニ種類がある。オープンソースのプロジェクトの多くがそうであるように、Alluxioも有料サポートや高度な特殊機能が収益源だ。Alluxioのエンタープライズプロダクトの場合は、高可用性が得られるセットアップ、セキュリティ、データのレプリケーションなどがそれだ。

Community Editionは無料で利用できるが、このバージョンも証明されテストされ、さまざまなファイルシステムに対応している(Amazon S3, Google Cloud Storage, OpenStack Swift, Red Hat Ceph, Huawei FusionStorageなどなど)。またコンピュテーションフレームワークとしては、Apache Spark, Apache Hadoop, Apache MapReduceなどが使える。AlluxioのWebインタフェイスからサービスを管理できる点も、Enterprise Editionと変わらない。Community Editionにないものは、有料サポートのほかに、レプリケーションとケルベロス認証だ。

ユーザーには、Alibaba, Baidu, Barclay’s Bank, CERN, Huawei, Intelなどが顔を連ねる。たとえばBaiduの場合は、あちこちのデータセンターに散在していた数ペタバイトのデータに対する対話的なアドホッククエリのパフォーマンスが、Alluxioの技術により、従来の15分から30秒に改善された。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビッグデータはビッグトラブルか?、…その正しい方向性を見定めるべき時

Abstract 3D network in future

[筆者: Dave Mariani](AtScaleのCEOで協同ファウンダー。)

ビッグデータとビッグデータ分析の世界に最近、二つの重要な展開があった。まず、Tableau(DATA)が決算報告を出したが、EPSはアナリストたちの予想を$0.05下回り、同社の株価は5%下がった。そしてHortonworks(HDP)は売上の低迷を発表し、それにより株価は大幅に下落した。

ビジネスインテリジェンス(BI)やHadoopの世界に、今何が起きているのか? BIやビッグデータの世界が内部崩壊する前に、われわれは遠くの高台に避難すべきか?

何をどう考えていたのか?

市場記事のセンセーショナルな見出しを見て、怖がる必要もないが、しかし、彼らの予想を裏切る業績の背後には、投資家たちやテクノロジー企業を買収しようと考えている人たちが留意すべき重要なトレンドがある。

まず、純粋にパフォーマンスだけを見るとどうか。Tableauはビジネスインテリジェンスのリーダーだ、と多くの人が見ている。売上は前年比で35%も増加した。上場しているデータ分析企業で、昨年こんなペースで成長したところが、ほかにあっただろうか?

これを、業界全体と対比してみよう。Gartnerの予想では、2016年の全世界のIT支出額の成長率は0.0%、すなわち横ばいだ。そんな中で35%の成長は、きわめて異例である。Hortonworksの前四半期はどうか。売上は前年同期比で46%増加している。

一体どういう意味か?

投資家の期待や予想は、頑固だ。テクノロジーバイヤー*や業界のオブザーバーは、(一見成績の良い)両社のパフォーマンスを、業界全体の傾向や見通しと照合したうえで、評価する。〔*: technology buyer, テクノロジー系の企業やその株を買おうとしている人たち、≒テクノロジー指向の投資家。〕

たとえばTeradataも最近、売上を報告したが、同社のビジネスは前年比で約4%縮小した。だからほかの条件が変わらなければ、Hortonworksの売上は2020年までにTeradataを上回るだろう。

ここからどこへ行くのか?

あなたがテクノロジーバイヤーなら、これらの短期的な業績にはとらわれないだろう。あなたが気にするのは、この業界にこの夏、何が起きたかだ。Workdayは7月にPlatforaを買収し、Qlik Techは6月に投資企業Thoma Bravoに吸収された。噂ではAmazonは来月、ビジネスインテリジェンスの視覚化ソリューションをリリースするらしい。もちろんMicrosoftとGoogleには、すでにこの市場向けの製品がある。

視覚化やビジネスインテリジェンスを一社に絞ることは、最近ますます難しい。だから業界のいろんな選手たちの業績を気にするよりは、全体としての彼らの技術の方向性やビジョンに着目すべきなのだ。

たとえばこの市場では、一枚岩的でクローズドなやり方は、きわめて受けが悪い。Platforaのアーキテクチャを見て気づくのは、そのエンドツーエンドの統合に最大のメリットがあることだ。データプラットホームという一方のエンドから、視覚化レイヤという片方のエンドまで、全体が統合化されている。しかしこのアプローチが有効なのは、ユースケースがきわめて特殊で、ユーザーが少数の高度な専門家であるときだ。何十万ものユーザーを対象とする幅広いユースケースのためにデータサービスを提供したい、と考えている一般企業には、向いていない。

しかしTableauは、セルフサービス型ビジネスインテリジェンスというものを開拓し、業界全体をその方向へ向かわせようとしている。MicrosoftやGoogleやAmazonが視覚化市場への参入に熱心なのは、Tableauの成功によって、データをビジネスユーザーの手中に置くことの威力を、思い知らされたからだ。

プラットホームのベンダーは今明らかに、今後成長し栄える市場がこれであることに、気づいている。Tableauが見つけたのは、本当にビジネスインテリジェンスを必要としているのは、日々十分なサービスにも恵まれず日陰に放置されている、9億人を超える情報労働者であることだ。それだけでも、今もっともらしく“ビジネスインテリジェンス”と呼ばれている市場の、約10倍はある。MicrosoftやAmazonがビジネスインテリジェンスの低価格化をトライしていることからもうかがわれるように、明日の業界が必ず目にするのは、BIが、これまで、そんなものとは無縁だと思われていたところで増殖し拡大していく光景だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AWSのElastic MapReduce 5.0.0は16種のHadoop関連プロジェクトをサポートしてビッグデータ処理の実用性を増強

15558382212_a81f9f4a3a_k

Amazon Web Services(AWS)が今日(米国時間8/2)リリースを発表したElastic MapReduce(EMR) 5.0.0は、16種のHadoop関連プロジェクト(派生プロジェクト)をサポートする。

AWSはつねに、顧客がクラウド上の多様なエンタープライズ機能を管理するための、さまざまなツールのアップグレードに努めているが、今回のものは、Hadoopでビッグデータプロジェクトを管理しているデータサイエンティストやその関連部署に向けられている。

この分野に強いForresterのアナリストMike Gualtieriの言葉を借りると、Hadoopとは基本的に、“大きなデータ集合を保存し処理するためのインフラストラクチャ的ソフトウェア”だ。

従来のデータ処理ソフトウェアと違ってHadoopは、データの保存と処理を複数のノード(数千に及ぶこともある)に分散して行い、それにより大量のデータ処理を効率化する。

しかもそれは、Apacheのオープンソースプロジェクトとして、きわめて人気が高い。かわいいマスコットまである(上図)。Hadoopを軸に大きなエコシステムができていて、プロジェクトの改良充実にたえず貢献している。また、そこから生まれる派生プロジェクト(“Hadoop関連プロジェクト”)も多い。

今のHadoopはそれらの派生プロジェクトを積極的に取り入れて、ユーザーによる大量のデータ集合の管理を助けている。たとえばHiveはHadoopのためのデータウェアハウスであり、HBaseはスケーラビリティの高い分散データベースだ。AWSは、どちらもサポートしている。

Hadoopによるシステムの実装やデータ処理を助ける企業も続々生まれていて、有名なところとしてはCloudera, Hortonworks, MapRなどが、Hadoopの独自の商用化バージョンを提供している。

AWSは昨年の7月以来、AWS本体ツールの継続的アップデートとともにHadoop関連プロジェクトのサポートのピッチを上げ、顧客の選択の幅を広げようとしている(下図)。

[EMRの更新履歴(4.7.0まで)とHadoop関連プロジェクトのサポート]

Chart showing updates to EMR tool since January, 2016.

図表提供: AWS.

AWSは、もうひとつのApacheオープンソースプロジェクトBigtopも使ってきた。これは、プロジェクトのページによると、“Hadoopのビッグデータコンポーネントの、インフラストラクチャのエンジニアやデータサイエンティストによるパッケージングとテストと構成を助ける”、という。AWSのブログ記事によると、AmazonはBigtopの開発のペースアップに協力し尽力してきた。

以上は、データサイエンティストと、クラウド上の大型データ集合を扱う社員たちにとって、良いニュースだ。今回のリリースではオプションの数がぐっと増え、AWS上で有用なHadoop関連プロジェクトを、より見つけやすくなったと言えるだろう。

ビッグデータは今やAWS上の重要なユースケースだから、Hadoop本体はもちろんのこと、ストレージやコンピューティングを効率化するためのさまざまなツールを必要とする。〔そしてそのニーズの多くをさまざまなHadoop関連プロジェクトがサポートする〕。ユーザーから見ると、AWSのようなクラウドベースのインフラストラクチャは文字通りエラスティック(elastic, 伸縮自在)であり、オンプレミスの場合のように、扱いデータの増加とともに新たなリソースの手配をいちいち心配する必要がない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Microsoftはビッグデータ分析とその応用プロダクトでApache Sparkに総賭けの姿勢

microsoft_cloud_logo

Microsoftが今日(米国時間6/6)、オープンソースのクラスターコンピューティングフレームワークApache Sparkに、本格的にコミットしていく、と発表した

昨年、Sparkのエコシステムの浅瀬でちょっと足を濡らしてみたMicrosoftは、本日、いくつかのSpark関連サービスのプレビューを終えてそれらを公式ローンチし、またR Server for Hadoopのオンプレミスバージョンが今後はSparkベースになる、と発表した。R Serverの‘R’は、今人気がますます盛り上がっている、ビッグデータ分析とモデリングのためのオープンソースの言語Rを指す。

spark-logo-trademark

さらにMicrosoftは、R ServerのAzureクラウドバージョンR Server for HDInsightがこの夏の終わりごろプレビューを終えて一般公開される、と発表した。なおSpark for Azure HDInsightは今すでに一般公開されていて、Hortonworksによる管理を伴うSparkサービスがサポートされる。MicrosoftのビジネスインテリジェンスツールPower BIも、今ではSpark Streamingをサポートし、ユーザーはリアルタイムデータをSparkから直接Power BIへプッシュできる。

これらの発表はすべて、Microsoftが“Sparkへの幅広いコミットによってMicrosoftのビッグデータ分析プロダクトを強化する”、と述べる方針の実現(の一環)だ。プロダクトはPower BIやR ServerだけでなくCortana Intelligence Suiteも含まれる。こちらはMicrosoftの複数のビッグデータ分析サービスを併用し、いくつかの機械学習ツールも利用するシステムだ。〔Cortana参考サイト

今週サンフランシスコで行われるSpark SummitでMicrosoftは、Google, Baidu, Amazon, Databricksなどなどと共にスポットライトを浴びる気でいる。その席でMicrosoftは、同社がSparkに今どれだけ入れ込んでいるか、その情報をシェアする、と約束している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

$30Mを投じたスーパーコンピューターStampede 2は18ペタフロップスを誇り利用は研究者向けに一般公開へ

stampede1

世界のスーパーコンピューターの上位5機たちの、地位が危うくなってきた。テキサス大学が3000万ドルを投じたStampede 2が、追い上げている。そのピーク時処理能力18ペタフロップスは、CrayのTitanやIBMのSequoiaと肩を並べる。中国のTianhe-2(天河二号, 33.86pFLOPS)には、まだ及ばないが。

その建造目的は、大規模な数値処理を必要とする研究者が誰でも利用できる、世界クラスのスーパーコンピューターを作ることだた。たとえば原子力工学や環境科学の分野では、シミュレーションに膨大な計算力を要する。それらはデスクトップコンピューターなら数年かかるが、スーパーコンピューターなら数日で完了する。

たとえば下図のコロイド状ゲルのシミュレーションでは、75万個の粒子類似体のすべての動きと相互作用を究明しなければならない。

Zia_Colloidal_Gel_Panel2[1]

あるいは下図の、創始期超新星のレンダリングでは、2000立方キロメートルの一般相対論的電磁流体中のすべての擬粒子(?)のエントロピーを追跡しなければならない。

magnetohydrodynamics

お分かりかな?

テキサス大のプレスリリースで、Texas Advanced Computing Center(TACC)のディレクターDan Stanzioneが語っている: “StampedeやStampede 2のような大規模なコンピューティングとデータ能力は、どんな研究開発分野においてもイノベーションのために必要不可欠だ。Stampedeは、住宅および商用建造物の耐震基準の策定のために、これまででもっとも大規模な数学的証明を提供してきた”。

その2013年3月に稼働を開始したStampedeの2倍の能力を持つのがStampede 2だ。それらは、どちらも、米国科学財団(National Science Foundation, NSF)の助成金によりテキサス大学オースチン校で作られた。

2倍というのは、必ずしもコア数のことではない。製造技術がStampedeの22nmから14nmのXeon Phiチップに(コードネーム”Knights Landing”)に進化し、そのほかの“将来世代的な”プロセッサーも使われている。コア数は、61コアから72コアに増えた。

RAMもストレージもデータの帯域も倍増した。いくら処理能力が速くても、データの移動が遅ければ無意味だ。Stampede 2は毎秒100ギガビットへと高速化し、そのDDR4 RAMは十分に高速でかつ巨大な第三段キャッシュと、通常のメモリの役を担う。

また、Intelの最新のメモリ技術3D Xpointによる不揮発メモリも採用している。それはNANDよりも高速でDRAMより安いと言われ、高性能を要求されるストレージの理想の媒体と見なされている。Stampede 2はそれを本格的に採用した初の実用機となるが、いずれはわれわれデスクトップのユーザーにも恩恵が回ってくるだろう。

しかしその十分すぎるスペック(参考記事)は、正当な開発動機があったとはいえ、ポルノのように誘惑的だ。テキサス大のプレスリリースによると最近の10年間で、TACCを利用する機関の数は倍増、上級研究者たちの数は三倍増、一般のアクティブユーザーは五倍増した。自然を研究調査する分野と、新しいツールやサービスを開発する分野の両方で、ディープなデータ分析の新たに発見される用途が増え続けているから、ユーザーの数は今後ますます増え続けるだろう。

Stampede 2の稼働開始がいつになるのか、それはまだ決まっていないが、資金には問題がないようだから、あと一年あまり、というところか。もちろんその間に、スーパーコンピューターの上位5機は、競争がますます混み合ってくるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビジネスとしてのビッグデータ分析はいまやっと“成熟期”に入ったばかり、今後の機会が大きいとVCたちは見ている

binary_data

[筆者: Harry-Stebbings](ベンチャーキャピタルに関するポッドキャストThe Twenty Minute VCのファウンダーでホスト。)

最近のインタビューで、“ビッグデータはいよいよこれからが本番だ”、と語ったFirstMark CapitalのMatt Turckによると、2010年にはシリーズA市場のわずか2.5%にすぎなかったビッグデータへの投資が、今ではVCたちの投資全体の7.5を超えている。そもそも、ビッグデータ分析という業態は、今どんな段階にあるのか? そして最近のAI熱は、ビッグデータと密接な関係があるのか?

エコシステムの成熟

ビッグデータのこれまでの進化には、三つの段階がある。まず、その形成期は、LinkedIn, Facebook, Googleなど少数の大手インターネット企業が支配した。彼らのもとに大量のデータセットが集まり、彼らにはレガシーのインフラストラクチャがないから身軽で、しかも優秀な技術者がたくさん集まった。彼らは、これからの世界が必要とする技術を作っていった。

そして次の第二の段階では、これら大手インターネット企業の技術者たちがスピンオフして自分のスタートアップを作り始めた。彼ら未来のユニコーン(10億ドル企業)候補たちは、彼らと同じくレガシーのインフラストラクチャのない企業を顧客にしていった。Turckはこう言う: “レガシーのインフラストラクチャがないことこそが、彼らのイノベーションの基盤だった”。そして彼らにとってイノベーションの最先端といえば、ビッグデータスタートアップの初期の顧客になることだった。

そして、今現在の第三段階が、大きな課題をもたらしている。さまざまな企業がビッグデータ技術に関心を持ち、採用を始めているが、それ自体はまだ、ごくごく初期的な段階なのだ。

第二段階のときと違って、今の企業は多くがレガシーのインフラストラクチャを抱えているから、ビッグデータ革命によって失うものも多い。彼らの既存のインフラストラクチャは、企業の現状をまがりなりにも支えているから、ビッグデータにとって大きなハードルになる。ビッグデータには、彼らの経営の核であるレガシーのインフラストラクチャを捨ててもよいほどの価値があることを、どうやって説得すべきか?

Turckは語る: “これからのスタートアップの仕事は、データによって企業経営がよりスマートになることを、顧客に理解してもらうことだ”。また、“大企業が率先してビッグデータ分析を試行的に導入していくこと、スタートアップがそこから食い込んでいくことも重要だ”。

AI

AIの最近の進歩と、それに対する関心の高まりは、ビッグデータがなければありえなかった。Turckは極論する: “AIはビッグデータの子どもだ”。たとえば深層学習(deep learning)のアルゴリズムが作られたのは数十年前だが、それが今や、大量のデータ集合を扱う実用技術になり、コストも実用レベルまで下がってきている”。だから、“AIが可利用性の高い実用技術へと開花結実してきたのも、ビッグデータのおかげだ”。

ビッグデータエコシステムの成熟と進化がこれからも続けば、AIがビッグデータのアプリケーション層の成長を導く触媒になるだろう。でも、ビッグデータは、今はまだまだ初期的な段階だから、今後のアプリケーションの多様化とともに、ビジネス機会としてのビッグデータはますます大きくなっていくだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Crayの最新のスーパーコンピューターはOpenStackを搭載してオープンソースのビッグデータツールを動かす

ms_front-right-angle_0293_high-res

Crayといえば、スピードとパワーをつねに連想するが、同社の最新の計算怪物Cray Urika-GX systemは、ビッグデータのワークロード専用に設計されている。

しかも、そのベースシステムはオープンソースのクラウドプラットホームOpenStackで、その上でビッグデータを処理するHadoopやSparkなどのツールが仕事をする。

Seymour CrayがCray社を立ち上げたのは70年代の初頭だが、その後のコンピューティングの進化を同社はよく認識している。作っているのは相変わらずハイパワーのコンピューターだが、今ではクラウドコンピューティングという強敵がいる。人びとはコンピューターを買わずに、その都度必要なぶんだけ利用して、料金を払う。

そんな強敵と戦うためにUrkia-GXは2ソケットのIntel® Xeon® v4(Broadwell)を16〜48ノード搭載し、そのコア数は最大で1728、DRAMは最大で22TBを持つ。ストレージは35TB PCIe SSDと192TBのハードディスクを、ローカルストレージとして持つ。

しかも同機はCray特有の高速マシンであるだけでなく、差別化要因として、顧客企業が求めるビッグデータ処理ソフトウェアの完全セットアップサービスがつく。HadoopやSparkだけでなく、顧客が求めるものは何でもインストールし、構成し、実働状態にしてから納品する。

また、同社独自のグラフデータベースCray Graph Engineを標準で搭載する。それは複雑なビッグデータ分析において、既存のグラフソリューションの10倍から100倍は速いそうだ。グラフというデータ構造はいろんなものを複雑に結びつけたり比較する処理に適していて、たとえばeコマースのサイトでは顧客が買った物と似たものを見つけたり、逆にそんな物が好きな友だちをソーシャルネットワーク上に見つけたりという、複雑な関係操作が得意だ。

今クラウドに人気があるのは、ITの面倒な部分をすべてクラウドベンダが肩代わりしてくれるからだ。そのことを認識しているCrayは、クラウド上のSaaSではなく、オンプレミスのSaaS、ソフトウェアのインストールから構成〜実働までのすべての面倒を見るサービスに徹しようとしている。それは、Urika-GXとビッグデータ分析に関して、上で述べたとおりだ。しかもソフトウェアのアップデートも、半年ごとにCrayがすべてやってくれる。

顧客が日常使うのはシステムの最上層のアプリケーションだが、その下の部分は顧客企業のIT部門を手伝いながら主にCrayが担当する。ソフトウェアのメンテナンスのお世話をする、という言葉は単純だが、顧客が上の方の、Crayがせっかくインストールしたソフトウェアの上で黙って勝手なことをして、おかしなことになっても、その修復がCrayの仕事になるから、たいへんだ。

でもCrayのプロダクト担当SVP Ryan Waiteによると、同社は顧客と一緒に仕事をしていく歴史が長いから、どんなにわかりにくい問題が生じても十分対応できるそうだ。

費用についてWaiteは、そのほかのビッグデータ処理ソリューションとそれほど変わらない、と言う。みんなが考えるほど、高くはない、と。ということは、Crayコンピューターの数百万ドルというプライスタグは、すでに過去のものか。彼によると、価格はハードウェアとソフトウェアの組み合わせ次第で変動幅が大きい、という。言い換えると、顧客のニーズ次第、ということだ。

というわけで、まだ表面的なことしか分からないが、Crayが今でも強力なコンピューターのプロバイダであることは確実だ。かつてのギークたちの夢は、どっこい、まだ生きていた。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Strata + Hadoop World 2016に見るビッグデータの最新トレンド、「インメモリ」で「リアルタイム」へ

15366067990_febad7909e_k

[筆者: Josh Klahr](Atscaleのプロダクト担当VP)

今年もまたStrata + Hadoop Worldが始まる。それはいつも、一歩引いてセッションの内容を一望し、ビッグデータの最新の動向を理解するための、良い機会だ。

これまで毎年のようにこのカンファレンス参加してきた人は、このイベントがオープンソースの技術を実験するソフトウェアデベロッパーのための催しから、重要なエンタープライズソフトウェアの大会に変わってきたことを、目撃されただろう。今ではデベロッパーだけでなく、企業の役員たちや、ベンダー、プロフェッショナルなサービスのプロバイダーたちが一堂に会して、この分野の最新の開発について共有し、学習している。

サンノゼで行われる今年の大会の、もっともホットな話題を知るために、この週全体にわたるコンテンツ(教育訓練クラス、キーノート、プレゼンテーションなど)のタイトルに登場する言葉の頻度を数えてみた。当たり前のような言葉(Hadoop, data, analytics, Apacheなど)を取り除いて集計すると、上位の語彙は下図のようになる:

pasted image 0 (10)

このデータをじっくり見ると、ビッグデータ界隈における、いくつかの重要なトレンドが浮かび上がってくるのではないだろうか。

Sparkの採用と関心が成長を続けている: 採用の絶対数では依然としてHadoopがトップだが、このところ、ビッグデータのエコシステムにおけるSparkの成長が著しい。HadoopとSparkは二頭の王座、と言えるかもしれない。とりわけSparkはユースケースの幅が広くて、データのパイプライン処理や、データサイエンスワークロードの並列処理といった分野でも利用されている。

ストリーミングとリアルタイムが“次の大物”: 上図では、“streaming”や“real-time”と並んで、“kafka”、そしてKafkaの商用ディストリビューションである“confluent”が上位に来ている。今企業は、Hadoopのクラスタにデータをバッチでロードし処理することには成功し、次の段階として、リアルタイムのデータ取り入れ、処理、そして分析へと関心を移しつつある。

視覚化は依然として重要: AtScaleのHadoop Maturity Surveyによると、最近の企業はますます、Hadoop上のビジネスインテリジェンスユースケースの展開に力を入れつつある。その関心は、データサイエンスへの投資を上回っている(メディアは今でもデータサイエンスを“セクシー(ナウい!)と持ち上げているけど)。データの視覚化とセルフサービスは、Hadoopの世界においても、今後も重要な投資対象であり続ける。

SQL-on-Hadoopが脇役から主役に昇進: 上図のHadoop World上位語彙のリストにはSQL-on-Hadoopが見当たらない。前年までは、Hiveに始まりImpalaやSparkSQL(そしてそのほかの商用SQL-on-Hadoop製品の数々)に至るまで、これらの技術に対する熱い関心があった。しかしSQL-on-Hadoopは勢いが衰えたのではなくて、Hadoopツールキットにおける“必須品目(must have)”になり、メインストリームの一員になったのだ。Hadoop上のビジネスインテリジェンスに関する最近のベンチマークが示しているように、今ではこれらのSQLエンジンが大規模で分析的なSQLワークロードをサポートしている。

インメモリサブストレート…それは次の最適化か?: 語彙リストの上位に登場している“alluxio”とは、なんだろうか? Alluxioは、最近Tachyonから改名された仮想分散ストレージシステムだ。それはメモリ基板(サブストレート)を利用するストレージなので、クラスタ間のデータ共有がメモリのスピードで行われる。SQL-on-Hadoopエンジンの場合ならそれによってクェリの時間が速くなりパフォーマンスが上がる。Alluxioを採用したBaiduの経験でも、確かに彼らの分析的データ処理がスピードアップしている。

Hadoopの採用が最大の関心: “adoption”と“production”がリストの上位: 今では多くのIT組織が、次世代のデータプラットホームとしてHadoopに大きな期待を寄せ、ワークロードをTeradataのようなレガシーシステムから、もっとローコストでスケーラブルな環境へ移行させつつある。これらの組織にとって重要なのは、彼らのHadoopへの投資が、ビジネスインテリジェンスなどの中核的なビジネス機能によってプロダクションクラスタ(実用・現用システムで使われるクラスタ)の形で採用され、現実にコスト低減に貢献している、と実証することだ。“production”へのこだわりは、試用やパイロットの段階を超えた実践実用レベルへの関心の強さを表している。

クラウド上のビッグデータを忘れるな: AmazonとMicrosoftの二社がリストに登場している。Hadoopへの取り組みが遅かったMicrosoftも、今ではビッグデータの分野で大きな成功を収め、HDInsightのようなサービスを提供している(WindowsではなくLinux上で動く!)。そしてAmazonは前から一貫して、ビッグデータの分野に大きな貢献を果たしている。中でもとくにRedshiftは、S3やEMR(Elastic MapReduce)などの人気サービスを補完するサービスとして、採用が引き続き増加している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ビッグデータ技術者のいない中小企業のためにHadoopクラスターを5分で立ち上げるGalactic Exchangeがオープンソースでスタート

shutterstock_230176666

Galactic Exchangeというクールな名前の企業が今日(米国時間3/24)ステルス状態を脱(ぬ)けて、そのすばらしいアイデアを披露した。同社の主張によると、同社はHadoopのクラスターを5分でセットアップし、即、動かせるようにする。複雑で面倒で難しいと言われていたHadoopが、誰にも簡単に使えるようになるのなら、それはすごいことだ。

同社のプロダクトClusterGXは、今週サンノゼで行われたStrata+HadoopWorldでベータでリリースされた。クラスターの上で動くアプリケーションとそのためのデータは、ユーザーが自分で用意しなければならない。

このプロダクトは、Hadoopのクラスターを短時間で立ち上げられるだけではなくて、オープンソースだから今後ユーザーの寄与貢献で改良していけるし、しかも無料で使える。ただしビッグデータを扱うHadoopはデータ用に大量のストレージを必要とするから、そのためのクラウドインフラにはお金がかかる。

Galactic Exchange自身も慈善事業ではないから、今後はセキュリティ機能やビジネス関連の機能を完備したエンタプライズバージョンを、収益源にしていくつもりだ。そのためにはもちろん、最初の無料のオープンソースバージョンが、企業ユーザーにとって魅力的でなければならない。

同社のプロダクトは、Hadoopとビッグデータ分析を導入したいが技術者がいない、という典型的な中小企業が主なターゲットだ。CEOのRob Mustardeは、そう説明する。

どれぐらい、簡単なのか? Mustardeによると、スマートフォンにアプリをインストールするぐらい簡単だそうだ。インストール先は、WindowsでもLinuxでもOS Xでもよい。あるいはベアメタル(つまり専用クラウドサーバー)でもよい。

同社は長期的には、HadoopやSparkに限定されない幅広いサービスを提供していきたい、と考えている。Mustarde曰く、“長期的なプランは、ユーザーのアプリケーションとコンピューティングと仮想ストレージが完全に一体化した環境を提供していくことだ”。

今に関して言えば、オープンソースのプロダクトで立ち上がるのは賢明なやり方だと思える。Enterprise Strategy GroupのアナリストNik Roudaのところには、そんなやり方を肯定するデータがある。それによると、“われわれの調査では、企業でビッグデータ戦略を任されている人たちの90%以上が、ベンダがオープンソースで積極的な活動をしていることを、高く評価している。そして24%が、Hadoopの環境は純粋にオープンソースのディストリビューションで構成したい、と言っている”。

今週スタートした同社にとっても、これはまさに吉報だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

BIサービスのTableauがドイツのHyPerを買収してビッグデータ分析を高速化

shutterstock_1301396992

BIサービスのTableauが、ドイツの先進的データベース企業HyPerを買収したことを発表した。Tableauのねらいは、彼らの技術を自社のプロダクト集合に組み入れることだ。

Tableauはビジネスインテリジェンスとデータ分析の企業として、企業顧客が自分たちのデータからインサイトを得ることを助けている。大学の研究から生まれたHyPerのデータベース技術は、Tableauのすべてのプロダクトのパフォーマンスを向上させる。Tableauのエンジニアリング担当シニアディレクターPatrice Pellandは、そう説明する。

“HyPerはダイアモンドの原石だ。ミュンヘン工科大学(Technical University of Munich, TUM)の研究チームがそれを開発した”、とTableauは述べている。

Tableauは実は、この若い企業に前から注目していた。最初に発見したのは、データベース技術に関する学界の場だった。その技術が姿をなしてくるにつれてTableauは、それが同社のBIサービスによくフィットしていることが分かってきた。

HyPerがTableauに持参する能力の中には、データ分析の高速化がある。それは、データセットのサイズとは無関係であり、トランザクションのシステムと分析システムを一体化してプロセスをスピードアップする。またその多様な分析能力は、定型データと非定型データの両方をサポートし、ビッグデータの分析に威力を発揮する。

まだ生まれたてほやほやのHyPerは資金もなく、Tableauが買収しようとしたとき、顧客もいなかった。買収の条件をTableauは公表していないが、Tableauのスポークスパーソンによると、“それは現金以外の取引なので公表はできない”、という。つまり、おそらくそれは1億ドルに満たない価額と思われるが、まだ新生児のような企業だから、それも当然かもしれない。

HyPerのトップは、TUMの二人の教授で、これまで院生たちとともに研究を続け、HyPerデータベースシステムの開発に至った。Tableauも数年前に、大学(スタンフォード)の研究プロジェクトから生まれた。つまり両者は‘大学発’というルーツを共有する。二人の教授は当面コンサルタントとして仕事を続け、プロジェクトに関わった4人のPhDは、ミュンヘンに設けられるTableauのR&D部門を担当する。

そのオフィスは今後拡張する予定だが、最初何名の社員でスタートするかは、公表されていない。

今現在、彼ら新しい社員たちは、シアトルにあるTableauの本社を訪れて、技術者たちとHyPerのデータベース技術とTableauのプロダクトとの統合について、話し合っている。

これはTableauの二度目の買収だ。“うちの企業をもっと良くする機会はいつも探しているが、企業文化という重要なものがあるので、買収にはつねに慎重だ”、とPellandは述べる。

なお、Tableauは2013年に上場し、昨年7月には一株127ドル44千とという高値をつけた。しかし今週水曜日(米国時間3/9)の時間外では、42ドル64セントと落ち込んでいる。今年のテクノロジー株は年初から良くないが、Tableauの下げは激しすぎる。

〔ここにグラフが表示されない場合は、原文を見てください。〕

[graphiq id=”3oaS89DzStf” title=”Tableau Software Inc. (DATA)” width=”700″ height=”414″ url=”https://w.graphiq.com/w/3oaS89DzStf” link=”http://listings.findthecompany.com/l/14692592/Tableau-Software-Inc-in-Seattle-WA” link_text=”Tableau Software Inc. (DATA) | FindTheCompany”]

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

データを発見しそれらの起源・出自を調べるLinkedInの社内ツールWhereHowsがオープンソース化

linkedin-chocs

LinkedInが今日(米国時間3/3)、WhereHowsをオープンソース化した。WhereHowsは主に同社の社員が、同社が生成するデータを見つけ、また同社のさまざまな内部的ツールやサービスで使われているデータ集合の出自を調べるために使っている、メタデータツールだ。

今では多くの企業が毎日のように大量のデータを作り出しているから、それらの情報のフローを全社的に管理することがほとんど不可能になっている。データウエアハウスに保存するのはいいけれども、結局のところ、同じようなデータ集合が大量に集積したり、元のデータ集合のいろんなバージョンが散乱したり、いろんなツールで使うためにデータ集合がさまざまに変形されていたりする。まったく同じデータが、名前やバージョンを変えて複数のシステムにあることもある。だからたとえば新製品開発をこれから始める、というとき、あるいは単純に役員が見るためのレポートを作ろうとするとき、どのデータ集合を使えばよいのか、よく分からないことが多い。

2016-03-03_0839

LinkedInのShirshanka DasとEric Sunによると、同社もまさしく、この問題に直面していた。そこで彼らは、WhereHowsを開発した。それは、LinkedInのような大きな企業で、データに何が起こっているかを常時追跡するための、中央的リポジトリ兼Webベースのポータルだ。今では中小企業ですら、大量かつ雑多なデータの整理や管理に悩まされているだろう。LinkedInでは、WhereHowsが現在、約5万のデータ集合と14000のコメントと3500万のジョブ実行の、ステータスに関するデータを保存している。それらのステータスデータは、約15ペタバイトもの情報に対応している。

LinkedInはHadoopの大ユーザーだが、このツールはほかのシステムのデータも追跡できる(Oracleデータベース、Informatica、などなど)。

WhereHowsはAPIとWebの両方でアクセスできるから、社員たちはデータ集合の出自や由来を視覚化したり、注釈を加えたり、いろんなことができる。

DasとSunによると、LinkedInは、そのサービス本体に属していないプロダクトをこれまでも長年、オープンソース化してきた。その基本的なねらいは、会話を喚起することだ。ビッグデータの大きなエコシステムがあれこれのツールを採用すると、同社もそのことで結果的に得をする。これまでぼくが取材してきた多くの企業と同様に、LinkedInでも、オープンソースが同社の技術のブランドイメージを高め、すぐれた人材の獲得を容易にするのだ。

2016-03-03_0844

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Databricksの無料Spark学習コースにオンラインのマイクロインスタンスCommunity Editionが補助教材として加わる…受講者10万超をねらう

shutterstock_230086303

Apache Sparkオープンソースプロジェクトの商用実装をビジネスとするDatabricksが今日(米国時間2/17)、Sparkの使い方を人びとに教えるための、無料のCommunity Editionをリリースした。それは、同社が昨年作った無料のオンラインコースMOOCs〔複数形〕)の教材として利用される。

この無料バージョンは有料のエンタープライズバージョンにある高度な機能はなくて、Sparkによるビッグデータ処理の初歩を、小さな単一のSparkインスタンス(“マイクロインスタンス”)で学んでいく。

同社のMOOCsは驚くほど好評で、これまで50000名が受講、演習やテストを含め全課程を終了した者は20000名に達する。DatabricksのCEOで協同ファウンダーのAli Ghodsiが、そう説明した。

Sparkを学びたいという関心がこれほどまでに大きいことを見た同社は、コースの補助教材としてCommunity Editionを作ることにした。Community EditionとMOOCsを結びつけることによってDatabricksは、地球上のへき地に住む低所得の人たちにも、データサイエンスの初歩とSparkを教えることができる。つまり、コンピュータとインターネット接続と、コースを完了する意志さえあれば、誰でもコースを受講できる。

学習者はDatabricksの基礎的な機能にアクセスして、マイクロクラスタの作り方とか、クラスタ管理ツールの使い方、ノートブックやダッシュボードの作り方を学ぶ。もっと大きなクラスタの作り方や高度な機能を会得したければ、クレジットカードをスワイプして本格的なビジネスコースへ進めばよい。

Databricksに投資しているAndreessen Horowitzの協同ファウンダーでパートナーのBen Horowitzによると、Community Editionによってビッグデータとその分析の敷居が、きわめて低くなり、誰もが気軽に学べるものになった。

“それまでは自分でクラスタを作るか、あるいは大学のコースなどに毎月何千ドルも払って、データサイエンスや高度なデータ分析、機械学習などを本格的に勉強する必要があった”、とHorowitzは声明文の中で言っている。

安上がりをねらった同社は、まず、学習者がクラスタの構築や保存のために使うコンピューティングリソースとして、Amazon Web Servicesを利用している。その高度な共有環境を同社が細心の注意をもって管理することにより、低コスト化に成功している。

“仮想マシンを共有することにより、コストを大幅に下げることができた。同じリソースを複数の学習者が再利用していくから、無駄が生じない。その方法をMOOCの一つで試してみて、意外なほどうまくいったんだ”、とGhodsiは語る。

もちろんこれは、慈善事業ではない。たくさんの人間にSparkと関連ツールの使い方を無料で教えれば、その後、その中の何人かが必ず有料の顧客になる、と同社は確信している。同社はすでに、MOOCsでそんな経験をしている。Community Editionが加われば、それがもっと増えるだろう。

“これはとても優れた見込み客生成プロジェクトだ。うちの企業経営に大きく貢献するだろう”、と彼は語る。

DatabricksのMOOCは、今年もっと増える。そして来年には、受講者数を10万人以上にもっていきたい、という。無料のCommunity Editionが好評なら、それも夢ではないだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

マイケル・ジョーダンやマーク・キューバンも出資する、スポーツ界のビッグデータ企業「Sportradar」

cuban3

本稿執筆はKatie Roof

マイケル・ジョーダンも、そしてマーク・キューバンも、スポーツ界における「ビッグ・データ」関連事業の勝者はSportradarとなるだろうとふんでいる。Sportradarはスイス発のスタートアップだが、米国でも存在感を増しつつあるところだ。上に名前をあげた2人はRevolution Growthの主導したラウンドにて4400万ドルを出資しており、新たに用意されたアドバイザリーボードの地位にも座ることとなった。

成長も急な同社は、さまざまなアプリケーションを開発しており、また最近になってNFL、NASCAR、およびNHLなどとも契約を締結した。取り扱うデータはファンタジースポーツでも利用され、またソーシャルメディアでも活用されるようになってきている。スポーツくじを購入する際にも、データを利用する人が増えてきている。

「Sportradarは、スポーツ界におけるデータビジネスの主導的地位を狙っているのです」と、マーク・キューバンは言っている。「社内のデータサイエンティストも素晴らしい人材が揃えられています」とのこと。

ワシントンでいくつかスポーツチームを所有し、またRevolution Growthの共同ファウンダーであるテッド・レオンシス(Ted Leonsis)もSportradarの取締役に名を連ねている。「ウォール街と同様に、スポーツもまたデータで語り得るものなのです」とレオンシスは言っている。「プレイヤーやチーム、ないしリーグに関するリアルタイムの情報を求めている人は、世界中にあふれているのです」とのこと。

Sportradarの集めたデータは、スポーツチーム自身が自らの強化のために使うことも考えられるし、またファンタジー・フットボールに熱中する人も、ここからさまざまなヒントを得ることができるだろう。数多くのデータを扱い、DraftKingsやFanDuelに熱中する人がぜひとも手に入れたいと考えるデータで溢れている。またスポーツ団体が、競技の魅力を訴えるためのアプリケーションを制作する際に利用するというケースもあるだろう。

Sportradarによれば、48競技で行われている325,000のゲームについてライブ情報を入手しているのだとのこと。GoogleおよびYahooもSportradarから情報を入手している。ちなみに競合としてはStatsの名を挙げることができよう。

Sportradarには1000名の開発者がおり、各スポーツに関する専門家がいて、ヨーロッパのプライベートエクイティ投資会社であるEQTも資金を提供している。

原文へ

(翻訳:Maeda, H