ビッグデータ分析/視覚化で異色の技術を築いたQuidが早くもシリーズDで$39Mを調達

独自の高度な形でデータの視覚化を行うQuidが、3900万ドルの資金調達を発表した。昨年秋に創業4年を経過した若い企業だが、今回の資金調達がすでにシリーズDである。

Quidは自分のことを、“各種の調査研究とそれらの結果からインサイトを得る過程を加速する人工知能企業で、とりわけ、世界でもっとも複雑な問題を扱う”、と説明している。具体的にはそれは、何百万ものドキュメントを処理して、その結果のヴィジュアルマップを作る、というサービスだ。たとえば企業のために、プロダクトのローンチに対するオンラインの反響を視覚化したりする。

同社のことをかつて本誌TechCrunchは、世界でいちばんうぬぼれのでっかいWebサイトと評したことがあるが、しかし今ではホームページのメインタイトルも、自分たちの技術のマーケティング的な売り込みコピーになっており(上図)、またHyundaiやMicrosoft、Boston Consulting Groupなどメジャー企業の顧客からの評価を引用している

本誌が2010年に同社を取り上げたときには、もっぱら最先端技術を追っていたが、今では対象がもっと広くなっているようだ。Quidによると、現在の顧客数は80で、プラットホームは昨年の初めに一新している。

今回の投資ラウンドを仕切ったのはLiberty Interactive Corporationで、これにARTIS VenturesとBuchanan Investments、Subtraction Capital、Tiger Partners、Thomas H. Lee Limited Family Partnership II、Quidの取締役Michael Patsalos-Fox、Quidの会長Charles Lhoなどが参加した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa


今なぜApache Sparkが急成長しているのか…各種現場での実用速度を達成したビッグデータ分析

[筆者: Vaibhav Nivargi]

編集者注記: Vaibhav Nivargiはデータ分析サービスのプロバイダClearStory Dataのファウンダでチーフアーキテクト。

今週はApache Sparkの、今急速に大きくなりつつあるコミュニティがニューヨークに集まり、自分たちのコラボレーションによりSparkが今日のもっとも人気の高いオープンソースプロジェクトに育ったことを祝った。

U.C. BerkeleyのAMPLabで2009年にローンチしたApache Sparkは、最近の1年半で急激に人気を高めた。Sparkのコントリビュータは2014年で500名近くになり、Apache Software Foundationと世界中のオープンソースのビッグデータプロジェクトの中でもっともアクティブなプロジェクトになっている。

われわれも、かなり早い時期から、このクラスタコンピューティングのプラットホームに着目し、もはや自分のソフトウェアをすべてスクラッチで作る時代ではない、と感じていた。

それはインメモリの並列処理により、同じくインメモリのHadoop MapReduceの100倍速くプログラムを動かすことができ、ディスクを使った場合でも10倍は速い。これによって複数(〜数10件)のデータソースを瞬時にしてブレンドしたり、統一することができる。

Gartnerによると、2016年には全企業の73%がビッグデータに投資していると思われるが、しかしそれでも、大半の企業はビッグデータのメリットを十分に生かすことができない…彼らはビッグデータを十分に管理できないからだ。

Sparkは今多くの企業や団体が採用しており、2014年のGray Sort Benchmark、Daytona 100TBカテゴリーではソートの世界記録を樹立した。

ビッグデータを扱う場合Sparkには、Hadoopとの互換性という利点もあり、また、そのリッチなAPIにより、JavaやPython、Scala、それにSQLなど、人気の高い言語で、ソフトウェアのコードをよりシンプルに書ける。構造化データと非構造化データの両方を扱え、機械学習やデータマイニングもサポートしている。

Sparkを全面的に統合したアプリケーションは、さまざまな分野の企業の指導者たちに、反復的データ集合の巨大なワークロードを、これまでに彼らが想像したことがないほど高い効率性で処理して、そこから得られるインサイトを提供する。どんなに大きくて複雑なデータに対しても、われわれはSparkによって初めて、データを探究する自由を獲得する。企業内で日々、あちこちに数多くの‘データの孤島’が肥大していても、もはや臆する必要はない。

Sparkのアーリーアダプター

Sparkのアーリーアダプターは、一般消費財や保険、メディア、エンタテイメント、製薬、小売業、自動車などの業界に多い。おおむね、消費者対象の業種が多い、と言える。

一般的な消費財の企業では、顧客分析が日々のビッグデータワークのルーチンになるから、Sparkにいちばん飛びつきやすいユースケースだ。顧客のビヘイビアを分析してそのインサイトやモチベーションを得ることは、消費財企業の毎日の最優先事項だ。これまでこの業種では、製品や顧客に関する多様な、互いに無関係なデータから得た、複数の孤立的な視野しか持ち得なかった。しかし今では店内の製品配置に対する顧客の反応や、オンラインとオフラインのトレンドの違い、地域差などのデータを素早く獲得して、より深い顧客理解に、そして究極的には売上の増に、結びつけることができる。

速いサイクルのデータ分析から迅速にインサイトが得られることによって、サプライチェーンの全体にわたるリアルタイムに近いビューが得られ、地域別に売上の最大化を図れる。原始データは、ERPやサプライチェーン、Dun & Bradstreetのような外部データソースなど、ばらばらなデータとして入手される。そしてこれらをビッグデータ分析により統一混淆(blend)することによって、より深い顧客理解が得られる。この、多種類ばらばらのデータソースの統一〜混ぜあわせという、ビッグデータ分析の手法により、消費財企業のトップは日々の操業に関する全体的な視野を獲得し、それに基づいて、速くて各部門協力的/連携的な意思決定を行うことができる。

同様に、データドリブンなヘルスケアや製薬産業では、全体的な視野やインサイトがより速く入手できることにより、診断から治療へというサイクルを早めることができる。Apache Sparkを利用するとユーザは大量のデータを大きな遅れなく処理でき、結果を全体的なパターンと照合して患者の危機を早期に発見でき、介護等のスタッフに周知徹底できる。このような早期警戒システムは命を救うだけではなく、薬剤、検査、などの費用の削減にも貢献する。

今Sparkは多方面から注目されつつあるが、しかし忘れてならないのは、分散コンピューティングのフレームワークが依然として複雑な生き物であることだ。Sparkだけをベースとするシステムでも、特定の問題集合に対する完全なソリューションを作り出してメンテナンスするためには、いろんな領域にわたるスキルと、細部にわたる相当量の実地体験を必要とする。言い換えるとビッグデータ分析が真に有効であるためには、データサイエンティストの技能と知恵と視点に加えて、経験豊富で優秀なドメインエキスパートを必要とする。

Sparkのプロジェクトが今後健全に進化していくためには、エンタプライズデータインテリジェンスのこれからのイノベーションが、以下の問題に取り組む必要がある:

より有効なビッグデータ分析のために

いろんなソースからデータを持ち込むようになると、そういう多様な情報のとりあえずの置き場として、サイロがたくさんできてしまう。さらに、多くの企業に実際に見られる現象として“データの湖”(data lakes)ができ、互いに脈絡のないデータのごみの山がそこへ放り込まれていく。そういう、現実的にはすっきりと行かないデータの状況に対する、適切な管理が必要だ。

また、ビッグデータ分析を本格的に活用するためには、Spark以外のものも必要である。ドアを開いたのはSparkだが、実際にビッグデータの高速リアルタイム分析の利点を生かせるためには、バックエンドのSparkに、改良され最適化されたAPIや、柔軟なスケーリング、ジョブスケジューリング、ワークロード管理などなどを結びつけていくことが必要だ。

2016年ごろまでには、さまざまな業種の、これまでよりも多くの企業が、Sparkがもたらす価値を理解するようになるだろう。その、サイクルの速いデータ分析がデータドリブンなインサイトをもたらし、人への理解を深め、人間と企業と社会にさらにモアベターな変化を起こす。

Apache Sparkの上に構築されるデータインテリジェンスプラットホームによって可能になる、新しい機能や能力を企業や組織が自分のものにしていけば、タイムツーインサイト(time-to-insights, インサイトが得られるまでの時間)の短縮と高速化により、大きなアドバンテージが得られ、市場における競争力も強化されるのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa


新薬の候補物質をスパコン+ニューラルネットで迅速に見つけるAtomwise

カリフォルニア州Mountain Viewの彼のアパートから電話に出たAtomwiseの協同ファウンダAlex Levyは、“医者や薬屋に行かなくても、自分の家で、はしかの治し方が分かるんだよ”、と言った。

Y Combinatorの今の‘在学生’であるAtomwiseは昨年、一般的によくある疾患や、希少疾患の治療法を見つけるためのプロジェクトを10以上ローンチした。いずれも、治療に費用や時間がかかりすぎる病気だ。同社はエボラ出血熱ではIBMと協働し、はしかの治療法ではカナダのダルハウジー大学と共同研究をした。Levyによると、同社は、多発性硬化症の治療薬候補を見つけるために、わずか数日で820万種の化合物を調べた。

一般的に、新薬を開発して市場に出すまでには平均12年の年月と約29億ドルの費用を要する。開発される薬のうち、めでたく家庭の薬棚に収まるのは、ごくわずかだ(治験にまで行くのは5000件の研究開発案件のうち、わずか1つ)。

まだ存在しない仮説的な薬を調べることもできる。

—-Atomwise協同ファウンダAlex Levy

Atomwiseは、スーパーコンピュータと人工知能と、何百万もの分子構造を調べる特殊なアルゴリズムを使って、新薬発見のローコスト化を実現しようとしている。

“それはまるで超人の脳みたいに、何百万もの分子を分析してそれらの作用を、数年ではなく数日で調べる”、とLevyは言う。その仮想薬物発見プラットホームは、ディープラーニングを行うニューラルネットワークがベースだ。それは、既存の薬の分子構造と作用に関する何百万ものデータポイントを自分で学習するところから、仕事を開始する。

Atomwiseが使っているディープラーニング技術は、GoogleのDeepMindと同じようなタイプだが、応用の対象が医薬品という重要な分野だ。症状と治療薬のペアを見つけていくこの技術は、理論的にはまだ存在しない、今後ありえるかもしれない病気の治療薬を見つけて、何百万もの命を救うかもしれない。

“まだ存在すらしていない仮説的な薬を調べることもできる”。とLevyは言う。“新しいウィルスが登場すると、Atomwiseはその弱点を見つけて仮説的な治療法を素早く特定し、テストできる”。

また、現在市場に出回っている薬の化学構造をあらためて調べて、既存の疾患の治療可能性を見出すこともある。Atomwiseは今、FDAに承認され市場に出回っている薬の分子構造を調べて、エボラ治療薬の候補を見つけようとしている。

[写真: 細胞上で増殖するエボラウィルス]

今、多くの医療専門家たちが、今後20年で抗生物質耐性菌が急増して、あらゆる抗生物質が効かなくなり、巨大な医療危機をもたらす、と警告している。Atomwiseのスーパーコンピュータは、そんな手強い菌にも効く薬を見つけるかもしれない。

Atomiseが見つけた化合物がいきなり家庭の薬棚にやってくるわけではないが、しかし大量の分子構造を調べて候補を見つけるという作業を、コンピュータが短時間でやってくれることは、ありがたい。原理的には人間研究者は、そのあと、つまり候補物質を調べるという作業だけをやればいいから、新薬発見〜市場化に要する時間も短縮されるはずだ。

ただしAtomwiseはまだ若い企業で、治験にまで行った薬はまだ一つもない。製薬業界にとっては、大助かりな技術と思えるけど。

“もちろん試験は必要だけど、そこに至りつくまでの推量的作業を、すべてうちが代行できる”、とLevyは言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa


企業がデータサイエンティストたちを有効活用できるためのツールを提供するYhatがY Combinatorで営業展開を学ぶ

【抄訳】

YhatのファウンダGreg LampとAustin Ogilvieは、中小企業にローンを提供して成功しているOnDeckでデータサイエンティストチームの一員として仕事をしているとき、ある問題に気づいた。

データサイエンスのチームがクールなアイデアを提案しても、エンジニアたちは、適切なツールがないのでそれらをさっさとアプリケーションへ実装することができない。そこで二人は、二つのチームがもっと効率的に仕事ができるためのツールを作ろう、と決心した。そのツールが、その後Yhatの創業に結びつく(Yhatは“ワイハット”と発音する)。

Lampはこう説明する: “データサイエンティストのチームが仕事や意思決定のための新しいクリエイティブな方法を編み出しても、エンジニアリングがそれについて行けない。Austinとぼくは両者の板挟みになって動きがとれず、OnDeckの業務に対してデータサイエンティストたちがやった分析結果などはどれも、棚の上で埃をかぶっていた”。

データサイエンティストたちの仕事から価値を取り出すための、もっと良い方法があるはずだ、と彼らは考えた。

彼らの最初のプロダクトScienceOpsは、データサイエンティストたちがRやPythonなどのツールを使ってプロジェクトを作っていくときの、チーム内のコミュニケーションをより有効にするためのソリューションだ。でも、それは彼らの最終目的ではない。

データサイエンティストたちのアイデアが早期に会社の業務に生かされるためには、エンジニアたちや、職場のラインの人たちが、容易にアプリケーションを実装できなければならない。

片手間で始めたYhatがその後利用者が多くなり、忙しくなったので、二人は2013年の6月にOnDeckを辞めてYhatに専心することにした。同時にYhatのオフィスも、彼らのブルックリンのアパートから、今のマンハッタンのシェアオフィスに移った。

その2003年には100万ドルのシード資金も獲得し、本格的な成長が始まった。そして今ではY Combinator の2015年冬季クラスに参加している。彼らのようなすでに内容的にかなり成熟しているスタートアップにとってYCは、営業や見込み客発掘について本格的に学べる点にメリットがある、という。

【中略】

2014年には第二のプロダクトScienceBoxをローンチした。それはデータサイエンティストたちが共同でデータサイエンスのプロジェクトを作り、共有していくためのツールだ。

Yhatの顧客たちは何をやってるかというと、たとえばレーシングチームのNASCARは、データの有効利用によってピット内の意思決定をより良質にするための方法を探求している。

“NASCARのチームにとってビッグデータの利用は初めてだったけど、もっと前からやっているべきだった、と彼らは思っている。彼らは自分たちの現状が後れていることを認めていて、はやく今のデータサイエンスの最先端に行きたい、と願っている”、とLampは説明する。

Condé Nastも、Yhatの顧客だ。今や出版社もデータドリブンで仕事を進めており、50名近くのデータサイエンティストが社内の各所に分散している。彼らもまた、Yhatのプロダクトを重宝している。

ScienceBoxは、データサイエンスを学ぶ大学のコースでもよく利用されている。クラスで必要になるいろんなツールが、その中に揃っているからだ。ScienceBoxの前には、いろんなツールを教授〜講師が個人的に拾い集めて、講義環境をセットアップしなければならなかった。

Yhatは今すでに、かなりの顧客ベースを構築しているが、でも大半の企業にデータサイエンティストが一人か二人(ときには〇人)しかいない現状では、まだまだ本格的な事業拡大は難しい。Lampらもそのことを自覚してはいるが、今のところ社員7名の同社は、毎日大量の仕事に追われている。

Lampによると、今データサイエンスは大学の学士課程の専攻科目として人気急上昇中で、またデータサイエンス〜統計学の研究者たちも企業に高給で引き抜かれる例が増えている。データサイエンスの黄金時代の夜明け前、とも言える今は、Yhatにとっても、起業の良いタイミングだったと言える。

ところで、Yhatという企業名の意味や由来を知りたいと思った読者は多いだろう。ぼくも実はそうだった。それは、統計学のある測度を表すドイツ語で、データサイエンティストたちの仲間内のジョークでもある。〔回帰式において従属変数Yの予測値を表す。〕

Lampによると、同社がターゲットとするオーディエンスたちは、このジョークがすぐに分かる。でも、ほかの人たちには毎回説明しなければならない、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


これからの企業はビッグデータ分析をコピー機並に気軽に常用すべき…機械化はすでに始まっている

[筆者: Mark Gazit]

編集者注記: Mark Gazitはイスラエルのサイバーセキュリティのトップエキスパートの一人。イスラエル空軍で国防のためのサイバーセキュリティを担当し、今ではThetaRayのCEOである彼は、サイバー防衛の分野で長年高く評価されている。

ビッグデータの分析をするときは、データをよく理解してその秘密を解き明かし、闇に隠れていた真実を明るみにさらさなければならない。それはまさにそうではあるけれども、しかし、データはいろいろな側面を抱えており、その分析方法や使われ方次第で大きく異なる話を明かしてくれる。それは、データを解釈する人間の心が、それぞれ異なるためでもある。

誰が質問をするのか?

ビッグデータの分析には唯一の正しい方法というものはなくて、そこには必ず、人による違いというバイアスがかかっている。分析から得られる答えにも、同じくバイアスの影がある。同じデータを複数の人間が見て、それぞれ異なる結論に達するとしたら、ではその中のどれが正しいと言えるのだろうか?

データサイエンスを利用して生データから取り出した知識に、企業や組織にとって重要な価値や機会(ときにはリスク要素)が見出されることは多い。しかし分析の方法が、その価値を大きく左右する。

ビッグデータから有意な答えを取り出すためには、アルゴリズムにどんな問いを尋ねさせるのかを、データサイエンティストが決めなければならない。しかし質問者が人間であるかぎり、そこにはどうしても、意図せざるバイアスが導入される。さらに、クェリを選ぶ役を担うデータサイエンティストが、組織内の専門家であるドメインエキスパートよりも経験知識が浅くて、“正しい質問”を作れないことも多い。

たとえば国の規制に関する質問なら、コンプライアンス担当部局の日常の仕事をよく知らないサイエンティストよりも、コンプライアンスマネージャの方がずっと良い質問を尋ねられるだろう。同じことが。CISOと、インサイダー問題を担当している役員との違いについても言える。しかしそれでは、データチームには常時、いろんな人がたくさんいればよいのか? そういう、現場の問題をよく知っている人が会社を辞めたら、どうするのか?

データサイエンティストは必要かつ重要であり、データ量が増えてくると経験豊富なデータサイエンティストが必要になる。しかしそれと同時に、計算機の仕事を人間にやらせると、遅くなり、非科学的になり、急速に質が劣化しがちだ。なぜなら、人間の心はビッグデータで生じる量子的飛躍*について行けないからだ。〔*: 蓄積された大量データだからこそ得られる知見や洞察。〕

スケーラビリティの問題

データが急速に成長しているときは、スケーラビリティがビッグデータとデータサイエンスにとって緊急の問題になる。MGIとMcKinseyの調査によると: “合衆国だけでもデータ分析の専門家が14万ないし19万人不足しており、またビッグデータの分析に基づいて意思決定のできる管理職やアナリストが150万名不足している”、と言われる。データサイエンティストはすでに供給が不足しており、その一方で企業や組織が生成し、利用したいと願っているデータの量は増え続けている。そしてそんな中でヘルスケアなど社会の重要なインフラストラクチャに関わる業界のすべてが、ビッグデータを利用して仕事を加速し、問題を解決したいと願っている。

GEとAccentureが共同で行った調査によると、“全業界で調査対象企業の80〜90%が、ビッグデータ分析が最優先事項または最優先三項目の一つとしている”。さらに、“製造業企業の上級役員の53%が、ビッグデータ分析がすでに取締役会のレベルで取り組まれている”。需要がこれだけ熟し、しかも多くの場合リアルタイムのデータ分析が求められているとき、では、データサイエンティストの供給はどうだろうか? 能力と経験のあるデータサイエンティストが、すぐに見つかるだろうか? 見つからない。供給のスケーラビリティは、大きな、しかも喫緊の解決を要する問題だ。

幸いにも、この問題のソリューションはすでに、手の届くところにある。

機械学習

より賢明で効率的な方法は、ビッグデータの分析とクェリをデータサイエンティストにやらせずに機械学習にやらせることだ。その場合データサイエンティストには、機械学習の出力を検査し分類する仕事がある。異状や特例事象、問題などの発見は、人間にしかできない*。〔*: 本稿では、クェリセットの決定など、機械学習システム稼働に至るまでの初期的構成や設定、セットアップ等は経営トップや各業務の現場がイニシアチブをとる、という前提。〕

技術の進歩によって今では、高度な分析アルゴリズムが大量の複雑なデータから短時間で問題を検出あるいは予測できる。偏りや擬陽性などの間違いも、少ない。

機械学習によって自動化されたビッグデータ分析は、今では信頼性も高く、正確で、人出による介入を要さずに企業のさまざまなニーズに対応できる。データサイエンティストはビッグデータから問題や傾向を検出する作業を機械化して、自分はその出力の点検や解釈に集中できる。企業はそれによって、ビッグデータ分析を利用するソリューションの長期的な費用を節減できる。

企業はビッグデータ分析の最適化を妨げていた問題、中でもとくに厄介な人間的要素を解決することによって、自分が抱えるビッグデータの中からあらゆるタイプの凶兆や好機を迅速に見つけることができる。今はどんな企業・組織でも、人間と機械が毎日生成するデータの量がきわめて多いので、簡単迅速で精度の高いビッグデータ分析を常用することは、企業の生死を握るといっても過言ではないぐらいに重要だ。企業はそれによって諸状況への感度を高め、つねに、企業目的に沿ったタイムリーな意思決定ができるようになる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


CoreOSとDockerの上でビッグデータ分析の敷居をフロントエンドプログラマ向けに低くするPachyderm

大量のデータを集めてそれを分析するときは、MapReduceと呼ばれる技法を使うのが、最近の定石だ。具体的には、それを実装しているApacheのHadoopというフレームワークを利用する。それはすでに評価が確立している方法だが、簡単ではない。主にJavaで書かれているHadoopは、使い方が難しい、と評価されている

本格的にデータ分析をやろうという気になった企業はHadoopとMapReduceを扱い慣れているエリートプログラマを雇うか、またはそれをしろうとでもできるようにしてくれるClouderaのようなサードパーティのサービスを利用する。しかしどちらも、容易ではないし費用もかかる。そもそも、企業に初めからビッグデータが分かる社員がいて、その仕事を任せられる、というところはあまりない。

Y Combinatorの2015年冬のクラスでローンチしたPachydermは、ビッグデータ分析をもっと単純でとっつきやすいものにすることを、ねらっている。MapReduceのパワーをHadoopの難しさなしで提供する、をキャッチフレーズとするPachydermは、オープンソースのツールとして、プログラマがJavaのコードを書いたり、MapReduceについて詳しく知っていなくても大量のデータを分析できる、と称している。

RethinkDBのスタッフだったJoey ZwickerJoe Dolinerが創業したPachydermは、最近10年ぐらいのインフラの進化に立脚している。中でもとりわけ重要なのが、クラスタの管理に特化したLinuxの実装CoreOSと、Linuxコンテナによる分散化アプリケーション展開システムDockerだ。

ファウンダたちによると、Pachydermは同社のWebサイトやGitHubで入手でき、大量のデータを分析したいプログラマがやるべきことは、Dockerのコンテナの中に収まるhttpサーバを実装するだけだ。同社は曰く、“Dockerのコンテナの中でサーバが動くようになれば、Pachydermがそれを分散化して数ペタバイト以上のデータでも処理できるようにする”。たとえばこのMapReduceジョブは、Pachydermを使ってチェスの対戦の悪手を分析して学習するシステムだ。

Pachydermのとくに嬉しいところは、データ分析がバックエンドやインフラの技術者でない人でも気軽にできることだ。Pachydermの売りは、フロントエンド専門のプログラマやデザイナーでも、自分でMapReduce的なジョブを動かし、結果を把握・理解・報告できることだ。“誰にとってもデータ分析をやることがおもしろくなり、その敷居がぐっと低くなる”、とDolinerは言っている。

まだY Combinatorからの支援があるだけのPachydermは、とても若い企業だ。収益化の方法は、そのほかのオープンソース企業のやり方を見習いたい、という。つまり、自由な無料利用と企業向けの有料サービスの二層構造だ。またデータ分析ジョブを書くプログラマのためのGitHub的なWebプラットホームも作りたい、と言っている。

Hadoop MapReduceに代わるシステムをオープンソースで提供して、ビッグデータ分析の敷居を低くしたい、と考えているのはPachydermだけではない。ApacheのSparkStormもその例だし、またJavaから派生した言語Scalaの周辺でも、Hadoopを使いやすくするための努力が行われている〔例: Java Cascadingから派生したtwitter/scalding〕。

“ビッグデータ”はここ数年、バズワードになっているけど、その実体はソリューションであるよりもむしろ問題そのものだ。しかしPachydermにはYCの支援に加えてデベロッパコミュニティからのサポートもあるから、次世代のデータ処理における重要な選手になるかもしれない。強力な、ソリューションとして。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータプログラミングを単純化するGoogleのCloud DataflowがClouderaの協力でApache Sparkに統合

Googleの今日(米国時間1/20)の発表によると、同社はHadoopのスペシャリストClouderaとパートナーして、Googleのデータ処理プログラミングフレームワークCloud DataflowをApacheのクラスタ化データ処理エンジンSparkに統合する努力を開始する。

デベロッパがGoogleのCloud Dataflowを使うと、低レベルのクラスタのことを気にする必要なく、データ処理パイプラインを開発しモニタできる。例によってGoogleは次のように強調する: このデータ処理SDKはインターネット上で大規模なデータ集合を処理するための同社の内部的ツールから生まれたものである。データ処理のタスクはいつも同型であるとはかぎらないので、クラウドやオンプレミスを使い分けながらいろいろなデータ処理エンジンを使う必要がある。しかしCloud Dataflowというプログラミングインタフェイスを使えば、理想的には、データアナリストはパイプラインがその上で動くアーキテクチャの違いを気にすることなく、同一のシステムを使ってさまざまなデータ処理パイプラインを作れる。

GoogleがクラウドサービスとしてのDataflowを発表したのは昨年の夏だが、それはインフラがGoogle自身のプラットホーム…Compute EngineCloud Storage、およびBigQueryだった。しかしちょうど1か月前に同社はこのサービスのJav SDKをリリースして、デベロッパがそれをほかの言語や環境に統合できるようにした。そして今回はClouderaの協力によりそれと同じことを、SparkをデータエンジンとするオープンソースのDataflowとして実装しようとしている。それによりデベロッパはCloud Dataflowを、自分たちのローカルマシン上、(まだ非公開アルファだが)Googleのクラウドサービス上、そしてSparkの上でも使えるようになる。

Googleは今日の発表の中で、こう述べている: “Dataflowを利用するプログラムはデータをより有効に利用できるようになり、しかもその便宜を、クラウドやオンプレミスなど多様な環境で享受できる”。

SparkバージョンはGitHub上で入手できる。Clouderaはそれを、試験と実験に限定される“育成プロジェクト”と見なしている。本番利用のリスクは、デベロッパの自己責任となる。GoogleもDataflowをアルファと見なしているので、SDKは今後変わる余地がある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


センサなどからのストリーミングビッグデータをリアルタイムで処理するRapidMinerのStreamsサービス

RapidMinerが今日(米国時間12/17)発表したStreamsサービスは、データのストリームをリアルタイムで捕捉して処理する。RapidMinerのMichele Chambersの説明によると、このサービスがとくに便利なのは物のインターネット(Internet of Things, IoT)の分野におけるデータの捕捉と処理や、工業分野におけるセンサデータの取得とそれに対する瞬時の対応だ。

Streamsサービスはユーザのソースからデータを取り込み、それをもとにデータのブレンディングや、ストリーミングデータの分析、データからのモデル作成、などの処理をすべて、Apache Stormのクラスタで行う。ユーザがコードを書く必要はない。ユーザはRapidMinerが開発したバックエンドに対する指示をGUIのフロントエンドから行うだけである。データの処理は、最大遅延5秒という準リアルタイムで行われる。

このプロダクトは、これまでの1年間未発表のまま温めてきたが、その理由の一部は、Apache Stormが商用製品に使えるほどの安定に達していなかったからだ。そのテスト期間にRapidMinerは、某メディア企業のセットトップボックスから得られる視聴者のビヘイビアデータの取得と分析を行った。その結果に基づいて同社は、個々の視聴者に適切なリコメンデーションを送り、また広告ネットワークに対してはターゲティング広告のための情報を提供した。

同じくこのベータ時期に、コンクリート企業がその生コン製造機械やコンクリート打ち込み機械などからのセンサデータを捕捉して分析した。そういうコンクリート関連の機械装置は酷使によってすぐに壊れるので、最大能力の75%ぐらいでしか稼働できなかった。しかしStreamsのリアルタイムデータ分析により、機械の損傷に導く二大要素が振動と湿気であることが分かった。この二つの要素を適切にコントロールすることにより、安定稼働率が95%に上がった。

RapidMinerがStreamsでねらっているのは、こういうタイプのユーザニーズだ。Chambersによると、Storm以外のもうひとつのオープンソースソフトウェアの成熟を待って、来年の第一四半期にはStreamsのアップデートを行う。

さらにChambersによると、このプロダクトは同社のこれまでの製品系列との相性も良く、顧客に提供するビッグデータ処理オプションがまた一つ増えた、という形になっている。

また、同社は近く、データ視覚化のQlikや検索のApache Solr、WebスクレイピングのMozendaなど用のコネクタもリリースする。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Hadoopの利用を使いやすいSaaSで提供するAltiscaleが$30Mを調達

【抄訳】

Hadoopといえば、企業のデータセンターの複雑なオンプレミスのセットアップを連想しがちだが、Altiscaleはそういう複雑な部分をすべてクラウド上で面倒見て、かんじんのHadoopの利用インタフェイスだけをSaaSとして提供する。同社は、その使命の継続のために今日(米国時間12/9)、シリーズBで3000万ドルの資金を調達した。

このラウンドを仕切ったのはNorthgate、これに前からの投資家Sequoia CapitalとGeneral Catalyst Partnersが参加した。これでAltiscaleの資金調達総額は4200万ドルになる。

Hadoopは、ビッグデータを処理するためのオープンソースのプロジェクトだ。

【中略】

AltiscaleがHadoopのベンダとして特異なのは、最初から、企業が抱えるHadoopのワークロードをクラウドで処理するという、根っからのクラウド企業としてスタートしたことだ。ファウンダでCEOのRaymie Stataは曰く、Hadoopは簡単に使えるものではないし、仕上げの粗い部分もある。彼が前にいたYahoo!では、社内に大きな組織を作ってHadoopに取り組んでいたが、ふつうの会社にはそんな贅沢はできない。

それが、彼がAltiscaleを作った主な理由だ。サービスがクラウドにあれば、大から小までもっといろんな企業がHadoopを利用できるし、またビッグデータの処理についても相談に乗ってあげられる。処理の根幹だけでなく、ちょっとしたヘルプの相談もある。企業はそういう問題を自分で抱え込んで悩むのではなく、解決をAltiscaleに求めればよい。

そして彼によれば、Altiscale自身はHadoopのエキスパートだから、企業が解決に数日を要していたような問題も、数時間で解決してあげられる。それでなくとも企業のIT部門は、いろんな問題を常時、山のように抱えているのだから。

Hadoopのサードパーティベンダは数が多く競争も激しい。それらの中でHortworksは最近、IPOにこぎつけた。この前の3月にはClouderaが、シリーズFの資金調達に際して40億ドルを超える評価額を達成した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


IBM、Watson Analyticsを発表―Watson人工知能が万人にビッグデータ解析能力を与える

今日(米国時間9/16)、IBMは一般のビジネス・ユーザーに高度なビッグデータ解析能力を与えるWatson Analyticsという新しいプロダクトを発表した。

Watson Analyticsはクラウド・サービスで、データの収集、チェック、解析、ビジュアル化、共同作業のためのコミュニケーション・ダッシュボードなどビッグデータ処理に必要な作業はすべてクラウドで行われる。Watsonといえば、誰もが知るとおり、人気クイズ番組『ジェパディー』で人間のチャンピオン2人を打ち破った人工知能としてあまりにも有名だ。

IBMのビジネス分析事業グローバル・マーケティング担当副社長、Eric Sallは「単にブランドイメージのためにWatsonの名前を付けたわけではない」と強調する。Sallによれば、このプロダクトの特長はビッグデータに対して自然言語で分析、加工処理を行えることで、これにはまさにWatsonの人工知能テクノロジーが用いられているのだという。

Sallは「Watson Anlyticsの目的は、一般のビジネス・ユーザーに強力なビッグデータ解析能力を与えることにある。適切な意思決定のためにビッグデータを利用しなければならないことはだれでも知っている。だが、これまでそれができるのはごく一部の高度な知識とコンピューティングのインフラを持つユーザーに限られていた」と述べた。

現在、ビッグデータ解析には強力なコンピュータ資源、データサイエンティストとデベロッパーのチームが必要とされる。中でも後者を確保することは難事業だ。Sallは「このためにビッグデータ解析の結果を得るまでに、往々にして何日も、あるいは何週間もかかる。 今日のビジネスの厳しい競争環境からみてこのような遅れは許されない。また意思決定を行う人々が他のチームにいちいち処理をお願いするようではいけない」という。

Watson Analyticsはこうした障害を一挙に克服することを目指している。まずクラウド・サービスであるから、コンピューティングのインフラについて心配する必要はない。次にユーザーの望むデータ解析を自然言語で受け付けるのでデータサイエンティストもプログラマーも必要としない。

ユーザーは既存のデータ、たとえばSalesforce.comのCRMデータなどをそのままインポートして利用できる。Sallによれば、このサービスにはポピュラーなビジネス・ツールによって生成されるデータをインポートするためのコネクター・ツールが用意されているという。データをセットすれば、ユーザーは思いついた質問を次々にぶつけていくこともできるし、サービスにバンドルされているストーリー・テンプレートを利用して標準的な統計分析を行うこともできる。

もし営業データを扱っているのなら、テンプレートから標準的な分析を行うのが有効だろう。しかし、その過程でユーザーが何かを思いつけば、自由に質問することができる。Watsonは質問を理解して直ちに答えを出してくれる。Sallによれば「問題は多くのビジネス・ユーザーがビッグデータ解析の専門知識や経験に乏しいため、そもそもどんな質問をするべきなのかよく理解していないという点だ。テンプレートはこのような場合に解析を進めるための糸口として大いに役立つ」と述べた。

さらにWatson Analyticsのベーシック版はIBM Cloud Marketplaceから無期限に無料で提供される。 Sallは「ユーザーがこのサービスを利用する際の敷居を下げるために無料版を提供することにした。無料版も極めて高度な能力を持っている」と述べた。

有料のプレミアム版には、大容量ストレージや企業内データベースのデータに直接アクセスするためのコネクター、さらに高度な分析能力などの追加機能が加わる。

Sallは「これまでわれわれは紺のスーツを着たセールス部隊がCIO始めIT部門の専門家にプロダクトを売り込んでいた。一般ビジネス・ユーザーを直接のターゲットとするWatson Analyticsはわれわれにとって大きな戦略の変更だ。こうしたエンドユーザー向けプロダクトを急速に普及させるにはフリーミアム・モデルが適していると判断した」という。

Watson Analyticsにかぎらず、最近のIBMのエンタープライズ・クラウド戦略自体が、IBMが2013年に買収したインフラのプロバイダー.、Softlayerのプラットフォームを利用したプロダクトのデジタルマーケットを中心に据えるようになっている。またBluemix Platformを通じて、将来はサードパーティーのデベロッパーがWatson Analyticsをプロダクトに組み込むことが可能になる。

Watson Analyticsは今月虫にベータテストが開始され、年末には一般公開される予定だ。クラウドサービスであるので、デスクトップ、タブレット、スマートフォンなどさまざまなデバイスから利用が可能だ。しかしまだ専用のアプリは登場していない。

画像: Flickr USER ibmphoto24 UNDER CC BY-NC-ND 2.0 LICENSE

[原文へ]

(翻訳:滑川海彦@Facebook Google+


ビッグデータ分析には直感とサイエンスの双方が必要

編集部: この記事はSteven Hillionの寄稿。HillionはAlpine Data Labsの共同ファウンダーであり、同社のエンタープライズ向けビッグデータ分析プラットフォームの開発責任者である。Alpineを起業する以前は、Siebel 、Greenplumなどでエンジニアのチーム責任者を務めていた。

現在、データは今までにない規模とスピードで動いている。これを分析にするにはきわめて高度なハード、ソフトを必要とする。ではビッグデータ分析が登場してからは昔ながらの「直感」は無用となったのだろうか? データは「進め」と言っているのに経営者の直感は「待て」だったときにはどうすればいいのだろう?

私のような人間―数学とテクノロジーの専門家―がこういうと意外に聞こえるかもしれないが、私はビジネスマネージャーはデータに加えて直感を重視しなければならないと強く信じている。

一部の人々は所与のデータ・セットから適切なモデルを組み立てるには数学とマシンパワーさえあれば十分だというように考えがちだ。しかしデータの機械処理だけでビジネス上の適切な意思決定ができるなどというのは愚かしい考えだ。データ・サイエンスでは分析と直感は車の両輪であり、互いに他を必要としている。

そもそも直感は分析を方向づける。分析の結果は何もないところからいきなり現れるわけではない。まず観察に基づいた何らかの直感があり、そこから構築された仮説を検証するためにコンピュータによる数値処理が行われる。またデータ・サイエンティストがどんな数値処理の手法を用いるかについても直感が導きとなる。どのデータが本質的に重要なのか? どの変数が、どの過程が意味があるのか? どれが原因でどれが結果らしく思えるか? どのモデルがいちばん適切か? こうしたことはすべて直感が関係してくる。

次に分析が直感に根拠を与える。 教師なし(unsupervised)モデリングは、一見しただけでは不明な関連やパターンを巨大なデータ・セットから探し出すことができる。分析は単なる観察では発見が不可能であり、時には直感に反するような方向を探索するきっかけを与える。ビジネス運営者の経験に基づく直感とデータ・サイエンティストの分析が適切に補いあわなければ必ず問題が発生する。

いくつか私が経験した例を紹介しよう。

あるチームは銀行の一般個人顧客について、口座を閉じそうな顧客を事前に予測するモデルを作ろうとしていた。しかし生成されたデータからはそれらしいパターンが発見できそうになかった。預金、ローン、クレジットカード、すべての分野を通じて顧客が解約する兆候らしきものは見つからなかった。顧客の預金引き出しやクレジットカードによる消費のパターンに特に変化はみられないのに、突然に解約が行われる。

しかし銀行チームが顧客のセグメントごとにさらにデータを詳しく検討していくうちに、あるアナリストの直感が貴重な発見をもたらした。彼女はある顧客セグメントに注目した。このセグメントは平均より飛びぬけて多額のローンを組んでおり、契約期間も長いなど、いくつの特異な属性を示しており、全体として顧客価値が極め高かった。 アナリストはこのセグメントの顧客はスモールビジネスのオーナーではないかと思いついた。そして個別の顧客情報を確認するとそのとおりだった。

アナリストは「これらのオーナーたちは一般個人向けのローンやクレジットカードよりも有利なスモールビジネス向け融資の仕組みがあることを知らないのではないか?」と考えた。そこでこうした高価値顧客を発見し、適切な金融商品を売り込むことにプロジェクトの目標が急遽、変更された。チームは.さらにデータ分析を続け、特定のセグメントの顧客に特化したセールスを行った場合の効果を検証した。その結果、セグメントごとにカスタマイズした金融商品の売り込みは効果があることが明らかになった。

データにいかに数値処理を加えてもこの結果―あるセグメントの顧客はスモールビジネスのオーナーである―は出て来なかったに違いない。ビジネスの経験に基づくこうした直感とデータ処理が統合されるときわめて価値ある結果がもたらされる。

こうした例でも明らかなように、ビジネス経験に基づく直感はデータ分析の決定的に重要な部分だ。にも関わらず、データ分析でビジネス側の経験者がプロセスから排除され、最後に結論だけを知らされるという例があまりにも多い。ビジネス・サイドの知識を持つメンバーをプロセスの当初から招き入れることが絶対に必要だ。私は、チームのプロセスをこうした線に沿って改革し、生データをレビューするもっとも早い段階からすべてのメンバーが参加するようにした。

われわれが経験したもう一つの例では、クライアントは巨大飲料会社だった。日本におけるセールスを予測するというのが彼らの依頼だった。われわれは経済動向と価格を変数として来年の売れ行きを予測するモデルを作った。クライアントは「売れ行きは景気に正比例するはずだ」とわれわれに告げた。日本の景気が徐々に回復すればそれに比例してソフトドリンクの売上も伸びるというわけだ。

クライアントはモデル中の景気の変数として日経平均を用いるよう要請してきた。このモデルは当初は適切な予測をするように見えた。しかし翌年入って時間が経つに連れてモデルは馬鹿げた予測を出し始めた。これは日経平均が当初予想した範囲の上限を超えて上昇したため、モデルが破綻したのだとわかった。もっと優秀なモデル設計者だったら、そもそも日経平均を変数に組み入れるような危険なことはしなかっただろう。

直感が重要な場合も多い。同時にデータサイエンスではモデリングの限界を知る慎重さが必要だ。われわれは清涼飲料水の売上予測モデルから日経平均を外した。するとモデルはうまく作動するようになり、翌年のマーケティング戦略の立案に重要な役割を果たすことができた。

データサイエンティスト側とビジネス実務側の間にはとかく緊張が生まれやすい。データ分析の結果が直感に反するように思える場合―たとえば派手なマーケティング・キャンペーンの効果がゼロに近いなどという結果が出たときには特にそうだ。われわれデータサイエンティストは往々にしてテーブルの向こうに座ったクライアントのマーケテティング担当者から「いったい全体、そんあ数字はどこから出て来たんだ?」と詰問される。

しかし私はこうしたやりとりは非常に重要だと考えている。数学と科学的分析はビジネス側の疑問に正しく答えることができなくてはならない。あるときはデータ分析の結果が直感が間違っていることを明らかにする。しかしあるときはデータ分析の欠陥を直感が明らかにすることがある。こうして直感と分析があい補っていくのが理想だ。

カット画像:Shutterstock USER Stocksnapper (IMAGE HAS BEEN MODIFIED)

[原文へ]

(翻訳:滑川海彦@Facebook Google+


レバノンのEQLIMは中東の経済と地政学に関するリアルタイムのビッグデータ分析を目指す

EQLIMという名前のスタートアップがローンチした。この言葉はアラビア語で‘地域’とか‘テリトリ’という意味で、新興経済圏における人間活動に関するリアルタイムのデータを会員制で提供する。レバノンのベイルートを拠点とする同社は、中東に関する情報やデータの貧困という現状を、なんとかしたいと願っている。

同社は、地政学、インフラストラクチャ、商業、保健医療、環境、農業、都市などに関するビッグデータを集めて分析する。いずれはMENA地域だけでなく、アフリカやアジア全体をカバーしたいと考えている。

これまでエンジェル投資家のFadi Ghandourから42万5000ドルの資金を確保したが、今は製品開発と市場開拓のために100〜150万ドル程度の資金調達を準備中だ。

CEOで協同ファウンダのHassan Alassaadが言うには、同社は“当該地域のリスクと機会をリアルタイムでマッピングしている”。中東におけるビッグデータ分析の需要は、10億ドル以上ある、と彼は推計している。

EQLIMのデータのサンプルは、APIやWeb、モバイル、RSS、それにメールで入手できる。

たとえばその中には、前月におけるMENA地域の宗教施設の被害を示す対話的な地図がある。そのほかガザにおける学校の被害、運輸産業の現況、ISISの手に落ちそうなエネルギーインフラストラクチャの全体像、などなどもある。

同地域のブログWamdaに、EQLIMに関する比較的詳しい記事がある。ぼくのこのポストも、その記事から相当借りている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


成功するビッグデータ企業のための五つの鍵

[筆者: Navin Chaddha]

編集者注記: Navin ChaddhaはMayfieldの専務取締役、同社は起業の初期段階向けのベンチャーキャピタル企業だ。同社が今支えている企業には、Gigya、Elastica、Lyft、MapR、Poshmarkなどがある。

2014年も後半に入り、ビッグデータはいよいよメインストリームになってきた。たくさんの大型本多様な業界分野への展開、消費者アプリケーション、そして巨額な投資。私はVCの世界に45年もいて、その間、主導的技術の変遷を何度も見てきた。PC時代の勃興、クライアント/サーバコンピューティングへの移行、それからWebベースのコンピューティング、さらにクラウドとSaaSモデルの登場…そしてどの段階でも、企業がスタートアップからその分野のリーダーに育っていくときの、一定のパターンを私は見てきた。

では、ビッグデータに関しては、長寿な企業を作っていくために何が必要だろうか:

1. プラットホームからエコシステムへ成長脱皮せよ

ひとつのテクノロジプラットホームが確立し定着したことの証(あかし)は、そのまわりにエコシステムが急速に育っていることだ。たとえばSaaSに関してはSalesforceが早々と巨人に育ったが、それはそのエコシステムが大きく成長したためだ。ビッグデータも、その点は同じだ。

今プラットホームからエコシステムへ移行しつつある好調なビッグデータ企業のひとつがMapRだ。同社のプロダクトはHadoopの一(いち)ディストリビューションにすぎないが、オープンソースの利点(コミュニティによるイノベーション、ポータビリティ、そして柔軟性)と、独自に強化したアーキテクチャを結びつけて、企業が安心して採用できる信頼性とセキュリティとパフォーマンスを提供している。

MapRのエコシステムはHadoopの盛大活発なオープンソースのコミュニティと、MapR App Galleryで急速に増殖しているパートナーたちのソリューションが合わさったものだ。このエコシステムの中で企業顧客は、自分たちのビッグデータ利用システムとそのためのユーティリティやアプリケーションを、容易に拡張ないし新規に実装できる。

未来のリーダー格を匂わせるもうひとつの例がMongoDBだ。オープンソースのNoSQLでは指導的な企業だが、今では多くの企業がさまざまなアプリケーションで利用している。MongoDBでは、複数の業界にわたるさまざまなパートナーたちにより、強力なエコシステムが育ちつつある。

2. 誰も手をつけない面倒で困難な問題を解決せよ

これは、ビッグデータの世界の中でも、あまり派手な話題ではない。しかしそれでも、ビッグデータ企業の多くがこの種の仕事に取り組むことで、成長してきたはずだ。クライアント/サーバの時代にはデータ統合化のパイオニアInformaticaが、フォーマットが雑多に異なるデータを統合するという、面倒でダーティーな仕事でトップに登りつめ、8年間ぶっ通しで、Gartner Data Integration Magic Quadrantのリーダーの座を維持した。

ビッグデータの世界で注目に値するのが、Trifactaだ。同社は、生データを技術的スキルのないアナリストでも理解でき、何らかのアクションに結びつけることのできる形へと、加工している。

3. ビッグデータのビジネスインテリジェンスはデータだけでなくインサイトを提供せよ

クライアント/サーバの時代にはBusiness Objectsなどの企業が、企業の役員たちに、彼らの力となるようなインサイトを提供して大きくなった。ビッグデータにおいても、Platforaのような企業に、同様の動きが見られる。Hadoopをエンジンとする同社は、さまざまなインサイトを視覚的に、そして継続的に提供している。〔*: insight,そのデータに何が見えるのか、そのデータから何が言えるのか、という、データの深い本質部分のこと。データそのものを物理層とすれば、インサイトはデータのアプリケーション層とも言える。〕

4. 各専門分野の知識や経験をプロダクトに埋め込め

さまざまな業界分野や技術分野の貴重な専門知識(domain expertise)を、ビッグデータの分析アプリケーションに必ず生かすこと。そうすると、その提供物は、顧客から重要視され、見ずに捨てられることがない。SAPがソフトウェア業界の巨人になったのは、それぞれ業界分野の異なるクライアント企業に対して、この手をフルに活用したからだ。

ビッグデータ分析に各業界分野等の専門知識を導入して成功しているPalantirなどの企業は、不正行為対策やサイバーセキュリティなど具体的なユースケースや、防衛、保険、医療、法の執行など専門的業界分野にむけて、人間とマシンの合作によるソリューションを提供している。またSplunkなどは、マシンデータをインサイトに変換して顧客に提供している。

5. わかりやすいインタフェイスで顧客に喜ばれよ

顧客企業のIT部門や現業部門のユーザたちに、データと対話できるための、説得力の強いインタフェイスを与えよ。ユーザがそのアプリケーションとどのように対話するのかを理解し、分かりやすくて楽しいユーザ体験を築くための細部に注力せよ。たとえばDropboxが大きくなったのは、ファイル共有のためのシンプルでわかりやすい方法をユーザに提供したからであり、そのおかげで同社は今や、全世界のユーザ数が2億を超えている

わかりやすいインタフェイスを提供しているビッグデータ企業のひとつが、Tableauだ。同社は企業ユーザにとって分かりやすく、そしてインサイトを取り出しやすいデータ視覚化を提供している。またElasticsearchは、高速でリッチな検索体験を提供しているオープンソースのソリューションだ。

そして次に来るものは?

もうひとつ注目すべきは、物のインターネットが、あらゆる種類の、そしてあらゆる形のデータをビッグデータの世界に放り込むことによって、業界を大きく変えていくことだ。今それは、サーモスタットや電話機やウォッチや水飲み用のグラスなどだが、明日は、今のわれわれが知らないありとあらゆるところから、データの奔流が訪れる。データの所有権やライフサイクルや摂取について、考え方が変わり、新しい企業が続々と生まれる。それは明日以降に訪れるイノベーションの大波であり、これまでありえなかったプロダクトやサービスが新しい企業から生まれていく。また既存のそれらも、形を変えられる。そういう次の時代の想像力と創造力の主人公が、一人々々のあなたなのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


専用デバイスとスマホで車の健康を測るスマートドライブ、8月から実証実験開始

自動車についている「OBD2コネクタ」というものをご存じだろうか。OBDとは、On-board diagnosticsの略で、これは自動車の点検用の規格である。このODB2コネクタを通じて、車速やエンジンの回転数をはじめとした、さまざまなデータを取得できるようになっている。

このOBD2コネクタにデータ送信用のデバイスを差し込み、スマートフォンを経由して車の健康状態や移動の履歴などを取得するといった取り組みを行っているスタートアップが米国で続々登場している。AUTOMATICZubieMETROMILEMOJIODashなどが存在している。ちなみにDashには国内からサイバーエージェントが出資をしている。

それぞれ、コネクタに挿したデバイスからスマートフォンにデータを送信することで、急発進や急ブレーキなどガソリンの無駄になるような運転をした場合に警告を出したり、ドライブの記録をしたりといったことを実現している。

この領域に日本で挑戦するのがスマートドライブだ。2013年10月に設立した同社は、ベンチャーキャピタルのANRIから出資を受けて、現在自動車向けのデバイスと、連携するスマートフォンアプリを開発している。

そんなスマートドライブだが、8月から柏の葉アーバンデザインセンター (UDCK)の協力のもと、千葉県の柏の葉スマートシティにて1カ月にわたる実証実験を開始することを明らかにした。今回の実証実験では、柏の葉スマートシティエリアの住人約20人が対象となる予定だ。

スマートドライブの手がけるシステムもOBD2コネクタにデータ送信用のデバイスを挿し、スマートフォンへリアルタイムに車の健康状態や運転ログを記録する。

アプリでは、1000以上のエンジンアラートのトラブル内容を閲覧できるほか、運転ログの閲覧、急ブレーキや急発進、走行速度の状況などから、燃費効率を分析し、「ポイント」という形で評価する。

年内にも販売を開始

スマートドライブでは、年内にも個人向けにプロダクトの販売を開始する予定。ただし、ビジネスの中心になるのは、保険会社などにデバイスを卸し、その契約者に使用してもらうといったようなBtoBtoCのモデルになるそうだ。

例えば米国の保険会社Progressiveは、契約者に「Snapshot」なるデバイスを提供している。このデバイスもOBD2コネクタに接続して使用するのだが、急ブレーキなどの回数などをもとに安全な運転をしているかを分析。安全運転であれば保険料の割引もなされるという取り組みをしている。スマートドライブでもこのような形で自動車保険や自動車整備関連の事業者を通じたデバイスの提供を狙う。

また将来的には、個々の車のデータを分析し、ビッグデータによる渋滞予測や交通事故予防などにも取り組む予定だという。


ビッグデータ処理のモバイル化を志向するCouchbaseが新たに$60Mを調達

分散コンピューティングの需要やモバイルデバイスの増殖に伴い、コンピューティングのインフラとなるツールの革新の歩みが加速している。そして新しいタイプのデータ管理やデータ処理技術を専門とするスタートアップたちが大きな資金を調達して、次世代のコンピューティングを推進しようとしている。

最近、新たな投資家WestSummitやAccel Growth Fundから6000万ドルを調達した新進のデータベース企業Couchbaseも、その巨額な資金により、国際展開と継続的な研究開発を、さらに加速するつもりだ。

カリフォルニア州Mountain Viewの同社は、MongoDBなどとともに、企業や組織の業務データ(operational data, オペレーショナルデータ)の管理を扱う、資金状態の良好なスタートアップの一つだ。

これまで累積で10億ドルあまりを調達しているClouderaなど、Hadoopベースのベンダと違ってCouchbaseとMongoDBは、データベースのデータ処理よりもむしろ、データの管理とリカバリに力点を置く。同社のCEO Bob Wiederholdは、そう語っている。

Wiederholdは曰く、“ユーザのところでは大量のアプリケーションが同時に動いていて、大量のデータベース操作をたえず行っている。今日のデータベースは、そのような苛酷な状況を堅牢にサポートしなければならない”。古いデータベース技術ではデータが中央一点型で存在し、Couchbaseのような分散データベースと違って、需要増に応じて機敏なスケールアップができない、と彼は語る。

WestSummitとAccel Growthから得た新たな資金は、ビッグデータ市場のなお一層の開拓に充てられる。その市場のグローバルな現在の規模は、アナリストグループIDCによれば、160億ドルあまりと推計されている。

さらに同社は、5月のローンチしたモバイル技術の展開にも力を入れていく。

Couchbaseが今市場に売り込もうとしているモバイルデータベースは、モバイルデバイス上のアプリケーションが、インターネットに接続していないときでも稼働できる状態を作り出す。

Wiederholdはさらに言う: “今モバイルアプリを使おうとすると、インターネット接続がなかったり、接続状態が悪かったりしてフラストレーションにおちいることがある。ある程度キャッシュが使われてはいるが、アプリ本体の機能は利用できない。しかし、必要なデータをモバイルデバイス上に保存できたら、非常に速いレスポンスタイムを享受できるし、インターネット接続が得られる状態になったらデータをクラウドにシンクできる”。

Couchbaseのモバイルプロダクトはまさに、そのような機能性を提供する。“モバイルへの移行は巨大なトレンドであり、そのためにまず最初に作られるのがモバイルのアプリケーションだ。しかし、今よりももっとグレートなモバイルアプリケーションを作れて、利用できるためには、モバイル対応のデータベースこそが、その鍵となる技術なのだ”、とWiederholdは自負を語る。

モバイルと並んでCouchbaseのCEOの目に映じている大きな機会が、国際展開の拡大だ。中国と合衆国を股にかけたファンドWestSummitを加えたのも、そのねらいからだ。WestSummitの協同ファウンダでマネージングパートナーのRaymond Yangが、Couchbaseの取締役会に加わる。

Couchbaseには、二つの別々のデータベース企業CouchOneとMembaseというルーツがあり、両社が2011年に合併してCouchbaseになった。

同社はこれまでに、Accel Partners、Mayfield Fund、North Bridge Venture Partners、Ignition Partners、Adams Street Partnersなどから合計1億ドルあまりを調達している。

写真はFlickrユーザElif Ayiterより

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Red HatがCephベースのストレージサービスInktankを買収, ビッグデータ時代の超巨大クラウドストレージでトップをねらう

オープンソースソフトウェアのプロバイダRed Hatが、ストレージの市場でAmazonなどと張り合う気のようだ。同社は今日(米国時間4/30)、オープンソースのストレージシステムを開発しているInktankをキャッシュ1億7500万ドルで買収する、と発表した。Red Hatによると、同社はInktankの主製品であるInktank Ceph Enterpriseと同社のGlusterFSによるストレージ製品を併合させる、そして今回の買収により同社は、オブジェクトやブロック、ファイルシステムといった多様な高レベルのストレージシステムを支えるオープンなソフトウェア定義ストレージの、最大のプロバイダになる。

Red HatのEVPでCTOのBrian Stevensは、声明文の中で次のように述べている: “Inktankが作り上げたきわめて活気あるコミュニティを今後も尊重し、ソフトウェア定義ストレージのデファクトのチョイスをよりオープンにしていく仕事に、共に取り組んでいきたい。Inktankは、Cephを軸とする強力なエコシステムを組み立てるという、すばらしい仕事を成し遂げた。今後われわれは彼らと一緒になって、この成功をさらに拡大していきたい。これらの強力でワールドクラスのオープンストレージ技術は、顧客がソフトウェアベースの、スケールアウト*可能なストレージシステムに移行していくときに、無視することのできない能力をを提供するだろう”。〔*: scale-out, 分散化による規模拡大。〕

これは、公開企業であるRed Hatの9つめの買収だ。これまでで最大の買収はミドルウェアのベンダJBossを4億2000万ドルで買ったときだが、Inktankはこれに次ぐ。そのほか、オンラインストレージのGluster、1億3600万ドルも、大きな買収だった。Glusterは、Red Hatの現在のストレージサービスのベースになっていると思われる。

Ceph EnterpriseのベースであるCephは、レガシーのストレージシステムをリプレースするものとして開発されたが、実際にはAmazon S3など既存のストレージサービスに代わるもの、あるいはそれらと競合するものとも見られている。AmazonのS3やElastic Block Storageなどのように、各種のオプションを通じてユーザが構成を決めるのではなく、Cephではサービスプロバイダや企業などのユーザが独自のストレージシステムを組み立てられる。Cephのねらいは、エクサバイト級あるいはそれ以上の巨大なストレージシステム/ファイルシステムを、高いコスト効率で提供することにある。

Inktankの顧客はCisco、CERN、Deutsche Telekomなどで、パートナーはDell、Alcatel-Lucentなどだ。今後彼らは、Red Hatの顧客およびパートナーとしてCeph Enterpriseとの関係を持続する。

サンフランシスコに本社を置くInktankは、2012年の創業以来、およそ1440万ドルの資金を獲得してきた。主な投資家は、(Ubuntuの)CanonicalのファウンダMark ShuttleworthとクラウドホスティングDreamHostのオーナー企業New Dream Networkだ。後者の協同ファウンダSage Weil(Cephのデベロッパの一人)が、InktankのファウンダでCTOだ。

今回の買収によってInktankの主製品がRed HatのRHELなどと最初からセットになって売られる可能性が生じるため、Inktankにとっては大きな成長の機会になる。〔*: Ceph本体は最近のLinuxカーネルにデフォルトで含まれている。〕

Weilは、声明文の中で次のように述べている: “Red Hatとわれわれは、かねてから、オープンソースとオープンスタンダードと顧客の成功へのコミットメントを共有している。この二者がこのたび合体したことは、きわめてエキサイティングな事件である。われわれのオープンストレージテクノロジは、これからのクラウドコンピューティングの時代におけるデータ管理業務にとって、必須の技術になると確信している。Red Hatとの協働により、さらに重要なイノベーションを推進できるようになり、業界全体に大きな貢献を果たしていけるものと信ずる。とくに、OpenStackのような既存及び近未来のデータセンターのアーキテクチャが、オープンストレージのソリューションを統合していくことは確実であり、われわれはその需要にお応えしていきたい”。

Cephという奇妙な名前は、同社の注記によれば、ペットの蛸(たこ)のニックネームだ。社名やプロダクト名は、そこから派生している:

“Ceph”は、ペットの蛸、すなわちcephalopod(頭足動物)によくつけられる名前だ。Cephは最初、弊社のCTO Sage Weilの、UC Santa Cruz(カリフォルニア大学サンタクルーズ校)における博士論文のためのプロジェクトとして始められた。UCSCには前から、Sammyという名のウミウシのペットがいたが、蛸も軟体動物として、大人気のSammyの仲間である。蛸は複数の足を高度に並列で動かすことができるので、このプロジェクトの名前としても合っていた。そしてCephのプロダクトを作っていく企業を作ったときには、蛸が出す“インク”にあやかって、その社名をInktankとした。いわばわれわれInktankの社員一人々々は、Cephが放出するインクの一滴のようなものである。

買収の完了は、2014年5月と予定されている。

画像: Flickr

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


MyHeritageが蒐集した家系関連の記録件数が50億を突破, 毎日500万増加中

家系マニアたちに人気の家族史ネットワークMyHeritageは、イスラエルのテルアビブとユタ州のLehiにオフィスがある。同社は今日、同社の家系ライブラリが収容する家系関連記録の数が50億件を超えた、と発表した。もっと正確に言うと、51億8000万件だ。

家系関連のスタートアップにとっては、もちろん、そこに集まっている歴史的記録がサービスの生命線だ。家族の係累を知りたくてサイトを訪れ、何もみつからなかったら、そこは、誰一人訪れる者のない寂しいソーシャルネットワークと同じだ。

MyHeritageと競合するAncestryは、記録の件数130億を自称しているが、MyHeritageには、毎日500万件の新しい記録が加わっているそうだ。毎日新たに加わっている家系プロファイルは、およそ100万だ。しかも、同社は2年で50億に達したが、Ancestryの130億は20年近くかかっている。

昨年MyHeritageは、 Mormon Church(モルモン教会)がスポンサーしているFamilySearchとの提携を発表した。その複数年のパートナーシップにより、新たに20億件の記録へのアクセスが可能になり、同社の擁する記録件数が飛躍的に増えたのだ。さらに最近同社は、世界中の墓石上の記録をクラウドソーシング方式でデジタル形式で保存/保全している団体BillionGraves(十億の墓)とも提携した。これからはMyHeritageからでもBillionGravesのデータベースにアクセスできる。メインのサービスは家系図の閲覧だが、ユーザ自身が新たにこのサイトに加えた家系プロファイルがすでに15億を上回り、それらに付随する古い写真は2億点を超えている。

それにしても、ここで言う‘記録の件数’とは一体何の数だろう? 同社が率直に明かしてくれたところによると、名前一つが記録一件である(婚姻に関する文書なら夫と妻で計2件となる)。同一人物が複数の名前で記録されているときには、それらを‘一つ’として数える。また、写真や新聞の切り抜き、ユーザが加えた家系プロファイル上の個人の情報なども、記録の件数として数える。

MyHeritageのファウンダでCEOのGilad Japhetは次のように語る: “うちが提供しているのは歴史的ビッグデータだ。人間が作り出す情報の量は、毎分々々膨大な量で増えつづけている。情報の過剰の中で、過去に関する精査された情報だけをうちは提供していく。高品質で希少な情報を大量に提供して、家族史の研究などのお役に立っていくことが、うちの特技だ”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


CitusDBがPostgreSQL用の列取り出しツールをオープンソースで提供開始, 複雑なクェリの効率をアップ

[筆者: Ron Miller]

Oracleなどの大型旧勢力に対抗するデータベース分析サービスのCitusDBが、PostgreSQL用の初の列保存(columnar store)エクステンションCSTOREをリリースした。今日(米国時間4/3)から、無料でダウンロードできる。

“データをバッチでロードするときは、列保存が分析作業を大いに助ける”、と同社のブログ記事が言っている。つまり、このツールを使うとデータベースの利用パフォーマンスが上がる。CitusDBによると、クェリの効率は2倍アップ、データリードに要する時間は従来の1/10になる。同社のCEO Umur Cubukcuによると、分析クェリは高度な最適化によってさらに効率がアップし、また圧縮率も上がるためにストレージの費用も削減される。

“列保存は標準のPostgreSQLユーザは単一ノードで利用でき、またCitusDBの顧客はペタバイトのオーダーにスケールアウトしたPostgreSQLでも可利用である”、とCubukcuは説明する。CitusDBのプロダクトは後者が対象だが、ユーザはそれぞれ、自分の規模に合わせてこの新しいツールを利用できる。

Cubukcuによると、このツールは二つのアドバンテージを提供する。ひとつは、同じデータベースを利用目的によって、行ベースでも列ベースでも扱える。第二は、PostgreSQLの信頼性の高いエンタプライズ機能とHadoopのスケーラビリティを融合させるCitus Dataの方式を、最大限に有効利用できる。したがって全世界のビッグデータ分析を行う顧客に、シンプルで強力なデータベースを提供できる。〔社名はCitus Data、プロダクト名がCitusDB。〕

CitusDBは今年の2月の終わりに、そのコアプロダクトのバージョン3.0をリリースした。

同社はY Combinatorの2011年の卒業生で、2012年6月にそのプロダクトのバージョン1.0をリリースした。Alex Williamsは2013年2月の本誌記事で、次のように述べている: “CitusDBはGoogleのリアルタイムデータベース分析クェリシステムDremelを使用している。データベースに対するリアルタイムの対話的分析能力では、Hadoopの分析機能より優れている。その違いの主因は、並列コンピューティングの有効利用とSQL的な機能性にある。数千台のサーバ上に分散している数ペタバイトものデータに対するクェリとその結果の受領を、リアルタイムで行える”

CitusDBはこれまで、Data Collective、Bullpen Capital、SV Angel、Trinity Ventures、そして業界の指導的立場にあるエンジェルたちから165万ドルを調達している。顧客は、広告技術、eコマース、リテイル、セキュリティ、モバイルのアクセス分析など、多様な業種にわたっている。

この新しいツールは今日からGitHubで入手できるが、同社はコミュニティによる今後の改良や新機能の付加を期待している。

画像: Flickr/tec_estromberg; CC BY 2.0のライセンスによる license

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


言葉をビッグデータ分析して外国語の短期学習法を確立したLingvistが€1Mを調達

エストニアのLingvistが開発している、外国語の適応学習ソフトは、同社の主張によると、新しい言葉を学ぶのに要する時間を大幅に短縮する。その同社がこのほど、100万ユーロの資金を調達した。投資家は、国の投資ファンドEstonian Development Fundの投資部門SmartCapと、北欧を主な圈域とするVC Inventure、およびエストニア内外の数名のエンジェル投資家だ。

わずか1年前にMait MüntelとOtt JalakasとAndres Koernが創業した同社は、その発端がMüntelの経験にある。彼はCERNで数年仕事をしていた物理学者だが、最近フランス語を勉強したいと思った。既存のオンライン/デジタルの言語学習ソリューションをいろいろ調べた彼は、良いものがないことに気づいた。彼は言葉を統計的に分析して語や語句、用法などの出現頻度やそれらのあいだに存在する相関関係を洗い出し、また人間の記憶の過程を最適化することによって、新しい言葉を学ぶために必要な時間を大幅に減らせるはずだ、と考えた。

そこでMüntelはまずプロトタイプを作り、それを自分で使ってフランス語を十分な実用レベルに達するまで勉強した。その結果、200時間でエストニアの国家試験に合格できた。そのソフトウェアをSkypeの初期のエンジニアで今は活発な投資家であるJaan Tallinnに見せたところ、彼は、本格的に企業化することをすすめた。

Müntelはこう語る: “外国語学習の効率が悪いのは、不適切なコンテンツを教材に使っていることと、反復の間隔が最適でないことが原因だ。デジタルの外国語学習ツールも、その多くは、印刷物の教科書で使われていた教え方を依然として使っている。つまり、生徒たちがコンピューティングのパワーを持ったデバイスで勉強しているという事実と、言葉の用例データを記録したり分析する能力がそれらのデバイスにあることを、有効利用していない”。

それらとは対照的にLingvistの外国語学習は、ビッグデータの分析に基づいている。Müntelはは曰く、“大量のテキストを分析して語や用例の出現頻度とそれらの相関関係を把握し、それによって、何からどういう順序で学んでいくのがベストか、というプライオリティを確立する。そしてそれに基づいて、生活や社会の現実に合った、今日的な語彙を教えていく。その順序は画一的でなく、生徒一人一人の能力差に合わせている”。

だからそれはまさしく、外国語の適応学習だが、そこでは学習者一人一人が、今何を知ってて、理解してて、できて、何を知らない・理解してない・できない、かをソフトウェアが判定し、次は何を勉強すべきかを決めるのだ。同社によれば、既存のオンライン学習サイトはどれ一つとして、それができない、と。

LingvistはアクセラレータTechStarsの、最近ロンドンで行われたクラスの卒業生でもある。現在は英語とフランス語の学習モジュールを非公開ベータで動かしており、それへの招待をここで申し込むことができる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Googleのリアルタイムビッグデータ分析サービスBigQueryが大幅値下げと能力アップ

非常に大きなデータ集合を高速に分析するためのGoogleのクラウドツールBigQueryが今日(米国時間3/25)、最大85%という大幅値下げをした。そしてそれと同時に、Amazon Kinesisなどの競合サービスと互角に戦うための重要な新機能も加えた。もうすぐデベロッパたちは、最大で毎秒10万行までのリアルタイムデータをBigQueryに送り、リアルタイムで分析してもらえるようになる。

これで、リアルタイム分析に依存する多種多様なサービスにとって、BigQueryが使うツールの候補になる。今日行われるCloud PlatformのイベントでGoogleは、電力会社がこのツールを使うと、地域の電力利用状況をリアルタイムで刻々分析しながら、数分後の停電の可能性を検知できる、という例を見せる。あるいは電力会社はBigQueryを使って数マイル範囲内のメーターの今の状態を知り、過去5分間に電気の利用がなかったところを判別できる。

そのほか、マーケティングや金融業などでも、データやログ、さまざまな計測値などをリアルタイムで分析できる。

ビッグデータ分析の世界でGoogleのサービスは、比較的安い。オンデマンドのクェリは1テラバイトあたり5ドル、毎秒5GBの予約クェリは月額料金が“わずか”2万ドルだ。これらの額は、ほかのサービスプロバイダよりも75%安い、とGoogleは主張している。

BigQueryのこれまでのリアルタイムストリーミング機能はあまり強力ではなくて、 その最大消化能力は1テーブルあたり毎秒1000行だった。それで十分なアプリケーションもあるが、それはAmazon Kinesisの足元にも及ばない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))