企業がデータサイエンティストたちを有効活用できるためのツールを提供するYhatがY Combinatorで営業展開を学ぶ

【抄訳】

YhatのファウンダGreg LampとAustin Ogilvieは、中小企業にローンを提供して成功しているOnDeckでデータサイエンティストチームの一員として仕事をしているとき、ある問題に気づいた。

データサイエンスのチームがクールなアイデアを提案しても、エンジニアたちは、適切なツールがないのでそれらをさっさとアプリケーションへ実装することができない。そこで二人は、二つのチームがもっと効率的に仕事ができるためのツールを作ろう、と決心した。そのツールが、その後Yhatの創業に結びつく(Yhatは“ワイハット”と発音する)。

Lampはこう説明する: “データサイエンティストのチームが仕事や意思決定のための新しいクリエイティブな方法を編み出しても、エンジニアリングがそれについて行けない。Austinとぼくは両者の板挟みになって動きがとれず、OnDeckの業務に対してデータサイエンティストたちがやった分析結果などはどれも、棚の上で埃をかぶっていた”。

データサイエンティストたちの仕事から価値を取り出すための、もっと良い方法があるはずだ、と彼らは考えた。

彼らの最初のプロダクトScienceOpsは、データサイエンティストたちがRやPythonなどのツールを使ってプロジェクトを作っていくときの、チーム内のコミュニケーションをより有効にするためのソリューションだ。でも、それは彼らの最終目的ではない。

データサイエンティストたちのアイデアが早期に会社の業務に生かされるためには、エンジニアたちや、職場のラインの人たちが、容易にアプリケーションを実装できなければならない。

片手間で始めたYhatがその後利用者が多くなり、忙しくなったので、二人は2013年の6月にOnDeckを辞めてYhatに専心することにした。同時にYhatのオフィスも、彼らのブルックリンのアパートから、今のマンハッタンのシェアオフィスに移った。

その2003年には100万ドルのシード資金も獲得し、本格的な成長が始まった。そして今ではY Combinator の2015年冬季クラスに参加している。彼らのようなすでに内容的にかなり成熟しているスタートアップにとってYCは、営業や見込み客発掘について本格的に学べる点にメリットがある、という。

【中略】

2014年には第二のプロダクトScienceBoxをローンチした。それはデータサイエンティストたちが共同でデータサイエンスのプロジェクトを作り、共有していくためのツールだ。

Yhatの顧客たちは何をやってるかというと、たとえばレーシングチームのNASCARは、データの有効利用によってピット内の意思決定をより良質にするための方法を探求している。

“NASCARのチームにとってビッグデータの利用は初めてだったけど、もっと前からやっているべきだった、と彼らは思っている。彼らは自分たちの現状が後れていることを認めていて、はやく今のデータサイエンスの最先端に行きたい、と願っている”、とLampは説明する。

Condé Nastも、Yhatの顧客だ。今や出版社もデータドリブンで仕事を進めており、50名近くのデータサイエンティストが社内の各所に分散している。彼らもまた、Yhatのプロダクトを重宝している。

ScienceBoxは、データサイエンスを学ぶ大学のコースでもよく利用されている。クラスで必要になるいろんなツールが、その中に揃っているからだ。ScienceBoxの前には、いろんなツールを教授〜講師が個人的に拾い集めて、講義環境をセットアップしなければならなかった。

Yhatは今すでに、かなりの顧客ベースを構築しているが、でも大半の企業にデータサイエンティストが一人か二人(ときには〇人)しかいない現状では、まだまだ本格的な事業拡大は難しい。Lampらもそのことを自覚してはいるが、今のところ社員7名の同社は、毎日大量の仕事に追われている。

Lampによると、今データサイエンスは大学の学士課程の専攻科目として人気急上昇中で、またデータサイエンス〜統計学の研究者たちも企業に高給で引き抜かれる例が増えている。データサイエンスの黄金時代の夜明け前、とも言える今は、Yhatにとっても、起業の良いタイミングだったと言える。

ところで、Yhatという企業名の意味や由来を知りたいと思った読者は多いだろう。ぼくも実はそうだった。それは、統計学のある測度を表すドイツ語で、データサイエンティストたちの仲間内のジョークでもある。〔回帰式において従属変数Yの予測値を表す。〕

Lampによると、同社がターゲットとするオーディエンスたちは、このジョークがすぐに分かる。でも、ほかの人たちには毎回説明しなければならない、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


センサなどからのストリーミングビッグデータをリアルタイムで処理するRapidMinerのStreamsサービス

RapidMinerが今日(米国時間12/17)発表したStreamsサービスは、データのストリームをリアルタイムで捕捉して処理する。RapidMinerのMichele Chambersの説明によると、このサービスがとくに便利なのは物のインターネット(Internet of Things, IoT)の分野におけるデータの捕捉と処理や、工業分野におけるセンサデータの取得とそれに対する瞬時の対応だ。

Streamsサービスはユーザのソースからデータを取り込み、それをもとにデータのブレンディングや、ストリーミングデータの分析、データからのモデル作成、などの処理をすべて、Apache Stormのクラスタで行う。ユーザがコードを書く必要はない。ユーザはRapidMinerが開発したバックエンドに対する指示をGUIのフロントエンドから行うだけである。データの処理は、最大遅延5秒という準リアルタイムで行われる。

このプロダクトは、これまでの1年間未発表のまま温めてきたが、その理由の一部は、Apache Stormが商用製品に使えるほどの安定に達していなかったからだ。そのテスト期間にRapidMinerは、某メディア企業のセットトップボックスから得られる視聴者のビヘイビアデータの取得と分析を行った。その結果に基づいて同社は、個々の視聴者に適切なリコメンデーションを送り、また広告ネットワークに対してはターゲティング広告のための情報を提供した。

同じくこのベータ時期に、コンクリート企業がその生コン製造機械やコンクリート打ち込み機械などからのセンサデータを捕捉して分析した。そういうコンクリート関連の機械装置は酷使によってすぐに壊れるので、最大能力の75%ぐらいでしか稼働できなかった。しかしStreamsのリアルタイムデータ分析により、機械の損傷に導く二大要素が振動と湿気であることが分かった。この二つの要素を適切にコントロールすることにより、安定稼働率が95%に上がった。

RapidMinerがStreamsでねらっているのは、こういうタイプのユーザニーズだ。Chambersによると、Storm以外のもうひとつのオープンソースソフトウェアの成熟を待って、来年の第一四半期にはStreamsのアップデートを行う。

さらにChambersによると、このプロダクトは同社のこれまでの製品系列との相性も良く、顧客に提供するビッグデータ処理オプションがまた一つ増えた、という形になっている。

また、同社は近く、データ視覚化のQlikや検索のApache Solr、WebスクレイピングのMozendaなど用のコネクタもリリースする。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


1年間の特訓教育でデータサイエンティストを育てるGalvanizeのコースは授業料48000ドル

プログラミングなどコンピュータ応用技術のスキルをゼロから特訓するGalvanizeが、データサイエンティストを育てて履修者に工学修士号を提供する期間1年の課程をスタートする。

galvanizeUと名付けられたこの1年課程は2015年1月に始まり、その費用は48000ドルという途方もない額だ。しかし、この1/5の期間でJavaScriptとHTML5とCSSを書けるようになる課程が12000ドルだから、同社のお値段、ないし‘授業料’としてはふつうだ。

定員は30名で、10月29日から申し込みを受け付ける。この課程を終了すると、現場ですぐにビッグデータ分析の仕事ができるデータサイエンティストになれる(Pythonによるプログラミング+データサイエンスに必要な数学と統計学)。サンフランシスコのSoma地区にあるGalvanizeの新しい(異様に巨大な)本社に教室が置かれるが、その建物はほかのスタートアップたちにもオフィススペースとして貸し出され、またGalvanizeのVC部門もこの中にあるから、卒業後にすぐ投資を受けるというシナリオもありえる。このような雑居構造は、生徒たちがスキルを習得するだけでなく、現実のスタートアップのコミュニティとその構成員の人たちに日常的に接触する、実際の仕事がどういうものか、見て聞いて分かる、という教育的メリットを想定している。つまりこのカリキュラムには、部分的に、OJT的な側面もある。

galvanizeUの卒業生には、コネチカット州の私立大学University of New Haven(ニューヘイブン大学)との提携により学位が与えられる。卒業生は同社のコロラド州BoulderとDenverにあるキャンパスで、gSchoolと呼ばれる期間6か月の通常のプログラミング課程を受講することもできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


IBM、Watson Analyticsを発表―Watson人工知能が万人にビッグデータ解析能力を与える

今日(米国時間9/16)、IBMは一般のビジネス・ユーザーに高度なビッグデータ解析能力を与えるWatson Analyticsという新しいプロダクトを発表した。

Watson Analyticsはクラウド・サービスで、データの収集、チェック、解析、ビジュアル化、共同作業のためのコミュニケーション・ダッシュボードなどビッグデータ処理に必要な作業はすべてクラウドで行われる。Watsonといえば、誰もが知るとおり、人気クイズ番組『ジェパディー』で人間のチャンピオン2人を打ち破った人工知能としてあまりにも有名だ。

IBMのビジネス分析事業グローバル・マーケティング担当副社長、Eric Sallは「単にブランドイメージのためにWatsonの名前を付けたわけではない」と強調する。Sallによれば、このプロダクトの特長はビッグデータに対して自然言語で分析、加工処理を行えることで、これにはまさにWatsonの人工知能テクノロジーが用いられているのだという。

Sallは「Watson Anlyticsの目的は、一般のビジネス・ユーザーに強力なビッグデータ解析能力を与えることにある。適切な意思決定のためにビッグデータを利用しなければならないことはだれでも知っている。だが、これまでそれができるのはごく一部の高度な知識とコンピューティングのインフラを持つユーザーに限られていた」と述べた。

現在、ビッグデータ解析には強力なコンピュータ資源、データサイエンティストとデベロッパーのチームが必要とされる。中でも後者を確保することは難事業だ。Sallは「このためにビッグデータ解析の結果を得るまでに、往々にして何日も、あるいは何週間もかかる。 今日のビジネスの厳しい競争環境からみてこのような遅れは許されない。また意思決定を行う人々が他のチームにいちいち処理をお願いするようではいけない」という。

Watson Analyticsはこうした障害を一挙に克服することを目指している。まずクラウド・サービスであるから、コンピューティングのインフラについて心配する必要はない。次にユーザーの望むデータ解析を自然言語で受け付けるのでデータサイエンティストもプログラマーも必要としない。

ユーザーは既存のデータ、たとえばSalesforce.comのCRMデータなどをそのままインポートして利用できる。Sallによれば、このサービスにはポピュラーなビジネス・ツールによって生成されるデータをインポートするためのコネクター・ツールが用意されているという。データをセットすれば、ユーザーは思いついた質問を次々にぶつけていくこともできるし、サービスにバンドルされているストーリー・テンプレートを利用して標準的な統計分析を行うこともできる。

もし営業データを扱っているのなら、テンプレートから標準的な分析を行うのが有効だろう。しかし、その過程でユーザーが何かを思いつけば、自由に質問することができる。Watsonは質問を理解して直ちに答えを出してくれる。Sallによれば「問題は多くのビジネス・ユーザーがビッグデータ解析の専門知識や経験に乏しいため、そもそもどんな質問をするべきなのかよく理解していないという点だ。テンプレートはこのような場合に解析を進めるための糸口として大いに役立つ」と述べた。

さらにWatson Analyticsのベーシック版はIBM Cloud Marketplaceから無期限に無料で提供される。 Sallは「ユーザーがこのサービスを利用する際の敷居を下げるために無料版を提供することにした。無料版も極めて高度な能力を持っている」と述べた。

有料のプレミアム版には、大容量ストレージや企業内データベースのデータに直接アクセスするためのコネクター、さらに高度な分析能力などの追加機能が加わる。

Sallは「これまでわれわれは紺のスーツを着たセールス部隊がCIO始めIT部門の専門家にプロダクトを売り込んでいた。一般ビジネス・ユーザーを直接のターゲットとするWatson Analyticsはわれわれにとって大きな戦略の変更だ。こうしたエンドユーザー向けプロダクトを急速に普及させるにはフリーミアム・モデルが適していると判断した」という。

Watson Analyticsにかぎらず、最近のIBMのエンタープライズ・クラウド戦略自体が、IBMが2013年に買収したインフラのプロバイダー.、Softlayerのプラットフォームを利用したプロダクトのデジタルマーケットを中心に据えるようになっている。またBluemix Platformを通じて、将来はサードパーティーのデベロッパーがWatson Analyticsをプロダクトに組み込むことが可能になる。

Watson Analyticsは今月虫にベータテストが開始され、年末には一般公開される予定だ。クラウドサービスであるので、デスクトップ、タブレット、スマートフォンなどさまざまなデバイスから利用が可能だ。しかしまだ専用のアプリは登場していない。

画像: Flickr USER ibmphoto24 UNDER CC BY-NC-ND 2.0 LICENSE

[原文へ]

(翻訳:滑川海彦@Facebook Google+


ビッグデータ分析には直感とサイエンスの双方が必要

編集部: この記事はSteven Hillionの寄稿。HillionはAlpine Data Labsの共同ファウンダーであり、同社のエンタープライズ向けビッグデータ分析プラットフォームの開発責任者である。Alpineを起業する以前は、Siebel 、Greenplumなどでエンジニアのチーム責任者を務めていた。

現在、データは今までにない規模とスピードで動いている。これを分析にするにはきわめて高度なハード、ソフトを必要とする。ではビッグデータ分析が登場してからは昔ながらの「直感」は無用となったのだろうか? データは「進め」と言っているのに経営者の直感は「待て」だったときにはどうすればいいのだろう?

私のような人間―数学とテクノロジーの専門家―がこういうと意外に聞こえるかもしれないが、私はビジネスマネージャーはデータに加えて直感を重視しなければならないと強く信じている。

一部の人々は所与のデータ・セットから適切なモデルを組み立てるには数学とマシンパワーさえあれば十分だというように考えがちだ。しかしデータの機械処理だけでビジネス上の適切な意思決定ができるなどというのは愚かしい考えだ。データ・サイエンスでは分析と直感は車の両輪であり、互いに他を必要としている。

そもそも直感は分析を方向づける。分析の結果は何もないところからいきなり現れるわけではない。まず観察に基づいた何らかの直感があり、そこから構築された仮説を検証するためにコンピュータによる数値処理が行われる。またデータ・サイエンティストがどんな数値処理の手法を用いるかについても直感が導きとなる。どのデータが本質的に重要なのか? どの変数が、どの過程が意味があるのか? どれが原因でどれが結果らしく思えるか? どのモデルがいちばん適切か? こうしたことはすべて直感が関係してくる。

次に分析が直感に根拠を与える。 教師なし(unsupervised)モデリングは、一見しただけでは不明な関連やパターンを巨大なデータ・セットから探し出すことができる。分析は単なる観察では発見が不可能であり、時には直感に反するような方向を探索するきっかけを与える。ビジネス運営者の経験に基づく直感とデータ・サイエンティストの分析が適切に補いあわなければ必ず問題が発生する。

いくつか私が経験した例を紹介しよう。

あるチームは銀行の一般個人顧客について、口座を閉じそうな顧客を事前に予測するモデルを作ろうとしていた。しかし生成されたデータからはそれらしいパターンが発見できそうになかった。預金、ローン、クレジットカード、すべての分野を通じて顧客が解約する兆候らしきものは見つからなかった。顧客の預金引き出しやクレジットカードによる消費のパターンに特に変化はみられないのに、突然に解約が行われる。

しかし銀行チームが顧客のセグメントごとにさらにデータを詳しく検討していくうちに、あるアナリストの直感が貴重な発見をもたらした。彼女はある顧客セグメントに注目した。このセグメントは平均より飛びぬけて多額のローンを組んでおり、契約期間も長いなど、いくつの特異な属性を示しており、全体として顧客価値が極め高かった。 アナリストはこのセグメントの顧客はスモールビジネスのオーナーではないかと思いついた。そして個別の顧客情報を確認するとそのとおりだった。

アナリストは「これらのオーナーたちは一般個人向けのローンやクレジットカードよりも有利なスモールビジネス向け融資の仕組みがあることを知らないのではないか?」と考えた。そこでこうした高価値顧客を発見し、適切な金融商品を売り込むことにプロジェクトの目標が急遽、変更された。チームは.さらにデータ分析を続け、特定のセグメントの顧客に特化したセールスを行った場合の効果を検証した。その結果、セグメントごとにカスタマイズした金融商品の売り込みは効果があることが明らかになった。

データにいかに数値処理を加えてもこの結果―あるセグメントの顧客はスモールビジネスのオーナーである―は出て来なかったに違いない。ビジネスの経験に基づくこうした直感とデータ処理が統合されるときわめて価値ある結果がもたらされる。

こうした例でも明らかなように、ビジネス経験に基づく直感はデータ分析の決定的に重要な部分だ。にも関わらず、データ分析でビジネス側の経験者がプロセスから排除され、最後に結論だけを知らされるという例があまりにも多い。ビジネス・サイドの知識を持つメンバーをプロセスの当初から招き入れることが絶対に必要だ。私は、チームのプロセスをこうした線に沿って改革し、生データをレビューするもっとも早い段階からすべてのメンバーが参加するようにした。

われわれが経験したもう一つの例では、クライアントは巨大飲料会社だった。日本におけるセールスを予測するというのが彼らの依頼だった。われわれは経済動向と価格を変数として来年の売れ行きを予測するモデルを作った。クライアントは「売れ行きは景気に正比例するはずだ」とわれわれに告げた。日本の景気が徐々に回復すればそれに比例してソフトドリンクの売上も伸びるというわけだ。

クライアントはモデル中の景気の変数として日経平均を用いるよう要請してきた。このモデルは当初は適切な予測をするように見えた。しかし翌年入って時間が経つに連れてモデルは馬鹿げた予測を出し始めた。これは日経平均が当初予想した範囲の上限を超えて上昇したため、モデルが破綻したのだとわかった。もっと優秀なモデル設計者だったら、そもそも日経平均を変数に組み入れるような危険なことはしなかっただろう。

直感が重要な場合も多い。同時にデータサイエンスではモデリングの限界を知る慎重さが必要だ。われわれは清涼飲料水の売上予測モデルから日経平均を外した。するとモデルはうまく作動するようになり、翌年のマーケティング戦略の立案に重要な役割を果たすことができた。

データサイエンティスト側とビジネス実務側の間にはとかく緊張が生まれやすい。データ分析の結果が直感に反するように思える場合―たとえば派手なマーケティング・キャンペーンの効果がゼロに近いなどという結果が出たときには特にそうだ。われわれデータサイエンティストは往々にしてテーブルの向こうに座ったクライアントのマーケテティング担当者から「いったい全体、そんあ数字はどこから出て来たんだ?」と詰問される。

しかし私はこうしたやりとりは非常に重要だと考えている。数学と科学的分析はビジネス側の疑問に正しく答えることができなくてはならない。あるときはデータ分析の結果が直感が間違っていることを明らかにする。しかしあるときはデータ分析の欠陥を直感が明らかにすることがある。こうして直感と分析があい補っていくのが理想だ。

カット画像:Shutterstock USER Stocksnapper (IMAGE HAS BEEN MODIFIED)

[原文へ]

(翻訳:滑川海彦@Facebook Google+


植物卵のHampton Creekが世界最大の植物データベースを構想: “これまでの農業や食品産業は植物の知識が貧しすぎる”

Hampton Creekが作っている植物性の卵”Just Mayo”が、今週から1ドルショップ〔≒100円ショップ〕Dollar Treeでも買えるようになり、まずそれはサンフランシスコ都心の9万平方フィートのお店に登場する。それだけでなく同社はこのほど、Googleの中心的なデータサイエンティストDan Zigmondをスカウトした。その理由は?食品産業の全体をかきまぜる(スクランブルする)ためだ。

Zigmondは過去8年間、YouTubeとGoogle Mapsで複雑なデータと格闘してきた。彼がこれからやりたいのは、Hampton Creekで世界最大の植物のデータベースを作ることだ。そしてそれが結果的に、アメリカ人の食生活に大きな変革をもたらす、と彼は考えている。そこで、まず…

Google Mapsのスペシャリストとアメリカ人の肥満と何の関係があるのか?

Googleの本職のデータサイエンティストとマヨネーズ会社が“アメリカ的食生活”(Standard American Diet, SAD)を変える、といっても、ぴんとこない人が多いと思われるが、Hampton CreekのCEO Josh Tetrickによると、Zigmondにはそれができる、という。“Danは膨大な量のデータを分析して、そこからいろんなリアルな関連性を見つけ出す天才だ”。彼の言う“リアルな関連性”とは、そのデータベースを見るとどの植物がわれわれの惑星上に起きている変化に影響を及ぼしているのかが分かる、という意味だ。

私たちは、ジャンクフードを食べ過ぎている。もっと、植物を摂らないとだめだ! 最新のUSDAの調査〔合衆国農務省〕によると、アメリカ人は畜肉、精製穀物、そして不健康な脂肪の摂り過ぎだ。

アメリカ人の肉類の消費量は減っている、という研究データもあるが、でも世界全体では肉の消費は増えている。それは世界人口の底辺部分の栄養状態が良くなり、世界の経済が良くなりつつあることの兆しでもあるが、しかし同時にそれは、環境への負荷と健康被害が増大していることを意味している。 アメリカなど先進国の畜産業も、この点では威張れない。Wired誌の上記の記事が描いている動物虐待やアニマルライト(animal rights, 動物の権利)の問題をしばし忘れるとしても、われわれのハンバーガーの中にある1/4ポンドのビーフパティを作るために5〜6ポンドのコーンと52ガロンの水と、1000BTU以上の化石燃料が必要であることを、考えてみよう。

コーンや大豆製品の過剰消費がアメリカ人のウェストラインを大幅に増やしている。健康的な有機栽培の果物よりも、精製食品や加工食品の方が安いから、そうなるのかもしれない。20世紀前半の大恐慌時に制定された合衆国農業法は、農家によるコーンや大豆など特定作物の増産を奨励している。この法は、りんごではなく、ポテトチップやキャンディーバーの味方だ。

肥満と低所得との相関性は、否定できない事実だ。スーパーで安く買える食品はカロリーばかり高く、全体的な栄養価は低い。そういう食品は、農業法が奨励しているコーンや大豆が原料であることが多い。合衆国では成人の1/3が肥満だから、およそ1億あまりの人びとが糖尿病や心臓病の高いリスクを抱えている。2008年には、国民の年間の医療費の合計が1470億ドルという天文学的な額に達した!

世界最大の植物のデータベースを、こういった問題の解決に資する形で作ることは、けっして容易ではない。世界中の既知の植物種は870万以上ある。種(species)の下の変種(variety)のレベルで数えると、その数はもっと膨大だ。

世界最大の植物データベースと世界的飢餓との関係

国連の食糧農業機構(Food and Agriculture Organization, FAO)によると、毎晩飢えてる状態で床につく人は10億人以上いる。人間が家畜に与えている食糧の量は、この人たちが食べている量よりも多い。多くの土地を、家畜のための食糧ではなく人間の食糧のために使えば、途上国の人たちも主食となる食糧を、安く豊富に手に入れることができる。

工場的農業は食糧生産の大企業による独占や寡占状態を作り出し、大量の廃棄物と、主に除草剤による土壌汚染と、労働者たちの低賃金労働と、抗生物質が効かない病原を作り出し医療費高騰の原因にもなっている。Hampton Creekがこのデータベースの効用として構想しているのは、世界各国の農家や農業行政担当者たちの植物知識の増大と詳細化により、新たな換金作物がたくさん見つかり、農業地域における作物種生態系の多様化、すなわち自然環境の健康化をもたらし、ひいては地球全体の環境を良くしていくことだ。今のアメリカの農業のような大規模単作(膨大な土地面積がコーンならコーンだけとか)とは、対極の姿だ。そうなれば多様な農作物の低コストで健康的な栽培が可能になり、世界中の農家が家族を養えるようになり、小規模農家のコミュニティが栄え、しかも、消費者の健康にも貢献する。

データを読み解く

同社の研究チームは、これまでに4000種の植物を調べ、Hampton Creekの今の製品に適した粘稠度、味、および低費用性を備えた13種を選び出した。Tetrickはこう言う: “卵をスクランブルするんじゃなくて、植物をスクランブルして、正しい性質をもった種を探した”。

Hampton Creekは主にマヨネーズで知られているが、卵抜きクッキーの生地も売っている。近く、スクランブルエッグの味のするスクランブルピー(pea, 豆)も売り出す予定だ。 Tetrickによれば、その世界最大の植物データベースがあれば、今のような卵代替製品だけでなく、もっと製品を多様化できる。たとえば、砂糖の摂取量を減らすことのできるおいしい甘味料も、まだ市場に出ていないさまざまな植物から作れる。

同社のもう一つの目的は、安価に買えて日常的に常食できる食品を提供することだ。しかもそれの栽培〜生産が地球の環境に貢献するものでなければならない。“今回100円ショップに出したのも、そのためだ。うちのおやじなんかが、いつでも気軽に、何も考えずに買えなければ、いくら健康的とか言っても意味ないからね”、とTetrickは言う。“今のような、値段の高い健康食品は、多くの人の健康に貢献していない”。

データを売る

Zigmondを招いて世界最大の植物データベースを作ることになれば、Hampton Creekは、植物の食品適性に関する膨大で詳細な知識を入手することになる。だから今後の製品開発においても、断然有利だ。直接の商品化適性だけでなく、ほかの動物や環境への影響についても、分かるようになる。

たとえば今のTetrickは、カナダ黄色豆のある変種が、同社の植物卵に合った物理性を持っていることを、知っている。つまりその豆は、粘稠度が同社の製品に合っているのだ。でも、そんな豆の存在をたまたま知るのではなく、世界中の種からいろいろ見つけ出すことは、今の同社にもできない。カナダ黄色豆だけでも、変種は2000種類以上あるのだ。

すべての植物の食物(食品)適性について、網羅的な知識が得られるようになると、より安くて、より安全で、より健康的な製品を作りやすくなる。大企業が大金を投じてそんな知識を取得するのではなく、それは世界中のどんな農家でもアクセスできる情報でなければ意味がない。Tetrickはすでに、いくつかの食品大企業と、そのデータベースのライセンスについて話し合いを始めている。

“どこかの大企業がうちに10億ドルを出して、そのデータベースの権利を買い取ろうとしても、ノーと言うだろう”。同社の研究資金はすでに3000万ドルを、Bill Gates FoundationやFounders Fund、Google Venturesなどから得ている。現在の同社は、すでに経営が黒字だ。 同社の”Just Mayo”製品は、全米のWhole Foods、Safeway、Costco、それに今度からはDollar Treeで売られている。

中でもとくにDollar Treeが、“うちのおやじでも気軽に買える”という意味で、同社のねらいにぴったり合っている。Tetrickが、大手食品企業に対して情報を積極的に開示しているのも、健康的な食品の安価な日常化大衆化が彼の中心的なビジョンだからだ。Tetrickはその植物データベースに、日常的な食品に含まれている植物のデータも入れたい、と考えている。今のように、健康と財布を秤にかけながら健康食品を買うのではなく、究極的にはすべての食品が安価で健康的な食品になるために、その網羅的悉皆的な植物データベースが、全農業、そして全食品産業のために、役立つだろう。“世界を変えるほどでっかいものを作りたいんだ”、というTetrickと、そしてZigmondは、どちらもそれにぴったりの役柄だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータ処理のモバイル化を志向するCouchbaseが新たに$60Mを調達

分散コンピューティングの需要やモバイルデバイスの増殖に伴い、コンピューティングのインフラとなるツールの革新の歩みが加速している。そして新しいタイプのデータ管理やデータ処理技術を専門とするスタートアップたちが大きな資金を調達して、次世代のコンピューティングを推進しようとしている。

最近、新たな投資家WestSummitやAccel Growth Fundから6000万ドルを調達した新進のデータベース企業Couchbaseも、その巨額な資金により、国際展開と継続的な研究開発を、さらに加速するつもりだ。

カリフォルニア州Mountain Viewの同社は、MongoDBなどとともに、企業や組織の業務データ(operational data, オペレーショナルデータ)の管理を扱う、資金状態の良好なスタートアップの一つだ。

これまで累積で10億ドルあまりを調達しているClouderaなど、Hadoopベースのベンダと違ってCouchbaseとMongoDBは、データベースのデータ処理よりもむしろ、データの管理とリカバリに力点を置く。同社のCEO Bob Wiederholdは、そう語っている。

Wiederholdは曰く、“ユーザのところでは大量のアプリケーションが同時に動いていて、大量のデータベース操作をたえず行っている。今日のデータベースは、そのような苛酷な状況を堅牢にサポートしなければならない”。古いデータベース技術ではデータが中央一点型で存在し、Couchbaseのような分散データベースと違って、需要増に応じて機敏なスケールアップができない、と彼は語る。

WestSummitとAccel Growthから得た新たな資金は、ビッグデータ市場のなお一層の開拓に充てられる。その市場のグローバルな現在の規模は、アナリストグループIDCによれば、160億ドルあまりと推計されている。

さらに同社は、5月のローンチしたモバイル技術の展開にも力を入れていく。

Couchbaseが今市場に売り込もうとしているモバイルデータベースは、モバイルデバイス上のアプリケーションが、インターネットに接続していないときでも稼働できる状態を作り出す。

Wiederholdはさらに言う: “今モバイルアプリを使おうとすると、インターネット接続がなかったり、接続状態が悪かったりしてフラストレーションにおちいることがある。ある程度キャッシュが使われてはいるが、アプリ本体の機能は利用できない。しかし、必要なデータをモバイルデバイス上に保存できたら、非常に速いレスポンスタイムを享受できるし、インターネット接続が得られる状態になったらデータをクラウドにシンクできる”。

Couchbaseのモバイルプロダクトはまさに、そのような機能性を提供する。“モバイルへの移行は巨大なトレンドであり、そのためにまず最初に作られるのがモバイルのアプリケーションだ。しかし、今よりももっとグレートなモバイルアプリケーションを作れて、利用できるためには、モバイル対応のデータベースこそが、その鍵となる技術なのだ”、とWiederholdは自負を語る。

モバイルと並んでCouchbaseのCEOの目に映じている大きな機会が、国際展開の拡大だ。中国と合衆国を股にかけたファンドWestSummitを加えたのも、そのねらいからだ。WestSummitの協同ファウンダでマネージングパートナーのRaymond Yangが、Couchbaseの取締役会に加わる。

Couchbaseには、二つの別々のデータベース企業CouchOneとMembaseというルーツがあり、両社が2011年に合併してCouchbaseになった。

同社はこれまでに、Accel Partners、Mayfield Fund、North Bridge Venture Partners、Ignition Partners、Adams Street Partnersなどから合計1億ドルあまりを調達している。

写真はFlickrユーザElif Ayiterより

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Microsoft、Azure MLを発表―クラウドベースの機械学習プラットフォームは未来を予測する

最近急速にクラウド化しているMicrosoftが、今日(米国時間6/16)、クラウドベースの機械学習プラットフォームを発表した。このAzure MLはクラウド上でビッグデータを利用することにより、単に過去を分析するのではなく、将来の事象を予測するアプリやAPIを作ることができる。

Azure MLはXboxやBingですでに使われている機械学習機能を利用している。またデベロッパーが未来予測アプリを開発するために使うテンプレートとワークフローも用意される。これによって機械学習アプリを開発するスピードは大幅に加速されるという。サービスのプロバイダはAzure MLプラットフォーム上で各種のウェブサービスを開発できるだけでなく、APIを公開することも可能になる。

Microsoftのコーポレート・バイスプレジデントでAzure MLの責任者、Joseph Sirosh(Microsoftに移る前は長年Amazonに在職)は、「このプラットフォームを利用すればユーザー、パートナーは未来を予測するビッグデータ・アプリケーションを開発することが可能になる」と述べた。

Siroshは「過去の分析ではなく未来を予測し、それを変えることができるのがAzure MLの傑出した特長だ」という。

「既存のデータ分析システムも未来の予測ができる。しかし機械学習は未来を書き換えることができる」とSiroshは説明する。 つまりビッグデータを分析してパターンを発見し、製品の需要や病気の流行を予測したり、エレベーターが故障する前にメンテナンスが必要だと教えたりする。さらには犯罪の発生を予測して防犯に役立てることもできるという。

Siroshによれば、こうしたことを可能にしてゲームのルールを変えたのはクラウド化だという。もしユーザー企業が独力で実行しようとすれば何週間も、それどころか何ヶ月もかかるような膨大な処理がクラウド上ではごく短時間で実行できる。

またSiroshは「クラウドは最後の1マイル問題も解決した」という。以前このようなサービスではまずデータ・サイエンティストがビッグデータを分析してパターンを見出し、IT部門がそれに応じてアプリケーションを開発するという手順を踏む必要があった。このプログラムのコーディングがきわめて手間のかかる作業であり、何週間、何ヶ月もかかっていた。しかしAzure MLならアプリケーション開発は数時間ですんでしまうという。

また多くのデータ・サイエンティストが利用している統計処理言語Rのオープンソース・プロジェクトから300以上のパッケージが利用できる。

またSiroshは多くのユーザーがAzure MLプラットフォーム上でアプリやAPIを公開することによって好循環が始まることを期待している。「ユーザーがデータをAzure MLに持ってきてアプリやAPIを公開する。するとさらに多くのユーザーそのアプリをAPIを利用してさら多くのデータをAzure MLに持ち込むようになる」とSiroshは説明する。

Azure MLは現在、秘密にプレビューされている。しかしMicrosoftはいくつかの実例を明かした。その一つはMirosoftのパートナー、Max451が開発しているシステムで、これは小売業者が消費者の好みを分析することによって商品の売れ行きを予測するサービスだ。小売業者はもっとも売れそうな商品の在庫を増やすなどして利益を増大できる。

またカーネギーメロン大学はキャンパスの建物でのエネルギー消費を抑えるためにAzure MLを使って学内の活動パターンの予測手法を開発中だ。

しかしこの分野を手がけているのはMicrosoftばかりではない。IBMは昨年冬、Watson人工知能をクラウド・サービス化した。また先週はErsatz Labsというスタートアップがディープラーニング人工知能のクラウドプラットフォームをローンチしている。

Azure MLは来月に公開プレビュー段階に入るという。正式リリースの日程は明らかにされていない。

写真: (c) Can Stock Photo

[原文へ]

(翻訳:滑川海彦 Facebook Google+


Googleのリアルタイムビッグデータ分析サービスBigQueryが大幅値下げと能力アップ

非常に大きなデータ集合を高速に分析するためのGoogleのクラウドツールBigQueryが今日(米国時間3/25)、最大85%という大幅値下げをした。そしてそれと同時に、Amazon Kinesisなどの競合サービスと互角に戦うための重要な新機能も加えた。もうすぐデベロッパたちは、最大で毎秒10万行までのリアルタイムデータをBigQueryに送り、リアルタイムで分析してもらえるようになる。

これで、リアルタイム分析に依存する多種多様なサービスにとって、BigQueryが使うツールの候補になる。今日行われるCloud PlatformのイベントでGoogleは、電力会社がこのツールを使うと、地域の電力利用状況をリアルタイムで刻々分析しながら、数分後の停電の可能性を検知できる、という例を見せる。あるいは電力会社はBigQueryを使って数マイル範囲内のメーターの今の状態を知り、過去5分間に電気の利用がなかったところを判別できる。

そのほか、マーケティングや金融業などでも、データやログ、さまざまな計測値などをリアルタイムで分析できる。

ビッグデータ分析の世界でGoogleのサービスは、比較的安い。オンデマンドのクェリは1テラバイトあたり5ドル、毎秒5GBの予約クェリは月額料金が“わずか”2万ドルだ。これらの額は、ほかのサービスプロバイダよりも75%安い、とGoogleは主張している。

BigQueryのこれまでのリアルタイムストリーミング機能はあまり強力ではなくて、 その最大消化能力は1テーブルあたり毎秒1000行だった。それで十分なアプリケーションもあるが、それはAmazon Kinesisの足元にも及ばない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Microsoft、Office 365でPower BIを正式公開―会社内外のビッグデータを分析してビジュアル化できる強力ツール

半年以上にわたって限定プレビューを続けた後、今日(米国時間2/10)、MicrosoftはPower BI for Office 365を正式公開した。

これはOffice 365のエンタープライズ・ユーザー向けの強力なビジネス・インテリジェンス・ツールだ。ユーザーはExcelと同時に利用することによって巨大なデータセットを自然言語で検索し、モデル化して分析することができる。またExcelに加えてPower ViewとPower Mapを使うことで簡単に高度なビジュアル化が可能だ。

私の取材に対してMicrosoftのSQLサーバ・プロダクトのマーケティング担当ゼネラル・マネージャーのEron Kellyが答えたところによれば、「われわれのユーザーの多くはExcelであれば安心感をもって使えるので、Power BIに独自のダッシュボードを与えることはせず、むしろExcelの遍在性を最大限に利用することにした。Power BIによって従来よりはるかに多くのユーザーが企業の意思決定に重要なビジネス・データを効果的に分析できるようになるだろう」とのことだ。

企業内ユーザーはデータ分析を IT部門に依頼して回答を待ち、その回答を見て別の切り口で分析をする依頼する、というサイクルを経る必要がなくなる。Power BIの学習は比較的容易なので、対象となるデータの量が増加し、意思決定がデータ主導型になるにつれてPower BIは大企業に必須のツールとなるだろうとMicrosoftは期待している。

ただ、データ分析がエンドユーザーのセルフサービス化するとしても、データのアクセス管理はIT部門の権限として残される場合が多い。Microsoft は IT部門がデータ・ソースの準備と管理を行うことができるようにしている。

またPower BIは社内のビッグデータを公開されている外部のビッグデータと共に利用できる。エントリー・レベルではMicrosoftのAzure Marketplaceのデータを利用するのが簡単だが、高度なユーザーは独自にREST APIを利用して外部サービスのデータを収集することができる。またODataを利用したサービスとの連携も可能だ。

しかしなんといってPower BIの最大のセールスポイントはQ&Aツールだろう。ユーザーはデータセットに対して自然言語で問い合わせができる。ニューヨーク市がオープンAPIを通じて公開しているデータを調べようとしているとしよう。たとえば「スーパーボウルが開催された日曜日の騒音の苦情を平日と比較する」と入力すると、Power BIがユーザーに代わって適切なクエリーを発行し、その結果を教えてくれる。このテクノロジーはMicrosoft Researchと検索エンジンのBingのチームの共同で開発された。

なおPower BIはOffice 365エンタープライズの契約者に対してのみ提供される。

[原文へ]

(翻訳:滑川海彦 Facebook Google+


AWSがHadoopビッグデータのクェリツールImpalaをサポート

Amazon Web ServicesにImpalaのサポートが加わった。これはClouderaがGoogleに倣って開発したクェリツールで、大量のデータを並列処理によりリアルタイムで処理する。Impalaでは、デベロッパがAWSのElastic MapReduceの上で、SQLふうの言語を使ってクェリを行える。それは高速でアクセス性も良く、オープンソースの分散コンピューティングシステムHadoopでSQLの利用が増えていることを示す一つの例でもある。またImpalaは、より広い視野で見ると、この市場ではGoogleの影響がとても大きいことを示す例の一つでもあり、新しいデータプラットホームや従来よりもリッチなアプリケーションエコシステムを作ろうとする人たちの多くが、Googleの先行製品を参考にしている。

昨年世に出たImpalaの場合は、GoogleのDremelがベースだ。これはビッグデータ分析におけるGoogleの先駆的製品、広大なクラウド宇宙の全域にわたって保存されているデータをクェリするMapReduceの後継製品で、GoogleのPM William Vambenepeによれば、DremelはGoogleのデータ分析プラットホームBig Queryのベースでもある。Hortonworksが発表したTezは、同社のStingerプロジェクトの一環で、HadoopをクェリするデータベースHiveを使用する。Hortonworksによると、Stingerは通常のSQL文によるクェリをペタバイトクラスの大規模データに対し、従来の100倍のスピードで実行する。

Citus Dataの分析データベースも、やはりGoogle Dremelがベースだ。これはPostgreSQLデータベースに対する並列処理で高速なクェリを行う。またMapRはApache Drillを使って大量データに対する高速クェリを提供する。そしてHadoopをベースとする分析データベースJethroDataも、Google Dremelのやり方に倣っている。

“Adaptive Analytical Platform”でこれらすべての企業/製品に先行するHadaptは、オープンソースのApache HadoopにSQLのネイティブ実装を持ち込んでいる。

Dremelの大きな影響力の理由

Hadoopは、ペタバイトのオーダーでデータを処理するTwitterのようなインターネット企業にとって重要な技術だ。また既存の企業にとっても、昨今はデータの量がこれまでになく増加しているので、Hadoopのありがたみが増している。Impalaは、こういった新世代のデータユーザに、利便を提供する。Impalaを使えば、高度な専門技術がなくても、データをクェリできるのだ。

これまでのHadoopは、高度な知識能力を持つ専門技術者でないと扱えないしろものだった。そういう人たちは初期のデータサイエンティストと呼ばれ、プログラミングの能力とクラスタの管理能力、そしてデータ分析の技術を持っていた。そういうビッグデータ技術者たちは、大量のデータをそれぞれ独自のやり方で処理し分析していたインターネット企業から巣立ってきた。たとえばJeff Hammerbacherは、Facebookを辞めてClouderaの協同ファウンダになった。Yahoo!でApache Luceneを使ってオープンソースの検索エンジンを作っていたDoug Cuttingは、そのプロジェクトのためにHadoopを作って利用した。Luceneも、その初期の作者がCuttingだ。そのCuttingも、今ではClouderaで仕事をしている。

Googleは、MapReduceで先陣を切った。それは、ノードの集合を、データを並列処理するためのクラスタとして扱った。複数のクラスタに亙ってデータをマップし、それを縮小(reduce)して答えを得た。

そしてそのMapReduceを超える技術であるGoogle Dremelは、次世代のHadoop技術の柱となる製品だ。それは、そのほかの、HivePigといったオープンソースのプロジェクトとともに、成長し続けるエコシステムを形成し、それらが一体となって、より高級な言語でMapReduceの複雑さ~難解さを抽象化する。

Dremelの強みは、データ分析がバッチでなくリアルタイムの瞬時であることだ。しかしそれは最初、Googleの…主にオンライン広告のための…大規模な関係データベースGoogle F1をクェリすることを、目的として開発された。

ImpalaもDremel同様、その分析能力が売りだ。したがってそれは、ビジネスインテリジェンス(BI)のための視覚化技術Tableauなどの、補完製品とみなされることが多い。Impalaでデータを迅速にクェリし、その結果をBIツールが利用するのだ。

Hadoopそのものは、アプリケーション開発のためのプラットホームではない。しかしImpalaのようなアプリケーションに奉仕するツールの普及および多様化に伴って、Hadoopがアプリケーションのベースとなる機会が今後ますます増えるだろう。たとえば今年の初めに発表されたHadoopの最新バージョンでは、MapReduceを抽象化してスケジューラやリソースマネージャとして使うYarnの新バージョンが同梱された。これによって、それまでのHadoopでは難しかったスケーリングが可能になる。

Hadoopから生まれるアプリケーションのエコシステムは、すでにImpalaやYarnにその兆しがある。どちらのツールもHadoopの外見を単純化し、エンドユーザ(アプリケーションデベロッパ~BIユーザ)の能力を深化する。またConcurrentが商用化したHadoopのためのアプリケーションフレームワークCascadingがある。TwitterEtsyAirbnbなどが、その顧客として名を連ねている。

この市場(ビッグデータアプリケーション市場)は、長年Googleが先頭を走ってきた。しかしHadoopとプラットホームレイヤのイノベーションにより、Googleと後発グループとの差は縮まりつつある。

画像提供: Electric Sheep, Creative Commonsによる)

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータによる気候予測のスタートアップ、Climate Corporationをアグリビジネスの巨人モンサントが11億ドルで買収

今日(米国時間10/2)のビッグニュースはアグリビジネスの世界的トップ企業、MonsantoClimate Corporationを11億ドル前後で買収したことだ。Monsantoのプレスリリースでは買収金額は9億3000万ドルとなっているが、投資家からの情報によると、Climate Corprationの従業員引き止めのための優遇策などを加えた買収費用総額は10億ドルを超えるという。

Climate Corporationへの投資家にはFounders FundKhoslaGoogle VenturesNEAIndex VenturesAtomicoが含まれる。このスタートアップは機械学習を利用してビッグデータを解析し、気候変動の予測など農業ビジネスのために必須な情報を提供している。

Monsantoはバイオテクノロジーを利用した新品種の種子を始め農業関連のさまざまな商品とサービスを全世界で提供している。買収されたClimateCorporationは名称をそのままに独立の企業として運営を続ける一方、Monsantoはそのビッグデータ解析による情報を世界の農業関係者に提供していく。

今回の買収の発表は世界最大のアグリビジネスの一つであるMonsantoが第4四半期の決算で 予想以上に大幅な2億4900万ドル(1株当たり0.47ドル)という損失を発表したのと同日だった。

Monsantoはこの買収を長期的な業績回復のための布石の一つと捉えている。Climate Corporationの気候変動監視テクノロジーが地球温暖化などマクロ的スケールにおけるリスクマネージメントに大きく寄与すると考えているわけだ。 Monsantoは年来遺伝子組み換えテクノロジー などによる市場占有で小規模なアグリビジネスを圧倒してきた。Climate Corporationの買収がこれまでのMonsantoの戦略のどこに収まるのか注目される。

こちらはMonsantoのプレスリリース

Climate CorporationのCOO、Greg Smirinは私の取材に対し「この買収は双方にとって理想的だ。周知のように地球気候は近年変動が激しくなっている。われわれは以前からMonsantoに親近感を抱いていた。われわれが開発したデータ解析テクノロジーはMosantoの種子ビジネスにきわめて大きな好影響を与えると確信している」と述べた。

Climate CorporationのCEO、David Friedbergは元Google社員で、Googleの最初の企業買収担当幹部の一人だった。IndexのNeil RimerによるとFriedbergはSkypeの買収を社内で提案したことがあるという。 IndexはClimateに最初の30万ドルのシード資金を提供している。

私はMonsantoの世界戦略担当副社長、Kerry PreeteとFriedbergをわれわれのスタジオに招いてインタビューすることができた。

こちらは昨年、Climateが5000万ドルの資金を調達したときのFriedbergインタビュー。

取材協力:Ingrid Lunden

[原文へ]

(翻訳:滑川海彦 Facebook Google+


64%の企業がすでにビッグデータ技術に投資済みまたは投資の予定あり, 展開配備済みはわずか8%

Gartnerの最新の調査報告によると、企業はビッグデータに積極的に経費を投じているが、まだ、それで何をするのかに関するプランが明確でないところが多い。調査対象の企業の64%が2013年にすでにビッグデータ関連のソリューションを購入をまたは投資を予定しており、2012年の58%に比べ明らかに増加している。その64%の内訳は、30%がすでにビッグデータ技術に投資、19%が来年の投資を予定、15%が2年以内に投資を予定(計64)、となっている。しかし回答企業720社のうち、実際にビッグデータ技術を展開配備しているところは8%足らずである。

ビッグデータは2013年に340億ドルのIT支出を惹起すると予測されているが、ビッグデータによるソリューションに魅力を感じている企業は多いものの、その多くは具体的な導入戦略について検討中の段階である。

Gartnerの調査担当VP Frank Buytendijkは声明文の中で次のように言っている: “ビッグデータに関しては、2013年は実験と初期的展開の年である。この技術の企業による採用はまだ始まったばかりで、すでにビッグデータによるソリューションを展開している企業は回答企業の8%に満たない。20%がパイロット中ないし実験中であり、18%が利用戦略を開発中、19%が研究調査中、そしてそのほかは、予定がない、わからないの層である”。

どのようなビッグデータソリューションを採用するのか、その予算規模は?、等に関して不明確な企業が多い中で、一般的な傾向は次のようになっている: 49%がビッグデータを利用してコスト削減やリスクの早期発見に役立てたい、としている。55%が顧客サービスの向上、42%がビッグデータから得られるインサイトにより製品開発やビジネスモデル開発を支援、23%がビッグデータによる直接的な収益化を目指している。

どの業界にも、すでにビッグデータソリューションに投資している企業や投資を予定している企業はある。とくに熱心なのは、メディアおよび通信企業、銀行、サービス業である。メディアおよび通信業は39%、銀行が32%、サービス業は32%がそれぞれ、ビッグデータにすでに投資を行っている。2年以内に導入予定、とする上位業界は、運輸業が回答企業の50%、保健医療が41%、保険が40%である。回答企業の多くが北アメリカの企業だが、この地域では38%の企業がすでにビッグデータ技術に投資を行っている。対してアジア太平洋地域では、45%が投資の予定ありと答えている。

ビッグデータ投資の戦略や方針がすでに決まっている企業が多い中で、しかし全体の15%は、ビッグデータ技術そのものを目下勉強中と答えている。ビッグデータは言葉の内包も外延もばくぜんと大きいから、それもむしろ当然かもしれない。

Gartnerの調査部長Nick Huedeckerは、次のように言っている: “勉強中と答えた企業はまだ投資の予定のない企業だろう。しかしそれらの企業も、ビッグデータを無視したら取り残される、という意識は持っているようだ”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


GoogleのBigQueryにリアルタイムのストリーミング挿入と時限クェリが加わる

Googleが今日(米国時間9/18)、BigQueryの大型アップデートを発表した。それはクラウドからのサービスで、大量のデータをSQLで分析し、とくに、リアルタイムデータの分析に適している。今日からBigQueryのユーザはイベントをデータベースに、行単位でストリーミングできる。そのためのAPIが今日から提供される。

Googleの説明によると、これによって、従来のようにデータをバッチでアップロードするだけでなく、データが発生し可利用になるたびにリアルタイムでそれらを保存できる。BigQueryが行うビッグデータのバルクロード機能はもちろん使えるが、デベロッパがこの新しいリアルタイム機能を試せるために、2014年1月1日までは無料で使える。そのあとは、データベースに10000行挿入するたびに1セントを払う。データ保存料は1ギガバイトあたり月額0.08ドル、クェリ(バッチクェリ)は処理後のデータ1ギガバイトにつき0.02ドルだ。

この新しい機能は、Googleによれば、リアルタイムで常時大量のデータが発生するオンラインショップや、何百万ものユーザや接続デバイスにサービスを提供するWebアプリケーションに向いている。

また、最前の24時間内の特定範囲のデータだけを調べる、というクェリが新たにサポートされた。BigQueryのクェリは基本的に全列スキャンだが、ほんとうは一部だけ見たいというユーザにとっては時間と費用の無駄だった。リアルタイムデータでは、とくにそんなニーズが多いだろう。たとえば、数時間(数日)前まで分かればよい、とか。

今日のアップデートではさらに、SUM()、COUNT()、AVG()、STDDEV_POP()といった新しいウィンドウや統計機能、そして過去のクェリを見ることのできるブラウザツールも提供された。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


クラウド時代の高機能スプレッドシートをめざすFivetran, 統計やDB機能を充実

Y Combinatorから巣立ち今日(米国時間3/19)ローンチしたFivetranは、スプレッドシートという古酒を21世紀の新しい革袋に入れることをねらっている。とくに力を入れているのが、従来のスプレッドシートが弱かったデータ分析の分野だ。多くの人が今ではスプレッドシートを…相当無駄な時間を投じて…データベースのように利用しているから、Fivetranはスプレッドシートのこれまでの標準的な機能に加えて、SQL的なクェリやMatlabにあるような統計ツールを導入した。

協同ファウンダのGeorge Fraser(CEO)とTaylor Brown(プロマネ)らによると、製品の基本的なコンセプトは、“これまでのスプレッドシートにはプログラミングにできることの50%しかなかったから、残りの50%を持ち込もう”、というものだ。

確かに彼らの言うとおり、ExcelとMatlabの落差は大きすぎる。Fivetranの初期のプロトタイプはかなりMatlab的で一種のプログラミング環境みたいだった。しかし今日ローンチしたものは、通常のスプレッドシートに、高度なデータ分析(回帰分析など)やデータ変換を行うウィザード群と、SQLのselectやjoinの機能を加え、さらにデータのクリーニングやテキストマイニングなどの機能もある。計算はすべてクラウド上(Amazon EC2)で行われるので、ものすごく大きくて複雑なスプレッドシートでも作れる。

チームがこのSaaSスプレッドシートの開発に着手したのは昨年の12月で、現状ではExcelのドキュメントや、CSVやJSONのファイルをアップロードしてすぐに仕事を始められる。チームの長期的プラントしては、このスプレッドシートの表面的な機能(ユーザ体験)を縁の下の本物のデータベースが支える、という形も構想している。Fivetranのパワーを人びとに分かってもらうために、(全米大学バスケ大会)「3月の狂乱」(March Madness)対戦表シミュレータや一連のチュートリアルも提供している。

ユーザは自分のデータをアップロードし、Fivetranの”step”システムを使って操作する。その計算に基づいて、副次的なシートも作られる。これまでのスプレッドシートに比べるとかなり高度だが、Excelの公式(SUM(a,b)など)もそのまま使える。

今チームはスプレッドシート用のユニットテスト(各部分の試験)や改版履歴コントロール機能を開発中だ。

Fivetranの料金体系は、Webのホスティングサービスのそれに似ている。無料では、作れるプロジェクトが5つまで、使えるメモリは1GBまで。月額20ドルのベーシックプランではメモリ5GB、プロジェクト数10。最高は月額80ドルで、メモリは16GBまで使える(非常に大きなスプレッドシートだ)。

全体としてこれは、クラウドコンピューティング時代の新しいスプレッドシートとして、きわめて興味深い取り組みだ。企業の情報部門などには、近年のデータの増加とともに旧来のスプレッドシートではデータ集合に対し歯(刃)が立たなくなっているところも多い。かといって本格的なデータベースや統計パッケージは重すぎる。Fivetranのような高機能化したスプレッドシートに飛びつくところも多いだろう。Fivetranのによると、初期のユーザたちはすでに週あたり数時間の(スプレッドシート雑務の)時間節約を実現しているという。朝から晩までExcelのセルのコピペばっかしやらされている人は、Fivetranを試してみてはどうだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))