AWSが外部に一般供用するKinesis FirehoseはIoTなどのセンサデータをクラウドへ直接送る

screen-shot-2015-10-07-at-12-18-51-pm

今日(米国時間10/8)のAmazon AWS re:inventで、センサなどからのデータストリームをクラウドに直接送るサービスKinesis Firehoseが紹介された。

AWSのSVP Andy Jassyによると、Amazonがこの種のストリーミングデータをゲットするためにKinesisをローンチしたのは数年前で、すでにこれを使ってデータを処理するカスタムアプリケーションをいくつか作ってきた。そしてAmazonは顧客を待たせすぎであることに気付き、そしてまた、一部の顧客はそんなデータストリームユーティリティを自分で作るためのリソースを欠いていた。

このFirehose as a service(FaaS)を使えば、ユーザ企業はデータストリーミングのためのアプリケーションを自分で作る必要がなくなる。Jassyによると、APIを一回呼び出すだけで顧客はデータをAmazon RedshiftやS3に置くことができ、ただちにそのデータを使って仕事を開始できる。

このシステムはもちろんエラスティックで、データの量が多ければそのぶん、多くのストレージを使える。データはKinesis上で圧縮および暗号化され、ユーザはデータアップロードの時間間隔や、一回のデータ送付量のリミットを指定できる。

そしてデータがシステムに入ってしまえば、顧客はその暗号を解いてデータをHdoopのクラスタなどにロードし、処理や分析を開始できる。

これには、AWS側に二つのアドバンテージがある。ひとつは、AWSがそのビッグデータ関連サービスをIoT分野にも拡大できること。そしてそれにより、S3などストレージサービスの利用量が大幅に増えることだ。

顧客は自分のアプリケーションのあるAWSにデータを送って利用できるし、Amazonは客単価を増大できる。まさにwin-winの関係だ。

AWS re:Invent 2015

[原文へ]
(翻訳:iwatani(a.k.a. hiwa)。

データは金鉱であり地雷である

baddata

データサイエンスと医療関連分野で仕事を始めてから5年になる。私はウォートン大学で生物学とマーケティングを学び、膵臓がんの研究をした。そして今私が言いたいのは、テクノロジーとその利用環境が驚異的に進んだにもかかわらず、医療分野はおよそついて行くことすらできていないことだ。

今やどの会社もテラバイト単位の〈データ〉を扱っていると言っている。しかし、スタートアップからFortune 500企業まで、ベイズ統計を導入してユーザーレベルのデータの力を活用している会社を見たことがない。彼らは統計あるいはコンピューター科学の教育を受けた人たちであり、会社の収益を高めるために給料をもらっている人たちなので、そうするためのインセンティブは膨大だ。

これはベイズ理論が著しく複雑であるとか新しいという話ではない ― 名前はややこしそうに聞こえるかもしれないが。ベイズは1761年に死んだ。もしわれわれがテラバイトのユーザーレベル 〈データ〉を持っているなら、なぜプッシュ通知の一つ一つが私の魂を射止めないのだろうか?なぜ、どのウェアラブルにも一日中座っていると心臓病になる時期がわかる健康管理システムが付いてこないのだろうか?

それは、データの収集はほんの第一段階にすぎないからだ。データマイニング[採掘]とは実に適切な用語だ:膨大な量のテクノロジーと人手を注ぎ込み、エンジンをぶん回し、深く堀り進んだ挙句たぶん何一つ見つからない。100%の人々がある行動を示すことを知り、局所的に最適化しようとした結果、そもそもそんな機能を持つべきでないことに気付く。

例えば、脱水症状問題の答えは1時間毎に水を飲むためのプッシュ通知を受けることだろうか?それとも子供の頃に学校が健康的習慣を促進すべきなのだろうか。テクノロジーは毎日何十億ドルも広告に費し、私に炭酸飲料やビタミン水を飲まそうとする ― 実際に体が必要とするものの代わりに。こうした問題は、いずれも〈データ〉の問題ではない。

今データにできること、それは人々の意識を高めることだ。私は10歩しか歩かずドスンと座ってNetflixを見るだけの日があることなど知らなかった。しかし今は、 FitbitStrava(ランニング追跡アプリ)とiOS 8 HealthKitを使って運動を記録し元に戻すべく戦っている。

同じことはVessylにも言える。テクノロジーを駆使したクールなアクセサリーで、1日に飲んだ水の量を追跡する。私がTechCrunch Bostonのピッチオフでしゃべった時、Neumitraという会社は、ストレスレベルをリアルタイムで追跡するものすごいリストバンドを作っていた。

コストはさておき、われわれは臓器を3Dプリント(データ量は多くない)できる時点より手前にいるが、自分の健康を管理しない言い訳ができる時点は過ぎている。テクノロジーの進歩の速さ(Microsoft Word)と対応する医療の進歩(電子カルテ)から判断する限り、正確なバイオマーカー(生体指標)が出来るよりずっと前に、われわれはその特異点を越えているだろうから、賭けをするならそのつもりで。

[原文へ]

(翻訳:Nob Takahashi / facebook

GoogleがPlay Gamesのプレーヤー分析機能をアップデート、iOSサポートを改良、より詳細なユーザ実態報告

screen-shot-2015-07-17-at-3-30-41-pm

数か月前Googleは、Play Gamesのプレーヤー分析機能(Player Analytics)をローンチして、ゲームデベロッパが、自分のゲームをプレイしているユーザの実態を、もっとよく把握できるようにした。

今日(米国時間9/9)同社はこのサービスをアップデートして、ゲームプレイの最初の2分間のユーザの状況レポートや、デベロッパがユーザの状態に合わせてゲームの流れを変えられるために分析機能のAPIを公開、iOSのサポートを改良、などの新機軸を導入した。

とくに、ユーザの状態を時系列でチェックできるPlayer Time Series Explorer機能を使うと、ゲームの重要な時点でプレイヤーが何をしているかを理解できる。とくに重要なのが、プレイの最初の数分だ。その間(かん)にユーザは、そのゲームが難しすぎるか、やさしすぎるか、ちょうど良いかを判断する。この、今度導入された時系列レポートにより、デベロッパはその最初の時間帯に何が起きているかを知ることができ、ユーザの引き止め率(retention)を高めるためにゲームを改作したりできる。最初の数分間だけでなく、ほかの時点のレポートも得られる。

overlay (1)

また、このユーザ分析レポートのAPI、Player Stats APIによりデベロッパは、プレーヤーのタイプに合わせてゲームの流れを調整できる。たとえば、そのゲームをよく理解できないユーザに対しては、彼/彼女が迷う箇所で説明をポップアップできる。また、アイテムのゲーム内購入を勧めるために、アイテム無視で頑張る熱心なプレーヤーに無料のギフトを進呈してもよい。

pasted image 0 (1)

つねにAndroidに力を入れているGoogleだが、Player Analyticsは前からiOSをサポートしていた。今回同社はCocoaPodsのサポートを改良して、PlayのゲームサービスをXcodeで構成できるようにした。その新しいSDKはGoogleのサインイン・フレームワークをサポートし、GmailやYouTubeなどGoogleの人気アプリのアカウントからも認証できるようにした。これらのGoogleアプリをインストールしていないユーザには、SafariにスイッチせずにWebViewを立ち上げる。

SDKの新しい機能は明らかに、プレーヤーのエンゲージメントに力を入れている。今やゲームに対するプレーヤーの期待も、そしてゲームのビジネスモデルも変わりつつあり、プレーヤーの再訪率を高めることが前にも増して重要になっている。飽きさせないゲーム内ナビゲーションが、何よりも重要なのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

SparkとHadoopは友だちである、敵ではない

hadoop-spark

[筆者: Raymie Stata](AltiscaleのCEO)
今年の6月はApache Sparkにとってエキサイティングな月だった。San Joseで行われたHadoop Summitで頻繁に話題になっただけでなく、Spark関連のプレゼンテーションも多かった。6月15日にIBMは、Sparkの関連技術に大量の投資をすると発表した。

この発表がSan Franciscoで行われたSpark Summitに火をつけ、来場者は昨年に比べて急増した。Sparkを試してみたい、という企業の数も増えた。

こうしてSparkへの投資と採用の好循環が回りだしたため、この重要な技術の成熟度と能力も急速に高まり、ビッグデータコミュニティの全体がその利益を享受した。しかし、Sparkへの関心が高まるにつれて、奇妙で偏狭な誤解も生まれてきた。それは、SparkはHadoopに取って代わるものであり、後者を補完するものではない、という誤解だ。たとえば次のような見出しは、この誤解の産物だ: “新しいソフトウェアがHadoopを蹴散らす”とか、 “企業はビッグデータでHadoopの次の技術へ”

ぼくはビッグデータとの付き合いの長い人間で、初期のHadoopに対するYahoo!の投資も擁護し、今では企業にビッグデータのSaaSを提供している会社のCEOだ。だからこの誤解を解きほぐす役割として、適任かもしれない。

SparkとHadoopは、一緒に使うものであります。

Hadoopは今やますます、ビッグデータ分析をやろうとする企業にとって、定番のようなプラットホームになりつつある。SparkはそのHadoopをより高速に動かすための、インメモリ技術だ。eBayやYahoo!などの、Hadoopの大型ユーザは、Hadoopのクラスタの中でSparkを使っている。ClouderaやHortonworksのような‘Hadoopベンダ’からHadoopのディストリビューションを導入すると、すでにSparkが同梱されている。弊社Altiscaleの顧客も、最初からHadoop上でSparkを使っている。

SparkをHadoopの対抗馬のように言うことは、車をガソリン車から電気カーに変えてとても快調なので、もうこれ以上電気は要らないと錯覚するのと同じだ。むしろ、電気で走るようになった車は、さらに快調に走るためには、さらに多くの電気を必要とするのであります。

なぜ、こんな混乱が生じるのだろう? 今のHadoopには主要部位が二つある。ひとつは、Hadoop Distributed File System(HDFS)と呼ばれる大規模なストレージシステムで、大量のデータをローコストで、しかも多様なデータを高速に処理できるよう最適化した形で保存する。第二の部位はYARNと呼ばれる計算処理の部位で、HDFSに保存されているデータを大規模な並列処理により高速に処理していく。

YARNはその処理方式としてさまざまなプログラミングフレームワークをホストできる。最初に使われたのがMapReduceで、これはGoogleが大規模なWebクロール(crawl)を処理するために発明したフレームワークだ。Sparkもそういうフレームワークの一つであり、最近ではTezというフレームワークも登場した。記事の見出しなどが“SparkがHadoopを蹴散らす”、と言っているときは、実は、今ではMapReduceよりもSparkを好むプログラマが多い、という意味なのだ。

言い換えると、MapReduceとHadoopを同格に扱うことはできない。MapReduceは、Hadoopのクラスタでデータを処理するときの、さまざまな処理方式の一つにすぎない。Sparkは、Haoopに取って代わることはできないが、MapReduceに取って代わることはできる。もっと広い視野で見ると、アプリケーションのレベル、たとえばビッグデータ分析の重要なアプリケーションのひとつであるビジネスアナリシスでは、多くの場合、ユーザのレベルでMap…やSpa…の顔を直接見ることはなく、もっぱら、彼らがいちばん使い慣れているデータクェリ言語SQLが、見かけ上の処理方式だ。

最近の4年ぐらいで、Hadoopを使うビッグデータ技術に大きなイノベーションが訪れている。まず、SQLがバッチではなくリアルタイムの対話型になった。そしてフレームワークは、MapReduce一本槍から、MapReduceもSparkも、そしてそのほかにも、いろいろあります、というご時勢になっている。

HDFSは、パフォーマンスとセキュリティが大幅に改良された。またビッグデータ分析のユーザビリティを良くするためのさまざまなツール…DatameerH20Tableauなどなど…が続々登場している。そしてこれらにより、より多くのデータサイエンティストやビジネスユーザにとってビッグデータ分析が、アクセスしやすいものになっている。

Sparkは、Hadoopをリプレースする挑戦者ではない。むしろHadoopは、Sparkがその上で活躍できるための基盤だ。企業が、そのデータ資産をアクションに結びつくビジネスインサイトに換えようとするとき、この両者をベースとする強力でロバストなプラットホームが、ますます多く採用されていくだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

“部屋を片付けられない病”ならぬ“データを片付けられない病”になりつつある現代企業を救うKomprise…ストレージとデータ管理のスケーリングを自動化/効率化

userinterface1

大量のデータを保存することには、費用が伴う。正しい情報管理の方法を実践していない企業では、その費用も大きい。しかしここでご紹介するKompriseは、企業が抱えるビッグデータをすっきりと分かりやすく整理して、余計なストレージ費用が発生しないようにする。

サンフランシスコ生まれのKompriseは今ベータを準備中で、最近600万ドルのシリーズAをCanaan Partnersから調達したばかりだ。その同社のサービスとは、データの保存と組織化と分析を、オンプレミスのサーバやクラウドにおいて、高い費用効率で自動化することだ。新たな資金は、陣容の増員に充てられる。〔Kompise→comprise→すべての部分要素から全体を構成すること。〕

同社のファウンダはCEOがKumar Goswami、COOがKrishna Subramanian、そしてCTOがMichael Peercyだが、彼らにとってKompriseは三つめのスタートアップだ。その前の仮想デスクトップサービスKavizaは2011年にCitrixに買収された

Subramanianは曰く、“前の二つのビジネスは、データに関して企業が抱える別の問題に焦点を当てていた。最初のスタートアップは営業のためのファイル共有アプリケーションだったし、その次のは、仮想デスクトップで高価なSAN(storage area network)を使わずに済ませるサービスだった”。

“それらを通じて顧客から学んだのは、データに関して今日の彼らが抱える最大の問題が、日々のデータの増加量が、かつてなかったほどにすさまじく多いことだ”。

そのため今では、企業の年間のIT予算の1/4が、ストレージとデータ管理に充てられている。しかも、それらのデータの多くが、各担当部署で蛸壺(たこつぼ)入りしているだけで、まったく活用されていない。…Kompriseのファウンダたちは、そんな状況を至るところで見た。

そこでKompriseが考えたのが、オンプレミスのサーバの容量をクラウド上のストレージで拡張する、というソリューションだ。それによってかえって、必要なデータへのアクセスやデータの管理が容易になる、と彼らは展望した。

CTOのPeercyによると、“Kompriseを使えば企業は最大で70%のコスト削減を図り、しかも効率をアップできる。またDevOpsチームのある企業では、新しいアプリケーションをクラウドで動かしたいが必要なデータはオンプレミスにある、という状況を改善できる。Kompriseのサービスにより、データの保存と管理が自動化そして効率化され、つねに必要なところにデータがあるという状態を実現できる”、ということだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

IBMがApache Sparkプロジェクトに3500名を投入、未来に生きる道はオープンソースしかないと悟る

5439493601_dc049b0258_o

IBMが今日(米国時間6/15)、オープンソースのビッグデータプロジェクトApache Sparkに3500名の研究員を割り当てる、と申し出た。また併せて同社は、同社の機械学習ツールIBM SystemMLのオープンソース化を発表して、それをビッグデータと機械学習の最先端の地位に押し上げたいという意図を鮮明にした。

この二つの技術はIBMが最近志向している、クラウドとビッグデータとその分析技術、およびセキュリティを軸とする自己変革戦略の一環だ。今日の発表と並行してIBMは、Sparkを同社の分析プロダクトの核とすることと、企業等のSparkプロジェクトを支援する商用サービスDatabricksとも協働していくことを誓った。

Sparkは、ビッグデータを処理するエンジンとしては世界最速を自称している。

IBMアナリティクス部門の製品開発担当VP、Rob Thomasはこう言う: “Sparkはビッグデータ分析のオペレーティングシステムだ、と考えたい。将来的には、ビッグデータを利用するときには誰もがSparkを使うようになるだろう。Sparkを使うと、データへのユニバーサルなアクセスができるからだ”。

Thomasによると、Sparkはその成長のペースがオープンソースの歴史上最速にはやかったため、IBMも注目せざるをえなかった。これまでの数年間、Sparkを使ってきたが、昨年Apacheのプロジェクトになってから、一層、注目度が高まった。

DatabricksサービスとIBMとの仲は、まだほんの数か月だが、彼らは機械学習がこのApacheプロジェクトの弱点だと聞かされて以降、IBMの機械学習技術に深く関わるようになった。

こういう場合のIBMのやり方として、単に3500名の研究員を投入するだけでなく、もっと全面的な関わりになる。同社は、同社のPaaS Bluemixの顧客に、今ではアプリケーションの重要素材としてSparkを使わせている。

さらに同社の10あまりの研究部門がSpark関連のプロジェクトに取り組んでおり、近くサンフランシスコにSpark Technology Centerというものをオープンしてデータサイエンス振興のためのコミュニティの形成に取り組み、Sparkを利用する各種のアプリケーションを作っていくとともに、Spark本体の開発も加速する。

IBMのプロジェクトには教育の部分があるのがふつうだが、今回もその例外ではない。IBMの発表によれば、同社はAMPLabやDataCamp、MetiStream、Galvanize、MOOCのBig Data Universityなどと協働して、Sparkを使いこなせるデータサイエンティストを最終目標として100万名育成する。立派な目標だけど、今現在データサイエンティストは、世界中からかき集めても最大で25万人ぐらいしかいないという説もあるから、遠大な目標でもある。

IBMはこれら一連の活動を慈善事業として行うわけではなく、ビッグデータが今後の同社のビジネスの重要な核になる、と信じているからだ。それが全面的に活性化できるための、多様な要素からなる基盤を今から築いておきたい。しかもオープンソースのプロジェクトに本気でコミットすることで、オープンソースのツールを使ってビッグデータや機械学習に取り組んでいる多くの企業との良好な関係形成を図れる。それによりIBMには、コンサルティングなど、そのほかのビジネス機会も開ける。

IBMはお金持ちだから、SparkやOpenStackのようなオープンソースプロジェクトにそのリソースを投ずることによって、会社の体質そのものをリフレッシュし、未来の新しいビジネスに向かう道を築きたいのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ビッグデータに関する2つの神話を解体する―オープンソース・データサイエンスのもたらすチャンス

2015-05-08-bigdata

編集部: この記事の寄稿者、David SmithはMicrosoftの子会社でオープンソース・ソリューションを提供するRevolution Analyticsの責任者。Revolutionsブログに、R言語のアプリケーションと予測的アナリティクスについて毎日記事を書いている。またAn Introduction to R(PDF)の共著者。

神話というのは文化の研究には役立つが、テクノロジーの理解には障害になる。今回はビッグデータ革命に関連して、「ビッグデータは一夜にして生まれた突発的現象だ」と「ビッグデータは現実的なビジネス価値のない流行語だ」という2つの神話を取り上げて検討する。

神話1: 一夜にして生まれた突発的現象だ

最初に取り上げるのは「ビッグデータ革命はある日、何の前触れもなしに魔法のように突如起きた」という神話だ。実際にはビッグデータ革命は10年以上前から始まっていた。スタートはGoogleやYahooのような検索企業が巨大なデータを高速に処理するために新たなフレームワークとテクノロジーを必要としたことだった。

ウェブ検索という新たなニーズに対して既存のデータベース・テクノロジーは十分に対応できなかった。しかも、当時の伝統的IT部門が採用していたソリューションではハードウェアとソフトウェアに莫大な投資を必要とした。

そこで新興検索企業は社内で独自にコストパフォーマンスの高い新たなソリューションを開発した。安価なコモディティー・ハードウェアを大量に導入してオープンソースのソフトウェアを走らせるという手法だ。このときに、巨大データを高い信頼性で処理できるフレームワークのパイオニアとなるHadoop、MapReduceなどのテクノロジーが開発された。

「ある日突然生まれた」どころではない。ビッグデータ革命はごく単純なビジネス経済上の必要性から始まったのだ。伝統的なITの手法ではハードウェアに膨大な費用がかかり、検索企業はビジネスとして成立し得なかった。日々急速に増殖する大量のマシンにベンダーがライセンスする商用ソフトウェアを導入することもコストの面から不可能だった。検索企業はそこで大学、スタートアップ、小規模なベンダーの力を借りつつシステムを内製することにした。そこで重要な要素となったのがオープンソースの世界的なコミュニティーだった。これによって世界でトップクラスの優秀なプログラマーの協力を得る道が開かられた。

Hadoopのようなフレームワークが登場する前は、データを処理する企業はどのデータを保持し、どのデータを捨てるかという困難な決断を日々強いられていた。当時、データのストレージは今よりはるかにコストがかかったし、伝統的なソフトウェア・ベンダーが提供するデータ処理ソフトウェアはカスタマイズするにもアップデートを待つにも数ヶ月かかるのが普通だった。

ビッグデータ革命はこうした状況を変えようとする努力の中から生まれた。オープンソースのソフト、安価なハード、信頼性の高い高速インターネット接続の組み合わせが大量データの処理に付随していた困難を取り除いた。オープンソースのアナリティクス・ツールはベンダーの商用ソフトに比べてはるかに頻繁にアップデートされた。

こうしてビッグデータの処理は次第に進化していった。たしかに進化はかなり急速だったが、「一夜にして生まれた」わけではない。この間、ビッグデータ処理の進歩の多くの部分はR言語によって支えられた。Rは高度な統計的分析を処理するために、1990年代に2人のニュージーランドの大学の研究者によって開発されたプログラミング言語だ。一貫してデータ・サイエンスでもっとも人気のある言語であり、現在何千という企業や組織がデータサイエンス・アプリケーションの開発R言語を利用している。たとえば、

  • Googleは広告キャンペーンのROI分析に
  • フォードは自動車デザインの改良に
  • Twitterはユーザー体験の分析に
  • アメリカ国立測候所は危険な洪水の予測に
  • ロックフェラー政治学研究所は公的年金基金の財務状態のシミュレーションに
  • 人権データ分析グループは戦争の人権に与える影響の計測に
  • ニューヨーク・タイムズは記事のインフォグラフィックスや対話的グラフの作成に

それぞれRを利用している。

神話2:現実的なビジネス価値のない流行語だ

「ビッグデータなるものはある種の流行語で現実的経済価値のないものである」という神話もやはり完全な誤りだと用意に実証できる。現在もっとも急速な成長を続けている産業分野はビッグデータ・テクノロジーの発達によってもたらされたものだ。モバイルとソーシャル・サービスはオープンソースのビッグデータ処理システムがなければまったく不可能だった。前述したようにGoogleの検索と広告ビジネスもオープンソースのビッグデータ処理アプリケーションの上に築かれている。

出現しつつある新しい産業分野がそれぞれに新しいビジネスモデルを生み出している。製造業における3Dプリンティング、ソフトウェア開発におけるラピッド・プロトタイピング、地理的情報システム、モノのインターネット、予測的メンテナンス、無人走行車などがそれだが、すべてビッグデータ処理と低コストのストレージなくしては実現できなかったものだ。オープンソース・ソフトウェアがなければ存在しえなかったもっとも典型的な例はクラウド・サービスだろう。RedMonkのアナリスト、Stephen O’Gradyは次のように書いている

以前の産業界では、社内に存在しないソフトウェア・テクノロジーについては外部のサードパーティーの企業にアウトソースするのが普通だった。しかしAmazon、Facebook、Googleは自分たちの必要とするソフトウェアは外部にも存在しない、あるいは存在しても伝統的なライセンス契約では、処理の規模の拡大と共にコストが禁止的になることをいち早く悟った。

2016年には上に挙げた新しい産業分野の売上が年間1000億ドルにも達すると予想されている。同時にビッグデータの利用の進展は処理すべきビッグデータそのものをさらに巨大化しつつある。

ビッグデータは一時のブームでもないし、ぱっと燃え上がってはそのまま消えてしまうバズワードでもない。Microsoft、GE、IBM、Intel、Goldman Sachs、Greylock Partners、Sequoia Capital、Accel Partnersを始めとして多数のトップ企業がビッグデータ・テクノロジーに巨大なリソースを投入している。こうしたプレイヤーはビッグデータ革命がまだごく初期の段階にあり、ビッグデータはビッグビジネスチャンスと同義語だと確信しているのだ。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

ビッグデータ対応を軸にITとデータセンターの運用/管理環境を一新するRocanaが$15Mを調達

424442436_fcd1fc9241_o

Rocana(元ScalingData)が、Google Venturesがリードし、General Catalyst PartnersとToba CapitalおよびPaul Sagan(元Akamaiの会長で現在はGeneral Catalystの常勤役員)が参加したシリーズBのラウンドで、1500万ドルを調達したことを発表した。

これで、同社の総調達額は1940万ドルになる。

Rocanaは大型データセンターの問題発見と修復を単純化し迅速化する。各企業のサービスのモバイル化とクラウド化の進展により、それら混成環境における問題発見がますます難しくなっている、とRocanaの協同ファウンダでCEOのOmer Trajmanは説明する。

Rocanaが得意とするのは、問題が起きたときにシステムをずっと低レベルまで下(お)りていって調べる”root cause analysis”(根本原因の分析)と呼ばれる手法だ。

企業はそれまで、理解も制御も容易な、比較的シンプルなシステムを利用していたが、しかし今日では、OpenStack、Hadoop、Dockerなどなど、多様な技術を使いこなさなければならない。これらのツールは一部の困難な問題を解決してくれるが、同時にユーザのシステムの複雑さを増大させる。

General CatalystのパートナーDonald FischerはRocanaに惹かれた理由を、企業ITのこのような環境変化に取り組むための新しい方式を開拓しているからだ、と言う。“私の眼下に広がる視野の中では、いろんなものが複雑性を増し、とくにデータセンターでデプロイされるものが、(単一ベンダのストレートなソリューションではなく)ますます異種混成的になりつつある”、と彼は述べた。

しかも彼の耳に入ってくるのは、シンプルなデータセンターのために設計された従来型のツールが、時代遅れで使い物にならない、という声だ。“ITの運用をを管理するためのツールを見渡すと、どれも老馬だ。IBMやHP、BMCなどのツールさ。どれも、DockerやOpenStack、Mesosphereなど以前の製品だ。それらのツールが、もはや役に立たない、という声が沸き起こっている”、と彼は語る。

そこで、Rocanaのようなスタートアップに機会が開ける。ファウンダたちは、データセンターの問題の根幹にあるのがビッグデータの問題だ、と見ている。日に日に複雑性を増しているシステムの、いろんなところから、雑多な、統一性のないデータが大量に入ってくる。それらに対応するためにRocanaは、Hadoopと、その関連技術Apache Spark(分散クラスタ、インメモリ処理)とApache Solr(検索エンジン)を選んだ。

アプリケーションのパフォーマンス管理というとNew RelicやAppDyamicsなどのサービスがすでにあるが、Trajmanによると、彼らはどちらかというとRocanaがやってることを補完するものだ。

“New Relicはアプリケーションのレベルでパフォーマンスやその問題を理解させるが、うちのようにインフラまで下(お)りて行くと、まったく違う光景が見えるのだ”。

つまり彼によるとNew Relicは、アプリケーションのどこで何がおかしくなっているか、を教えてくれるが、Rocanaはインフラストラクチャのレベルでユーザが問題を詳細に理解し、それらを修復する方法を提供する。

ITの運用スタッフに詳細なインフラストラクチャとソフトウェアの分析を提供する、という点ではむしろ、DataDogがコンペティタかもしれない。

いずれにしても、市場の特定の部分だけを対象に頑張っているスタートアップは、それほど多くはない。Rocanaは、20名の社員がボストンとサンフランシスコにいる。Trajmanは、今回得られた資金で社員数を2〜3倍に増やしたい、と言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Amazon Web ServicesはデータウェアハウスサービスRedshiftの基盤としてデータ移行プラットホームAmiatoを買収していた

screen-shot-2015-04-20-at-16-29-50

Amazon Web Services(AWS)は、2012年にローンチしたRedshiftにより、サービスのリーチをデータウェアハウジングやビッグデータ分析の分野にも広げてきた。CTOのWerner Vogelsによると、それはAWSの中でも今いちばん急成長のプロダクトだ。このRedshiftには、AWS生え抜きの技術者たちだけでなく、買収によって獲得した人材も開発に関わっていたことが、このほど明らかになった。

実は昨年の5月にAmazonは、NoSQLデータベースから非定型データを取り出してRedshiftにポートするプラットホームAmiatoを秘かに買収していた。ポートされたそれらのデータは、Amiatoの技術やそのほかのBI(business intelligence)ツールで分析できる構造を持つ。

そういう買収があったらしい、ということは今月初めにBloombergが初めて報じた。本誌は、Amazonと、Amiatoの元協同ファウンダでCEOのMehul Shahらにコンタクトして、買収の確証を得た。

Amiatoに投資しているSignatures Capitalは、Amiatoの一件はうまくいったイグジット(出口, exit)だ、と言う。Amazonに買収されたのは2014年の5月だそうだ。

Screen Shot 2015-04-20 at 16.58.41

Amiatoの元社員(の一部)も、LinkedInなどで見ると、今はAWSにいる。

AmiatoのTwitterアカウントは2013年以降更新されていないが、サービスを停止したという告知はない。

Amiatoは、2012年にY Combinatorで孵化されているときはNou Dataという名前で、その後Bobby YazdaniやData Collective、Andreessen Horowitz、Ignition Partnersらから200万ドルを調達した

しかしながら、観測筋によれば、同社はローンチ前から問題を抱えていた。要するに同社は、Redshiftがもうすぐローンチするという時期に、Redshiftのデータウェアハウジングサービスと同じプロダクトを開発していた。Amiatoが2013年3月にステルスを脱したとき、同社は準定型データのためのビッグデータA/Bテストプラットホーム、を自称していた。

しかしその後同社は進化し、ホームページでは次のように述べた: “AmiatoのSchema-lift™技術はNoSQLデータベースからすべてのデータを取り出し、それらを自動的に変換し、Amazonのペタバイト級のデータベースRedshiftに連続的にロードする。それらを直ちにSQLでクエリしたり、TableauやExcelにコネクトしたり、あるいはLookeのようなBIディスカバリツールで分析できる”。

元CEOも社員の一部も今はAmazonにいるのだから、それは技術と人材獲得を目的とする買収だったようだ。

RedshiftのローンチやAmiatoの買収等で最新のデータ技術をサービスの基盤に据えたAWSは、最近では2lemetryを買収するなどにより、今度はIoT方面の地固めに着手している。AWSがこうして買収に走るのも、過去にはなかった傾向だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのビッグデータサービスCloud Dataflowが公開ベータで一般利用可に、BigQueryはヨーロッパゾーンに対応

cbf_008

Googleが今日(米国時間4/16)、ブラッセルで行われたHadoop Summitで、同社がクラウドから提供しているビッグデータプロダクトのアップデートを発表した。まず、公開ベータで立ち上がるCloud Dataflowは、大量のデータを処理するGoogleの新しいサービスだ。そしてビッグデータ(Googleが提供するビッグデータデータベース)へのクェリを提供するBigQueryが同社のヨーロッパデータセンターにも展開され、また行(row)レベルのパーミッションも導入される。

Cloud Dataflowがデビューしたのは昨年6月のGoogleのデベロッパカンファレンスだったが、これまではずっと非公開アルファで、一般に利用できるプロダクトではなかった。しかしこれからは、関心のあるデベロッパなら誰でもこのサービスをトライし、使用を開始できる。ただしまだベータだから、公式のSLAはない。

Googleのプロダクトマネージメント部門のディレクタTom Kershawによると、ビッグデータに対するGoogleの基本的なポリシーは、複雑性をできるかぎり取り除くことだ。これまで業界を苦しめてきたのは、ビッグデータの取り扱いがきわめて難しいことだった。企業は自分たちが毎日作り出しているデータに大きな価値があることをそろそろ理解してきたが、まだ多くのデベロッパがそれらのデータを扱うるツールの開発で難儀している。Kershawは曰く、“ビッグデータの利用は、もっと民主化される必要がある。Googleにはビッグデータ処理のためのソフトウェア資産が蓄積しているので、これからはそれらを、ものすごく使いやすい形で提供していきたい”。

Cloud Dataflowは、データをストリームとしても、あるいはバッチでも、処理できる。スケーリングは、ニーズに応じて自動的に行われる(ただしユーザが押しこむデータの量があまりにも膨大になったら、Googleからの“適正な”課金が行われる)。デベロッパはCloud Dataflowを利用するためのコードを一度だけ書き、そのあとはGoogleが彼らに代わってインフラストラクチャの設定や操作等をすべて行う。

Cloud Dataflowは一般ユーザ/デベロッパにとって新しいと言えるが、しかしBigQueryは2010年からある。しかし今日からは、ユーザは自分のデータをGoogleのヨーロッパデータセンターでホストできる。Kershawによると、これまでその要望がとても多かったそうだ。データに対するユーザの主権についてうるさいヨーロッパで、Googleがもっと早くそれをやらなかったのが、不思議なぐらいだ。

BigQueryのもうひとつのアップデートは、データベースが行(row)レベルのパーミッションをサポートすることだ。ささやかなアップデートのようだが、Kershawが言うように、実用レベルではとても重要な機能だ。

ひとつのビッグデータデータベースをいろんな部課が利用する、という企業が少なくない。でもたとえばマーケティング部門には、彼らが必要とするデータにはアクセスを許可しても、そのほかの機密性のあるデータにはアクセスさせたくない。ITはそのために、必要なデータのコピーを作って渡す、という方法を採ってきた。しかしそのコピーは通常、データベース本体のアップデートと同期しない。だからマーケティング部門は、正しくない古いデータを使うことになる。しかし行レベルのパーミッションがあれば、データベース本体に安全にアクセスさせられる。〔もちろん、列(column)レベルのパーミッションもある。〕

今回のアップデートにより、BigQueryはテーブル上の行を最大毎秒10万行読み込むことができる。ビッグデータ、たとえばログファイルの巨大な集まりなどを分析するときは、これぐらいのスピードが必要だ。実際、Kershawによると、BigQueryはその目的のためにも、よく使われているそうだ。

Googleのビッグデータツールは現在、BigQueryとCloud DataflowとメッセージングサービスCloud Pub/Subの三本柱だ。Google自身がかねてから、社内的にビッグデータのエキスパートだから、おそらく来月のGoogle I/Oではさらに新しいアップデートやビッグデータプロダクトが発表されるのではないかな。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Hadoopのクラスタの最適化管理を行うPepperdataが$15Mを調達

15558382212_a81f9f4a3a_k

HadoopのクラスタのパフォーマンスをチューニングするサービスPepperdataが、新たな投資家Wing Venture PartnersとCiti VenturesおよびSilicon Valley Data Capitalが率いるシリーズBのラウンドにより、1500万ドルの資金を調達した。これまでの投資家Signia VenturesとYahooの会長Maynard Webbも、このラウンドに参加した。これで同社の資金調達総額は2000万ドルになる。

Hadoopはビッグデータを処理/操作するための、定番的な、オープンソースのソフトウェア集合だ。Pepperdataは協同ファウンダのSean SuchterがかつてYahooの検索技術のチームリーダーで、そのときにHadoopを利用する初の商用システムを組み上げた(と同社の紹介ではなっている)。

そういった経験に基づいてPepperdataは、Hadoopのクラスタのパフォーマンスを最適化する。もう一人の協同ファウンダChad Carsonに言わせると、要するにHadoopは無脳なスケジューラだ。ジョブを順次動かすことはできるが、ユーザ企業のニーズやステータスに応じて適切なプライオリティを決める能力はない。

Pepperdataは、そのスケジューラを細かく調整し、Hadoopのジョブのプライオリティを決めて、リソースの割り当てを最適化し、ユーザ企業のサービスレベルの低下を防ぎ、その向上を導く。

社内の特定の部署が高いプライオリティを必要としているときでも、そのままでは低いプライオリティのジョブが実行されてしまうときがある。

“うちのシステムは低いプライオリティのジョブがCPUやネットワークやディスクの利用を占領しているのを見つけて介入し、高いプライオリティのジョブにそれらのリソースを回す”、とSuchterは説明する。

彼によると、それは力づくの処理ではなく、繊細な介入だ。低いプライオリティのジョブからリソースを完全に奪うのではなく、必要なぶんだけをプライオリティの高い方へ回す。

Carsonによると、同社のシステムはプライオリティの調整以外に、クラスタ全体の有効利用も図る。たとえば、メモリは2.5GBあれば十分なジョブが、4GBも割り当てられていたりする。Pepperdataはユーザのシステム全体のリソース利用状況を調べ、無意味に確保されているリソースを見つけたらそれらを可利用プールへ戻す。そうすることによって、システムの稼働効率を上げるのだ。

Pepperdataのインストールには15〜30分かかるが、ユーザはインストールした直後から30から50%のスループットの向上を体験する。それはPepperdataがリソースの割り当てを最適化した結果だ。

Pepperdataが新たな顧客のシステムにインストールされたら、同社はほぼ一週間、状況をモニタする。そして、モニタした結果に基づき、また顧客企業のジョブプライオリティに基づいて、システムのリソース利用のさらに細かい微修正〜最適化を図る。

これまでPepperdataの主な顧客はPepperdataの効用をすぐに理解できるHadoopの初期からのユーザだったが、最近では銀行やヘルスケアや通信など、特定の分野への売り込みに力を入れている。

2012年にSunnyvaleで創業したPepperdataは、最近ニューヨークにもオフィスを開いた。社員は約30名だが、技術と営業の両部門とも増員し、年内には50名程度となる予定だ。

同社は売上をクラスタのノード数で表しているが、これまで同社のライセンスを売ったノードは約1万に上(のぼ)る。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

企業がデータサイエンティストたちを有効活用できるためのツールを提供するYhatがY Combinatorで営業展開を学ぶ

【抄訳】

YhatのファウンダGreg LampとAustin Ogilvieは、中小企業にローンを提供して成功しているOnDeckでデータサイエンティストチームの一員として仕事をしているとき、ある問題に気づいた。

データサイエンスのチームがクールなアイデアを提案しても、エンジニアたちは、適切なツールがないのでそれらをさっさとアプリケーションへ実装することができない。そこで二人は、二つのチームがもっと効率的に仕事ができるためのツールを作ろう、と決心した。そのツールが、その後Yhatの創業に結びつく(Yhatは“ワイハット”と発音する)。

Lampはこう説明する: “データサイエンティストのチームが仕事や意思決定のための新しいクリエイティブな方法を編み出しても、エンジニアリングがそれについて行けない。Austinとぼくは両者の板挟みになって動きがとれず、OnDeckの業務に対してデータサイエンティストたちがやった分析結果などはどれも、棚の上で埃をかぶっていた”。

データサイエンティストたちの仕事から価値を取り出すための、もっと良い方法があるはずだ、と彼らは考えた。

彼らの最初のプロダクトScienceOpsは、データサイエンティストたちがRやPythonなどのツールを使ってプロジェクトを作っていくときの、チーム内のコミュニケーションをより有効にするためのソリューションだ。でも、それは彼らの最終目的ではない。

データサイエンティストたちのアイデアが早期に会社の業務に生かされるためには、エンジニアたちや、職場のラインの人たちが、容易にアプリケーションを実装できなければならない。

片手間で始めたYhatがその後利用者が多くなり、忙しくなったので、二人は2013年の6月にOnDeckを辞めてYhatに専心することにした。同時にYhatのオフィスも、彼らのブルックリンのアパートから、今のマンハッタンのシェアオフィスに移った。

その2003年には100万ドルのシード資金も獲得し、本格的な成長が始まった。そして今ではY Combinator の2015年冬季クラスに参加している。彼らのようなすでに内容的にかなり成熟しているスタートアップにとってYCは、営業や見込み客発掘について本格的に学べる点にメリットがある、という。

【中略】

2014年には第二のプロダクトScienceBoxをローンチした。それはデータサイエンティストたちが共同でデータサイエンスのプロジェクトを作り、共有していくためのツールだ。

Yhatの顧客たちは何をやってるかというと、たとえばレーシングチームのNASCARは、データの有効利用によってピット内の意思決定をより良質にするための方法を探求している。

“NASCARのチームにとってビッグデータの利用は初めてだったけど、もっと前からやっているべきだった、と彼らは思っている。彼らは自分たちの現状が後れていることを認めていて、はやく今のデータサイエンスの最先端に行きたい、と願っている”、とLampは説明する。

Condé Nastも、Yhatの顧客だ。今や出版社もデータドリブンで仕事を進めており、50名近くのデータサイエンティストが社内の各所に分散している。彼らもまた、Yhatのプロダクトを重宝している。

ScienceBoxは、データサイエンスを学ぶ大学のコースでもよく利用されている。クラスで必要になるいろんなツールが、その中に揃っているからだ。ScienceBoxの前には、いろんなツールを教授〜講師が個人的に拾い集めて、講義環境をセットアップしなければならなかった。

Yhatは今すでに、かなりの顧客ベースを構築しているが、でも大半の企業にデータサイエンティストが一人か二人(ときには〇人)しかいない現状では、まだまだ本格的な事業拡大は難しい。Lampらもそのことを自覚してはいるが、今のところ社員7名の同社は、毎日大量の仕事に追われている。

Lampによると、今データサイエンスは大学の学士課程の専攻科目として人気急上昇中で、またデータサイエンス〜統計学の研究者たちも企業に高給で引き抜かれる例が増えている。データサイエンスの黄金時代の夜明け前、とも言える今は、Yhatにとっても、起業の良いタイミングだったと言える。

ところで、Yhatという企業名の意味や由来を知りたいと思った読者は多いだろう。ぼくも実はそうだった。それは、統計学のある測度を表すドイツ語で、データサイエンティストたちの仲間内のジョークでもある。〔回帰式において従属変数Yの予測値を表す。〕

Lampによると、同社がターゲットとするオーディエンスたちは、このジョークがすぐに分かる。でも、ほかの人たちには毎回説明しなければならない、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


センサなどからのストリーミングビッグデータをリアルタイムで処理するRapidMinerのStreamsサービス

RapidMinerが今日(米国時間12/17)発表したStreamsサービスは、データのストリームをリアルタイムで捕捉して処理する。RapidMinerのMichele Chambersの説明によると、このサービスがとくに便利なのは物のインターネット(Internet of Things, IoT)の分野におけるデータの捕捉と処理や、工業分野におけるセンサデータの取得とそれに対する瞬時の対応だ。

Streamsサービスはユーザのソースからデータを取り込み、それをもとにデータのブレンディングや、ストリーミングデータの分析、データからのモデル作成、などの処理をすべて、Apache Stormのクラスタで行う。ユーザがコードを書く必要はない。ユーザはRapidMinerが開発したバックエンドに対する指示をGUIのフロントエンドから行うだけである。データの処理は、最大遅延5秒という準リアルタイムで行われる。

このプロダクトは、これまでの1年間未発表のまま温めてきたが、その理由の一部は、Apache Stormが商用製品に使えるほどの安定に達していなかったからだ。そのテスト期間にRapidMinerは、某メディア企業のセットトップボックスから得られる視聴者のビヘイビアデータの取得と分析を行った。その結果に基づいて同社は、個々の視聴者に適切なリコメンデーションを送り、また広告ネットワークに対してはターゲティング広告のための情報を提供した。

同じくこのベータ時期に、コンクリート企業がその生コン製造機械やコンクリート打ち込み機械などからのセンサデータを捕捉して分析した。そういうコンクリート関連の機械装置は酷使によってすぐに壊れるので、最大能力の75%ぐらいでしか稼働できなかった。しかしStreamsのリアルタイムデータ分析により、機械の損傷に導く二大要素が振動と湿気であることが分かった。この二つの要素を適切にコントロールすることにより、安定稼働率が95%に上がった。

RapidMinerがStreamsでねらっているのは、こういうタイプのユーザニーズだ。Chambersによると、Storm以外のもうひとつのオープンソースソフトウェアの成熟を待って、来年の第一四半期にはStreamsのアップデートを行う。

さらにChambersによると、このプロダクトは同社のこれまでの製品系列との相性も良く、顧客に提供するビッグデータ処理オプションがまた一つ増えた、という形になっている。

また、同社は近く、データ視覚化のQlikや検索のApache Solr、WebスクレイピングのMozendaなど用のコネクタもリリースする。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


1年間の特訓教育でデータサイエンティストを育てるGalvanizeのコースは授業料48000ドル

プログラミングなどコンピュータ応用技術のスキルをゼロから特訓するGalvanizeが、データサイエンティストを育てて履修者に工学修士号を提供する期間1年の課程をスタートする。

galvanizeUと名付けられたこの1年課程は2015年1月に始まり、その費用は48000ドルという途方もない額だ。しかし、この1/5の期間でJavaScriptとHTML5とCSSを書けるようになる課程が12000ドルだから、同社のお値段、ないし‘授業料’としてはふつうだ。

定員は30名で、10月29日から申し込みを受け付ける。この課程を終了すると、現場ですぐにビッグデータ分析の仕事ができるデータサイエンティストになれる(Pythonによるプログラミング+データサイエンスに必要な数学と統計学)。サンフランシスコのSoma地区にあるGalvanizeの新しい(異様に巨大な)本社に教室が置かれるが、その建物はほかのスタートアップたちにもオフィススペースとして貸し出され、またGalvanizeのVC部門もこの中にあるから、卒業後にすぐ投資を受けるというシナリオもありえる。このような雑居構造は、生徒たちがスキルを習得するだけでなく、現実のスタートアップのコミュニティとその構成員の人たちに日常的に接触する、実際の仕事がどういうものか、見て聞いて分かる、という教育的メリットを想定している。つまりこのカリキュラムには、部分的に、OJT的な側面もある。

galvanizeUの卒業生には、コネチカット州の私立大学University of New Haven(ニューヘイブン大学)との提携により学位が与えられる。卒業生は同社のコロラド州BoulderとDenverにあるキャンパスで、gSchoolと呼ばれる期間6か月の通常のプログラミング課程を受講することもできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


IBM、Watson Analyticsを発表―Watson人工知能が万人にビッグデータ解析能力を与える

今日(米国時間9/16)、IBMは一般のビジネス・ユーザーに高度なビッグデータ解析能力を与えるWatson Analyticsという新しいプロダクトを発表した。

Watson Analyticsはクラウド・サービスで、データの収集、チェック、解析、ビジュアル化、共同作業のためのコミュニケーション・ダッシュボードなどビッグデータ処理に必要な作業はすべてクラウドで行われる。Watsonといえば、誰もが知るとおり、人気クイズ番組『ジェパディー』で人間のチャンピオン2人を打ち破った人工知能としてあまりにも有名だ。

IBMのビジネス分析事業グローバル・マーケティング担当副社長、Eric Sallは「単にブランドイメージのためにWatsonの名前を付けたわけではない」と強調する。Sallによれば、このプロダクトの特長はビッグデータに対して自然言語で分析、加工処理を行えることで、これにはまさにWatsonの人工知能テクノロジーが用いられているのだという。

Sallは「Watson Anlyticsの目的は、一般のビジネス・ユーザーに強力なビッグデータ解析能力を与えることにある。適切な意思決定のためにビッグデータを利用しなければならないことはだれでも知っている。だが、これまでそれができるのはごく一部の高度な知識とコンピューティングのインフラを持つユーザーに限られていた」と述べた。

現在、ビッグデータ解析には強力なコンピュータ資源、データサイエンティストとデベロッパーのチームが必要とされる。中でも後者を確保することは難事業だ。Sallは「このためにビッグデータ解析の結果を得るまでに、往々にして何日も、あるいは何週間もかかる。 今日のビジネスの厳しい競争環境からみてこのような遅れは許されない。また意思決定を行う人々が他のチームにいちいち処理をお願いするようではいけない」という。

Watson Analyticsはこうした障害を一挙に克服することを目指している。まずクラウド・サービスであるから、コンピューティングのインフラについて心配する必要はない。次にユーザーの望むデータ解析を自然言語で受け付けるのでデータサイエンティストもプログラマーも必要としない。

ユーザーは既存のデータ、たとえばSalesforce.comのCRMデータなどをそのままインポートして利用できる。Sallによれば、このサービスにはポピュラーなビジネス・ツールによって生成されるデータをインポートするためのコネクター・ツールが用意されているという。データをセットすれば、ユーザーは思いついた質問を次々にぶつけていくこともできるし、サービスにバンドルされているストーリー・テンプレートを利用して標準的な統計分析を行うこともできる。

もし営業データを扱っているのなら、テンプレートから標準的な分析を行うのが有効だろう。しかし、その過程でユーザーが何かを思いつけば、自由に質問することができる。Watsonは質問を理解して直ちに答えを出してくれる。Sallによれば「問題は多くのビジネス・ユーザーがビッグデータ解析の専門知識や経験に乏しいため、そもそもどんな質問をするべきなのかよく理解していないという点だ。テンプレートはこのような場合に解析を進めるための糸口として大いに役立つ」と述べた。

さらにWatson Analyticsのベーシック版はIBM Cloud Marketplaceから無期限に無料で提供される。 Sallは「ユーザーがこのサービスを利用する際の敷居を下げるために無料版を提供することにした。無料版も極めて高度な能力を持っている」と述べた。

有料のプレミアム版には、大容量ストレージや企業内データベースのデータに直接アクセスするためのコネクター、さらに高度な分析能力などの追加機能が加わる。

Sallは「これまでわれわれは紺のスーツを着たセールス部隊がCIO始めIT部門の専門家にプロダクトを売り込んでいた。一般ビジネス・ユーザーを直接のターゲットとするWatson Analyticsはわれわれにとって大きな戦略の変更だ。こうしたエンドユーザー向けプロダクトを急速に普及させるにはフリーミアム・モデルが適していると判断した」という。

Watson Analyticsにかぎらず、最近のIBMのエンタープライズ・クラウド戦略自体が、IBMが2013年に買収したインフラのプロバイダー.、Softlayerのプラットフォームを利用したプロダクトのデジタルマーケットを中心に据えるようになっている。またBluemix Platformを通じて、将来はサードパーティーのデベロッパーがWatson Analyticsをプロダクトに組み込むことが可能になる。

Watson Analyticsは今月虫にベータテストが開始され、年末には一般公開される予定だ。クラウドサービスであるので、デスクトップ、タブレット、スマートフォンなどさまざまなデバイスから利用が可能だ。しかしまだ専用のアプリは登場していない。

画像: Flickr USER ibmphoto24 UNDER CC BY-NC-ND 2.0 LICENSE

[原文へ]

(翻訳:滑川海彦@Facebook Google+


ビッグデータ分析には直感とサイエンスの双方が必要

編集部: この記事はSteven Hillionの寄稿。HillionはAlpine Data Labsの共同ファウンダーであり、同社のエンタープライズ向けビッグデータ分析プラットフォームの開発責任者である。Alpineを起業する以前は、Siebel 、Greenplumなどでエンジニアのチーム責任者を務めていた。

現在、データは今までにない規模とスピードで動いている。これを分析にするにはきわめて高度なハード、ソフトを必要とする。ではビッグデータ分析が登場してからは昔ながらの「直感」は無用となったのだろうか? データは「進め」と言っているのに経営者の直感は「待て」だったときにはどうすればいいのだろう?

私のような人間―数学とテクノロジーの専門家―がこういうと意外に聞こえるかもしれないが、私はビジネスマネージャーはデータに加えて直感を重視しなければならないと強く信じている。

一部の人々は所与のデータ・セットから適切なモデルを組み立てるには数学とマシンパワーさえあれば十分だというように考えがちだ。しかしデータの機械処理だけでビジネス上の適切な意思決定ができるなどというのは愚かしい考えだ。データ・サイエンスでは分析と直感は車の両輪であり、互いに他を必要としている。

そもそも直感は分析を方向づける。分析の結果は何もないところからいきなり現れるわけではない。まず観察に基づいた何らかの直感があり、そこから構築された仮説を検証するためにコンピュータによる数値処理が行われる。またデータ・サイエンティストがどんな数値処理の手法を用いるかについても直感が導きとなる。どのデータが本質的に重要なのか? どの変数が、どの過程が意味があるのか? どれが原因でどれが結果らしく思えるか? どのモデルがいちばん適切か? こうしたことはすべて直感が関係してくる。

次に分析が直感に根拠を与える。 教師なし(unsupervised)モデリングは、一見しただけでは不明な関連やパターンを巨大なデータ・セットから探し出すことができる。分析は単なる観察では発見が不可能であり、時には直感に反するような方向を探索するきっかけを与える。ビジネス運営者の経験に基づく直感とデータ・サイエンティストの分析が適切に補いあわなければ必ず問題が発生する。

いくつか私が経験した例を紹介しよう。

あるチームは銀行の一般個人顧客について、口座を閉じそうな顧客を事前に予測するモデルを作ろうとしていた。しかし生成されたデータからはそれらしいパターンが発見できそうになかった。預金、ローン、クレジットカード、すべての分野を通じて顧客が解約する兆候らしきものは見つからなかった。顧客の預金引き出しやクレジットカードによる消費のパターンに特に変化はみられないのに、突然に解約が行われる。

しかし銀行チームが顧客のセグメントごとにさらにデータを詳しく検討していくうちに、あるアナリストの直感が貴重な発見をもたらした。彼女はある顧客セグメントに注目した。このセグメントは平均より飛びぬけて多額のローンを組んでおり、契約期間も長いなど、いくつの特異な属性を示しており、全体として顧客価値が極め高かった。 アナリストはこのセグメントの顧客はスモールビジネスのオーナーではないかと思いついた。そして個別の顧客情報を確認するとそのとおりだった。

アナリストは「これらのオーナーたちは一般個人向けのローンやクレジットカードよりも有利なスモールビジネス向け融資の仕組みがあることを知らないのではないか?」と考えた。そこでこうした高価値顧客を発見し、適切な金融商品を売り込むことにプロジェクトの目標が急遽、変更された。チームは.さらにデータ分析を続け、特定のセグメントの顧客に特化したセールスを行った場合の効果を検証した。その結果、セグメントごとにカスタマイズした金融商品の売り込みは効果があることが明らかになった。

データにいかに数値処理を加えてもこの結果―あるセグメントの顧客はスモールビジネスのオーナーである―は出て来なかったに違いない。ビジネスの経験に基づくこうした直感とデータ処理が統合されるときわめて価値ある結果がもたらされる。

こうした例でも明らかなように、ビジネス経験に基づく直感はデータ分析の決定的に重要な部分だ。にも関わらず、データ分析でビジネス側の経験者がプロセスから排除され、最後に結論だけを知らされるという例があまりにも多い。ビジネス・サイドの知識を持つメンバーをプロセスの当初から招き入れることが絶対に必要だ。私は、チームのプロセスをこうした線に沿って改革し、生データをレビューするもっとも早い段階からすべてのメンバーが参加するようにした。

われわれが経験したもう一つの例では、クライアントは巨大飲料会社だった。日本におけるセールスを予測するというのが彼らの依頼だった。われわれは経済動向と価格を変数として来年の売れ行きを予測するモデルを作った。クライアントは「売れ行きは景気に正比例するはずだ」とわれわれに告げた。日本の景気が徐々に回復すればそれに比例してソフトドリンクの売上も伸びるというわけだ。

クライアントはモデル中の景気の変数として日経平均を用いるよう要請してきた。このモデルは当初は適切な予測をするように見えた。しかし翌年入って時間が経つに連れてモデルは馬鹿げた予測を出し始めた。これは日経平均が当初予想した範囲の上限を超えて上昇したため、モデルが破綻したのだとわかった。もっと優秀なモデル設計者だったら、そもそも日経平均を変数に組み入れるような危険なことはしなかっただろう。

直感が重要な場合も多い。同時にデータサイエンスではモデリングの限界を知る慎重さが必要だ。われわれは清涼飲料水の売上予測モデルから日経平均を外した。するとモデルはうまく作動するようになり、翌年のマーケティング戦略の立案に重要な役割を果たすことができた。

データサイエンティスト側とビジネス実務側の間にはとかく緊張が生まれやすい。データ分析の結果が直感に反するように思える場合―たとえば派手なマーケティング・キャンペーンの効果がゼロに近いなどという結果が出たときには特にそうだ。われわれデータサイエンティストは往々にしてテーブルの向こうに座ったクライアントのマーケテティング担当者から「いったい全体、そんあ数字はどこから出て来たんだ?」と詰問される。

しかし私はこうしたやりとりは非常に重要だと考えている。数学と科学的分析はビジネス側の疑問に正しく答えることができなくてはならない。あるときはデータ分析の結果が直感が間違っていることを明らかにする。しかしあるときはデータ分析の欠陥を直感が明らかにすることがある。こうして直感と分析があい補っていくのが理想だ。

カット画像:Shutterstock USER Stocksnapper (IMAGE HAS BEEN MODIFIED)

[原文へ]

(翻訳:滑川海彦@Facebook Google+


植物卵のHampton Creekが世界最大の植物データベースを構想: “これまでの農業や食品産業は植物の知識が貧しすぎる”

Hampton Creekが作っている植物性の卵”Just Mayo”が、今週から1ドルショップ〔≒100円ショップ〕Dollar Treeでも買えるようになり、まずそれはサンフランシスコ都心の9万平方フィートのお店に登場する。それだけでなく同社はこのほど、Googleの中心的なデータサイエンティストDan Zigmondをスカウトした。その理由は?食品産業の全体をかきまぜる(スクランブルする)ためだ。

Zigmondは過去8年間、YouTubeとGoogle Mapsで複雑なデータと格闘してきた。彼がこれからやりたいのは、Hampton Creekで世界最大の植物のデータベースを作ることだ。そしてそれが結果的に、アメリカ人の食生活に大きな変革をもたらす、と彼は考えている。そこで、まず…

Google Mapsのスペシャリストとアメリカ人の肥満と何の関係があるのか?

Googleの本職のデータサイエンティストとマヨネーズ会社が“アメリカ的食生活”(Standard American Diet, SAD)を変える、といっても、ぴんとこない人が多いと思われるが、Hampton CreekのCEO Josh Tetrickによると、Zigmondにはそれができる、という。“Danは膨大な量のデータを分析して、そこからいろんなリアルな関連性を見つけ出す天才だ”。彼の言う“リアルな関連性”とは、そのデータベースを見るとどの植物がわれわれの惑星上に起きている変化に影響を及ぼしているのかが分かる、という意味だ。

私たちは、ジャンクフードを食べ過ぎている。もっと、植物を摂らないとだめだ! 最新のUSDAの調査〔合衆国農務省〕によると、アメリカ人は畜肉、精製穀物、そして不健康な脂肪の摂り過ぎだ。

アメリカ人の肉類の消費量は減っている、という研究データもあるが、でも世界全体では肉の消費は増えている。それは世界人口の底辺部分の栄養状態が良くなり、世界の経済が良くなりつつあることの兆しでもあるが、しかし同時にそれは、環境への負荷と健康被害が増大していることを意味している。 アメリカなど先進国の畜産業も、この点では威張れない。Wired誌の上記の記事が描いている動物虐待やアニマルライト(animal rights, 動物の権利)の問題をしばし忘れるとしても、われわれのハンバーガーの中にある1/4ポンドのビーフパティを作るために5〜6ポンドのコーンと52ガロンの水と、1000BTU以上の化石燃料が必要であることを、考えてみよう。

コーンや大豆製品の過剰消費がアメリカ人のウェストラインを大幅に増やしている。健康的な有機栽培の果物よりも、精製食品や加工食品の方が安いから、そうなるのかもしれない。20世紀前半の大恐慌時に制定された合衆国農業法は、農家によるコーンや大豆など特定作物の増産を奨励している。この法は、りんごではなく、ポテトチップやキャンディーバーの味方だ。

肥満と低所得との相関性は、否定できない事実だ。スーパーで安く買える食品はカロリーばかり高く、全体的な栄養価は低い。そういう食品は、農業法が奨励しているコーンや大豆が原料であることが多い。合衆国では成人の1/3が肥満だから、およそ1億あまりの人びとが糖尿病や心臓病の高いリスクを抱えている。2008年には、国民の年間の医療費の合計が1470億ドルという天文学的な額に達した!

世界最大の植物のデータベースを、こういった問題の解決に資する形で作ることは、けっして容易ではない。世界中の既知の植物種は870万以上ある。種(species)の下の変種(variety)のレベルで数えると、その数はもっと膨大だ。

世界最大の植物データベースと世界的飢餓との関係

国連の食糧農業機構(Food and Agriculture Organization, FAO)によると、毎晩飢えてる状態で床につく人は10億人以上いる。人間が家畜に与えている食糧の量は、この人たちが食べている量よりも多い。多くの土地を、家畜のための食糧ではなく人間の食糧のために使えば、途上国の人たちも主食となる食糧を、安く豊富に手に入れることができる。

工場的農業は食糧生産の大企業による独占や寡占状態を作り出し、大量の廃棄物と、主に除草剤による土壌汚染と、労働者たちの低賃金労働と、抗生物質が効かない病原を作り出し医療費高騰の原因にもなっている。Hampton Creekがこのデータベースの効用として構想しているのは、世界各国の農家や農業行政担当者たちの植物知識の増大と詳細化により、新たな換金作物がたくさん見つかり、農業地域における作物種生態系の多様化、すなわち自然環境の健康化をもたらし、ひいては地球全体の環境を良くしていくことだ。今のアメリカの農業のような大規模単作(膨大な土地面積がコーンならコーンだけとか)とは、対極の姿だ。そうなれば多様な農作物の低コストで健康的な栽培が可能になり、世界中の農家が家族を養えるようになり、小規模農家のコミュニティが栄え、しかも、消費者の健康にも貢献する。

データを読み解く

同社の研究チームは、これまでに4000種の植物を調べ、Hampton Creekの今の製品に適した粘稠度、味、および低費用性を備えた13種を選び出した。Tetrickはこう言う: “卵をスクランブルするんじゃなくて、植物をスクランブルして、正しい性質をもった種を探した”。

Hampton Creekは主にマヨネーズで知られているが、卵抜きクッキーの生地も売っている。近く、スクランブルエッグの味のするスクランブルピー(pea, 豆)も売り出す予定だ。 Tetrickによれば、その世界最大の植物データベースがあれば、今のような卵代替製品だけでなく、もっと製品を多様化できる。たとえば、砂糖の摂取量を減らすことのできるおいしい甘味料も、まだ市場に出ていないさまざまな植物から作れる。

同社のもう一つの目的は、安価に買えて日常的に常食できる食品を提供することだ。しかもそれの栽培〜生産が地球の環境に貢献するものでなければならない。“今回100円ショップに出したのも、そのためだ。うちのおやじなんかが、いつでも気軽に、何も考えずに買えなければ、いくら健康的とか言っても意味ないからね”、とTetrickは言う。“今のような、値段の高い健康食品は、多くの人の健康に貢献していない”。

データを売る

Zigmondを招いて世界最大の植物データベースを作ることになれば、Hampton Creekは、植物の食品適性に関する膨大で詳細な知識を入手することになる。だから今後の製品開発においても、断然有利だ。直接の商品化適性だけでなく、ほかの動物や環境への影響についても、分かるようになる。

たとえば今のTetrickは、カナダ黄色豆のある変種が、同社の植物卵に合った物理性を持っていることを、知っている。つまりその豆は、粘稠度が同社の製品に合っているのだ。でも、そんな豆の存在をたまたま知るのではなく、世界中の種からいろいろ見つけ出すことは、今の同社にもできない。カナダ黄色豆だけでも、変種は2000種類以上あるのだ。

すべての植物の食物(食品)適性について、網羅的な知識が得られるようになると、より安くて、より安全で、より健康的な製品を作りやすくなる。大企業が大金を投じてそんな知識を取得するのではなく、それは世界中のどんな農家でもアクセスできる情報でなければ意味がない。Tetrickはすでに、いくつかの食品大企業と、そのデータベースのライセンスについて話し合いを始めている。

“どこかの大企業がうちに10億ドルを出して、そのデータベースの権利を買い取ろうとしても、ノーと言うだろう”。同社の研究資金はすでに3000万ドルを、Bill Gates FoundationやFounders Fund、Google Venturesなどから得ている。現在の同社は、すでに経営が黒字だ。 同社の”Just Mayo”製品は、全米のWhole Foods、Safeway、Costco、それに今度からはDollar Treeで売られている。

中でもとくにDollar Treeが、“うちのおやじでも気軽に買える”という意味で、同社のねらいにぴったり合っている。Tetrickが、大手食品企業に対して情報を積極的に開示しているのも、健康的な食品の安価な日常化大衆化が彼の中心的なビジョンだからだ。Tetrickはその植物データベースに、日常的な食品に含まれている植物のデータも入れたい、と考えている。今のように、健康と財布を秤にかけながら健康食品を買うのではなく、究極的にはすべての食品が安価で健康的な食品になるために、その網羅的悉皆的な植物データベースが、全農業、そして全食品産業のために、役立つだろう。“世界を変えるほどでっかいものを作りたいんだ”、というTetrickと、そしてZigmondは、どちらもそれにぴったりの役柄だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビッグデータ処理のモバイル化を志向するCouchbaseが新たに$60Mを調達

分散コンピューティングの需要やモバイルデバイスの増殖に伴い、コンピューティングのインフラとなるツールの革新の歩みが加速している。そして新しいタイプのデータ管理やデータ処理技術を専門とするスタートアップたちが大きな資金を調達して、次世代のコンピューティングを推進しようとしている。

最近、新たな投資家WestSummitやAccel Growth Fundから6000万ドルを調達した新進のデータベース企業Couchbaseも、その巨額な資金により、国際展開と継続的な研究開発を、さらに加速するつもりだ。

カリフォルニア州Mountain Viewの同社は、MongoDBなどとともに、企業や組織の業務データ(operational data, オペレーショナルデータ)の管理を扱う、資金状態の良好なスタートアップの一つだ。

これまで累積で10億ドルあまりを調達しているClouderaなど、Hadoopベースのベンダと違ってCouchbaseとMongoDBは、データベースのデータ処理よりもむしろ、データの管理とリカバリに力点を置く。同社のCEO Bob Wiederholdは、そう語っている。

Wiederholdは曰く、“ユーザのところでは大量のアプリケーションが同時に動いていて、大量のデータベース操作をたえず行っている。今日のデータベースは、そのような苛酷な状況を堅牢にサポートしなければならない”。古いデータベース技術ではデータが中央一点型で存在し、Couchbaseのような分散データベースと違って、需要増に応じて機敏なスケールアップができない、と彼は語る。

WestSummitとAccel Growthから得た新たな資金は、ビッグデータ市場のなお一層の開拓に充てられる。その市場のグローバルな現在の規模は、アナリストグループIDCによれば、160億ドルあまりと推計されている。

さらに同社は、5月のローンチしたモバイル技術の展開にも力を入れていく。

Couchbaseが今市場に売り込もうとしているモバイルデータベースは、モバイルデバイス上のアプリケーションが、インターネットに接続していないときでも稼働できる状態を作り出す。

Wiederholdはさらに言う: “今モバイルアプリを使おうとすると、インターネット接続がなかったり、接続状態が悪かったりしてフラストレーションにおちいることがある。ある程度キャッシュが使われてはいるが、アプリ本体の機能は利用できない。しかし、必要なデータをモバイルデバイス上に保存できたら、非常に速いレスポンスタイムを享受できるし、インターネット接続が得られる状態になったらデータをクラウドにシンクできる”。

Couchbaseのモバイルプロダクトはまさに、そのような機能性を提供する。“モバイルへの移行は巨大なトレンドであり、そのためにまず最初に作られるのがモバイルのアプリケーションだ。しかし、今よりももっとグレートなモバイルアプリケーションを作れて、利用できるためには、モバイル対応のデータベースこそが、その鍵となる技術なのだ”、とWiederholdは自負を語る。

モバイルと並んでCouchbaseのCEOの目に映じている大きな機会が、国際展開の拡大だ。中国と合衆国を股にかけたファンドWestSummitを加えたのも、そのねらいからだ。WestSummitの協同ファウンダでマネージングパートナーのRaymond Yangが、Couchbaseの取締役会に加わる。

Couchbaseには、二つの別々のデータベース企業CouchOneとMembaseというルーツがあり、両社が2011年に合併してCouchbaseになった。

同社はこれまでに、Accel Partners、Mayfield Fund、North Bridge Venture Partners、Ignition Partners、Adams Street Partnersなどから合計1億ドルあまりを調達している。

写真はFlickrユーザElif Ayiterより

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Microsoft、Azure MLを発表―クラウドベースの機械学習プラットフォームは未来を予測する

最近急速にクラウド化しているMicrosoftが、今日(米国時間6/16)、クラウドベースの機械学習プラットフォームを発表した。このAzure MLはクラウド上でビッグデータを利用することにより、単に過去を分析するのではなく、将来の事象を予測するアプリやAPIを作ることができる。

Azure MLはXboxやBingですでに使われている機械学習機能を利用している。またデベロッパーが未来予測アプリを開発するために使うテンプレートとワークフローも用意される。これによって機械学習アプリを開発するスピードは大幅に加速されるという。サービスのプロバイダはAzure MLプラットフォーム上で各種のウェブサービスを開発できるだけでなく、APIを公開することも可能になる。

Microsoftのコーポレート・バイスプレジデントでAzure MLの責任者、Joseph Sirosh(Microsoftに移る前は長年Amazonに在職)は、「このプラットフォームを利用すればユーザー、パートナーは未来を予測するビッグデータ・アプリケーションを開発することが可能になる」と述べた。

Siroshは「過去の分析ではなく未来を予測し、それを変えることができるのがAzure MLの傑出した特長だ」という。

「既存のデータ分析システムも未来の予測ができる。しかし機械学習は未来を書き換えることができる」とSiroshは説明する。 つまりビッグデータを分析してパターンを発見し、製品の需要や病気の流行を予測したり、エレベーターが故障する前にメンテナンスが必要だと教えたりする。さらには犯罪の発生を予測して防犯に役立てることもできるという。

Siroshによれば、こうしたことを可能にしてゲームのルールを変えたのはクラウド化だという。もしユーザー企業が独力で実行しようとすれば何週間も、それどころか何ヶ月もかかるような膨大な処理がクラウド上ではごく短時間で実行できる。

またSiroshは「クラウドは最後の1マイル問題も解決した」という。以前このようなサービスではまずデータ・サイエンティストがビッグデータを分析してパターンを見出し、IT部門がそれに応じてアプリケーションを開発するという手順を踏む必要があった。このプログラムのコーディングがきわめて手間のかかる作業であり、何週間、何ヶ月もかかっていた。しかしAzure MLならアプリケーション開発は数時間ですんでしまうという。

また多くのデータ・サイエンティストが利用している統計処理言語Rのオープンソース・プロジェクトから300以上のパッケージが利用できる。

またSiroshは多くのユーザーがAzure MLプラットフォーム上でアプリやAPIを公開することによって好循環が始まることを期待している。「ユーザーがデータをAzure MLに持ってきてアプリやAPIを公開する。するとさらに多くのユーザーそのアプリをAPIを利用してさら多くのデータをAzure MLに持ち込むようになる」とSiroshは説明する。

Azure MLは現在、秘密にプレビューされている。しかしMicrosoftはいくつかの実例を明かした。その一つはMirosoftのパートナー、Max451が開発しているシステムで、これは小売業者が消費者の好みを分析することによって商品の売れ行きを予測するサービスだ。小売業者はもっとも売れそうな商品の在庫を増やすなどして利益を増大できる。

またカーネギーメロン大学はキャンパスの建物でのエネルギー消費を抑えるためにAzure MLを使って学内の活動パターンの予測手法を開発中だ。

しかしこの分野を手がけているのはMicrosoftばかりではない。IBMは昨年冬、Watson人工知能をクラウド・サービス化した。また先週はErsatz Labsというスタートアップがディープラーニング人工知能のクラウドプラットフォームをローンチしている。

Azure MLは来月に公開プレビュー段階に入るという。正式リリースの日程は明らかにされていない。

写真: (c) Can Stock Photo

[原文へ]

(翻訳:滑川海彦 Facebook Google+


Googleのリアルタイムビッグデータ分析サービスBigQueryが大幅値下げと能力アップ

非常に大きなデータ集合を高速に分析するためのGoogleのクラウドツールBigQueryが今日(米国時間3/25)、最大85%という大幅値下げをした。そしてそれと同時に、Amazon Kinesisなどの競合サービスと互角に戦うための重要な新機能も加えた。もうすぐデベロッパたちは、最大で毎秒10万行までのリアルタイムデータをBigQueryに送り、リアルタイムで分析してもらえるようになる。

これで、リアルタイム分析に依存する多種多様なサービスにとって、BigQueryが使うツールの候補になる。今日行われるCloud PlatformのイベントでGoogleは、電力会社がこのツールを使うと、地域の電力利用状況をリアルタイムで刻々分析しながら、数分後の停電の可能性を検知できる、という例を見せる。あるいは電力会社はBigQueryを使って数マイル範囲内のメーターの今の状態を知り、過去5分間に電気の利用がなかったところを判別できる。

そのほか、マーケティングや金融業などでも、データやログ、さまざまな計測値などをリアルタイムで分析できる。

ビッグデータ分析の世界でGoogleのサービスは、比較的安い。オンデマンドのクェリは1テラバイトあたり5ドル、毎秒5GBの予約クェリは月額料金が“わずか”2万ドルだ。これらの額は、ほかのサービスプロバイダよりも75%安い、とGoogleは主張している。

BigQueryのこれまでのリアルタイムストリーミング機能はあまり強力ではなくて、 その最大消化能力は1テーブルあたり毎秒1000行だった。それで十分なアプリケーションもあるが、それはAmazon Kinesisの足元にも及ばない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))