Zindiが新型コロナ対策に向け1.2万人のアフリカ人データサイエンティストを活用

ケープタウンを拠点とするクラウドソーシングのスタートアップZindiは、創業以来アフリカ中のデータサイエンティストのデータベースを構築してきた。

複雑な問題を解決するために、AIと機械学習を使用する1万2000人の人材がそのプラットフォームには登録されているが、現在同社は、新型コロナウイルス(COVID-19)へのソリューションに対して賞金を提供しようとしている。

Zindiは、新型コロナウイルスの蔓延と混乱を食い止めることに焦点を当てた、オープンコンペティションを行っており、4月にはハッカソンを開催する予定だ。AI4Dが主催する現在のコンペティションは、データを使用して新型コロナウイルスの世界的な広がりを予測することができるモデルを、今後3ヶ月の間に作成することを、サイエンティストたちに課している。

コンペティションは 4月19日まで受付しており、提案されたソリューションはこの先の実際の数値で評価され、勝者は 5000ドル(約55万円)を受け取る。

このコンペティションは、差し迫った民間または公共部門の課題を集約し、解決策を求める人と問題解決者をマッチングさせることができるプラットフォームを構築するという、Zindiのビジネスモデルに合致している。

2018年に設立されたこのアーリーステージベンチャー企業は、企業、NGO、政府機関がデータ指向の課題を中心とした、オンラインコンテストを開催することを可能にしている。

Zindiのビジネスモデルは、アフリカ内外の著名な企業からの注目を集めている。これまでにコンテストを主催してきた企業として、Microsoft、IBM、そしてLiquid Telecomなどの名前を挙げることができる。南アフリカ政府やユニセフといった、公共部門の関係者も、交通安全や農業改革など、さまざまな課題に向けてZindiを利用している。

ケープタウンのZindiチーム

画像クレジット:Zindi

ZindiのCEOであるCelina Lee(セリーナ・リー)氏は、この新型コロナウイルスのような状況を正確に予想していたわけではないが、今回の事態は、彼女が南アフリカ人のMegan Yates(ミーガン・イェーツ)氏ならびにガーナ人のEkow Duker(エコウ・ダッカー)氏と、Zindiを共同設立した理由の1つなのだと考えている。

アフリカのデータサイエンスの専門知識を応用して、新型コロナウイルスのような複雑な健康危機の問題を解決できる能力の提供こそが、Zindiの存在理由だと、リー氏はケープタウンからの電話でTechCrunchに説明した。

「オンラインプラットフォームとして、Zindiは、データサイエンティストたちを、アフリカ全体および世界中から大規模かつ安全に、自宅から動員できる有利な立場にいます」と彼女は言う。

リー氏は、得られた知見によって、アフリカがエピデミックや病気の被害者であり、また発生源であると考える人が多くなったと説明した。「私たちは、アフリカが実際に、世界のソリューションに貢献できることも示したかったのです」。

新型コロナウイルスの登場によって、Zindiはその創業者、スタッフ、そして世界にも影響を及ぼしている問題を緩和するために利用されている。

南アフリカは3月20日に新型コロナウイルスのためにロックダウンが行われたために、リー氏はケープ・タウンで屋内避難を行いながら、TechCrunchと連絡を行った。Zindiの創業者は、新型コロナウイルスが世界的に広まったために、ニューヨーク在住の義理の家族や、サンフランシスコの家族も同様の状況で暮らしていると説明した。

リー氏は、同社が提供するチャレンジが、新型コロナウイルスの蔓延と共に、アフリカの国々が活用できるソリューションを生み出すことができると考えている。「ケニア政府は、ICTセクターの企業を参画させたタスクフォースを開始したばかりです。なので、関心を寄せて貰えるのではと思っています」と彼女は言う。

また4月からは、Zindiは新型コロナウイルスに焦点を当てた、6回の週末にわたるハッカソンを開始する。

アフリカでの新型コロナウイルスの現況を考えると、それはタイムリーなことかもしれない。大陸の国別感染者数は、3月上旬には1桁台だったが、先週には急増している。これを受けて世界保健機関(WHO)の地域責任者であるMatshidiso Moeti(マティシディソ・モティ) 博士 が、アフリカ大陸でのウイルス感染の急速な拡大に警告を発することになった。

3月25日の時点でのWHOの統計 によれば、サハラ砂漠より南の地域には1691人の新型コロナウイルス症例が確認され、29例のウイルスに関連した死亡が確認されている(先週の3月18日の時点では症例は463人、死者は10人だった)。

アフリカでの新型コロナウイルスの流行を受けて、各国やZindi のようなスタートアップは、より広範な対応の一環として、アフリカ大陸のテック企業を巻き込むように訴えている。ガーナ、ナイジェリア、ケニアの中央銀行とフィンテック企業は、世界保健機関がウイルスの蔓延の経路として注意を促した現金ではなく、モバイルマネーの利用を促進するための対策を採用している。

大陸最大のインキュベーターであるCcHubは、新型コロナウイルスとその社会的および経済的影響を抑制することを目的とした、技術プロジェクトのファンディングと公募を開始した

アフリカ全土を覆うeコマース企業Jumiaは、医療施設や従事者に物資を配送するために、同社のラストマイル配送ネットワークの提供をアフリカの各国政府に対して申し出ている。

ZindiのCEOであるリー氏は、同社の開催する新型コロナウイルス関連のコンペティションが、政策立案者たちがウイルスの蔓延と戦うための追加の手段を提供できることを期待している。

「今開催中のものは、うまくいけば、病気の広がりを予測し、国の高リスク地域をより正確に予測することができるように、政府に対して情報を提供することができるようになるはずです」と彼女は語った。
新型コロナウイルス 関連アップデート

画像クレジット: Sam Masikini via Zindi

原文へ

(翻訳:sako)

Amazon Forecastは時系列データから予測を作りだす機械学習ツール

AmazonのAWSが今日(米国時間11/28)、時系列データに基づいて予測を生成する機械学習ツールAmazon Forecastをローンチした。予測は機械学習のかなりふつうの使い方だが、そのスキルのないデベロッパーが一からそれを作るのは難しい。しかしAmazonは当然ながら、自社のニーズのためにすでに多くのモデルを作っているので、今回はそれらをデベロッパー向けのプロダクトにまとめたのだ。

AWSのCEO Andy Jassyが今日のAWS re:Inventのキーノートでこう述べた: “わずか三クリックで、このツールにデータを与え、予測を得ることができる。超簡単でしかも、非公開ベータでベンチマークした結果としては、正確度は人びとがふつうにやるよりも50%高い。また費用は、どこかからソフトウェアを買う場合の1/10程度だ”。

Amazonはそのリテールビジネスの中で、自社のデータを扱うモデルをたくさん作ってきた。それは、Amazonがそのリテールサイトの需要予測に使ったりするものと基本的には同じ技術だ。ユーザーは同社に、彼らのサプライチェーンのデータのすべてを提供し、それによりそのサービスに、予測に影響を及ぼす変数を与える。

その楽屋裏では、AWSがそのデータとシグナルを見て、あらかじめ構築されている8種のアルゴリズムからどれかを選び、モデルを訓練し、それを微調整して予測を提供する。

AWSのこのサービスは、SAPやOracleのサプライチェーンツールと容易に統合できるし、Amazonの新しいデータベースサービスTimestreamのデータも使える。

このサービスは必ずしも安くはないが、デベロッパーの時間を大幅に節約できるだろう。

more AWS re:Invent 2018 coverage

画像クレジット: Ron Miller

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleとCoursera、機械学習の特別クラスをスタート――ITプロフェッショナルが実戦的能力を得られる

この数年、Googleと Courseraは共同でデベロッパーやITプロフェッショナル向けのオンライン学習コースを多数開催してきた。この中には機械学習の速習コースも含まれ、学習者に機械学習の基礎的知識を提供している。Google、Courseraはこれをベースとして機械学習特別クラスをCourseraでスタートさせる。新しい特別クラスは5つのコースからなり、実戦的能力の獲得に焦点を合わせている。

特別クラスは「Google CloudプラットフォームでTensorFlowを利用する機械学習」と名付けられ、学習者は現実の機械学習モデルの作成を体験する。これには環境の設定から始まって、データベースの構築、データのノイズ除去、TensorFlowによる分散機械学習モデル、モデルの精度向上のための、パラメーターの調整、各種のチューニングなどが含まれる。

Googleにおけるビッグデータと機械学習テクノロジー責任者、Lak Lakshmananは私の取材に対して「われわれのチームは学習者や企業から『〔オリジナルの機械学習コースは〕素晴らしいが、さらに突っ込んだ内容が欲しい』という要望が強いと聞いた。学習者は機械学習モデルの構築の基礎だけでなく、クラウド上で作動させる方法、データを供給するパイプラインの構築、チューニングの方法などモデルを現に運用して効果を上げるためのさまざまなノウハウを知りたいということだった」と語った。

Courseraのエンタープライズ開発担当バイス・プレジデント、Leah Belskyは、これに関連して、「こうした実際的な能力を学習者が身につけることは所属企業にとっても非常に価値がある」と説明した。

今やテクノロジーのあらゆる分野で機械学習の実戦的能力が求められている。新しい特別クラスのターゲットはこうした知識と技能を身に着けたいデベロッパーだ。機械学習の人材は払底しており、企業が外部から専門家をスカウトすることは不可能に近い。内部のデベロッパーに機械学習について学ばせる以外にない現状ではこのクラスへの企業の期待は大きい。

Lakshmananが語ったところでは、機械学習のユースケースは多岐にわたるものの、このクラスが重点を置くのは「日常業務を機械学習化する能力」だという。つまり既存のプロダクトの価値を機械学習によっていっそう高めることが目標だ。既存の課題の解決が主眼であるため、このコースは機械学習の最新理論をすでに学んだ大学新卒者にとっても有益だという。

Lakshmananによれば、こうしたクラスをスタートさせるのは数年前だったら不可能に近かっただろうという。専用GPUを備えた強力なハードウェアが用意できなければ意味のある機械学習の実験はできなかったからだ。しかし現在ではGPUにアクセスできる強力なクラウドプラットフォームが多数登場している。ことにGoogleのクラウドであれば機械学習のためのTensorFlow Unit(TPU)が利用でき、ハードルは大幅に下がった。

こうしたコースでは参加者はプログラミングに関してすでに一定の能力を持っていることを前提にしている。TensorFlowフレームワークの利用などにより機械学習の習得は以前よりずっと容易になったとはいえ上級分野であることには変わりない。「機械学習モデルの構築でPythonを学ぼう」というコースが登場するのはまだ先の話のようだ。

将来といえば、Lakshmananはすでに次のコースの構想を温めている。これは現在のコースの続編となるもので、非構造的データを取り扱う方法を学ぶ。これはまった異なるレベルのチャレンジになる。また現在の機械学習コースの内容を十分に身に着けている必要があるという。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Lobeで機械学習利用アプリを誰でも簡単に開発できる――デモではジェスチャーを絵文字に変換

機械学習はトレンドだ。CERNの素粒子の探求からGoogleによる人間の声の合成まであらゆる場所に用いられている。ただしハードルが高い。 しかしビデオ編集、音声編集の実際の動作は複雑きわまるものだが、好奇心さえあれば子供でも手を出せるくらい優れたUIが数多く実用化されている。

それなら機械学習でも同じことができるはずだ、というのがLobeのファウンダーたちのコンセプトだ。LobeはLEGOブロックを組み合わせるのと同じくらい簡単に機械学習モデルを作れるようにするプラットフォームを提供するスタートアップだ。

共同ファウンダーの一人でこれまでの各種の優れたデジタル・インターフェイスをデザイナンしてきたMike Matasに話を聞くことができた。Matasはこのプラットフォームの目的や開発の動機について話をしてくた。

「これまでもAIを使ったらこんなことができるはずだというアイディアを思いつくものの、実行するのに十分な知識がないという状況が多々あった。いくらいいアイディアでもAI専門家のチームを雇うことできなければ意味がなかった」とMatasは言う。

実は彼自身、こういう状況を経験した。

そこで私は自分でAIモデルを作れるものか調べてみた。たしかに入り口にはたくさんの術語、フレームワーク、数学といった難題が立ちふさがっていた。しかしそこをなんとかくぐり抜けると、コンセプト自体は直感的に理解しやすいものだった。機械学習は人間にものを教えるのと基本的に同じやり方だから、普通のプログラミングよりやさしいぐらいだ

そうは言っても術語は難解だし、開発デバイスはまだまだ荒削りだった。機械学習は強力な手法だが、UIとしてはまだPhotoshopで画像編集をするようなレベルになっていなかった。

これまでの機械学習ではいろいろな要素を自分で組み合わせる必要があった。ダウンロードが必要なコードが多数あった。実は私もフレームワークを始めとしてダウンロードして組み合わせなければならないソフトウェアの数があまりに多く、ので嫌になった。私はUIデザイナーなので、それならこういう複雑な状況を整理して誰でも理解できるようなUIを構築するチャンスではないかと考えた

MatasとMarkus Beissinger、Adam Mengesが共同ファウンダーとなってスタートさせたLobeは機械学習を利用して大量のデータから意味のある特徴を抽出し、ラベル付けするための直感的に理解しやすいビジュアルなインターフェイスを作っている。下にエンベッドしたデモ・ビデオでは、手のジェスチャーをカメラで読み取って絵文字に変換するアプリを作るプロセスが詳しく紹介されている。アプリを開発するのにコンピューター言語の知識は必要ない。コードの処理は1行も出てこない。ましてコードを書く必要はない。もちろん必要なら(また能力があれば)詳細レベルに立ち入って調整することはできる。Lobeのプラットフォームは非常に使いやすく、処理も高速だ。十分なデータがあり機械学習による処理の可能性を感じているものの技術的ノウハウがないユーザーが簡単に新しいアプリを開発する可能性を開くものだろう。

Matasはこの状況をパソコンの初期に例える。

それまでコンピューターを扱えるのは専門のエンジニアと計算機科学者だけだった。「専門家しかコンピューターを扱えなければコンピューターの利用法を考えられるのも専門家だけになる。しかし80年代の後半になるとコンピューターにはクリエーティブな使い方が数多く登場した。それは大部分UIの改良によるものだった。

Matasは機械学習に関しても使いやすいUIの登場によって入門のハードルが下がれば新しいアプリが洪水のように登場するとみている。「データサイエンス以外のフィールドの人々も自分たちの課題に機械学習が適用できると考え始めている。しかも今後はアイディアからプロトタイプを作ることを機械学習専門家の手を借りず、自分たちでできるようになる」という。

機械学習の応用が期待される分野は無数にあるが、Lobeでは簡単なモジュールで計測認識、ジェスチャー認識、読唇術、花びらのような対象をリアルに再現するなど多数のアプリが可能となることを示している。学習のベースとなるデータはユーザーが用意しなければならない。しかし機械学習で処理するのは今後は困難な部分ではでなくなるという。

機械学習コミュニティーはオープンソースに徹することをモットーとしている。 Lobeも独自のAPIを通じてLobeのサーバーでしか作動しないようなモデルは採用していない。「LobeのアーキテクチャはTensorflowのようなオープン規格をベースとしている。Lobeで学習、テスト、調整などをした後は、どんなプラットフォーム向けにもコンパイルして作動させることができる」ということだ。

現在Lobeはまだクローズド・ベータの段階だ。 「問い合わせが殺到している。強い関心を呼んでいるのは確かだ。公開は徐々にしていくが、できるかぎり小さく始めるつもりだ。われわれは急がず身の丈にあったやり方をしていく」とMatasは語った。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

お天気の視覚化は目的別分野別に多様であるべき、と主張するスイスの大学のプロジェクト

空の雲を見て、“犬”や“綿毛”を連想する人もいる。あるいは、“あれは衰退中の積雲で、羽毛のようなエッジは北からの高気圧が上昇気流によって終わりつつあることを示唆しているが、そのためにたぶん乱気流が生じるだろう。それに、ちょっと犬にも似ているな”、と思う人もいる。天候データの複雑で美しい視覚化は、後者の人びとが作っているのだ。

ETH Zürich(スイス連邦工科大学チューリッヒ校, ETHZ)のMarkus Grossが率いるプロジェクトは、天候データの視覚化はその利用目的や利用分野によって多様であるべき、と考えている。そこで彼のチームは、大量の天候データと格闘しながら、テレビ局や各種の研究所など、いろんなところにいるいろんな気象学者たちのための、それらのデータの正しい表現方法を模索してきた。

“われわれの視覚化の科学的価値は、既存のツールでは見ることができなかったものを見えるようにできるところにある”、とチームの一人、学部学生のNoël RimensbergerがETHZのニューズリリースで述べている。天候を、“比較的シンプルなわかりやすい方法で表現できる”、とも言っている。

問題のデータはすべて、2013年4月26日の夜のものだ。そのときは、ある大規模な気象学のプロジェクトにより、複数の研究機関が協力して大量のデータを集めたのだ。チームはそのデータを視覚化するためのさまざまな方法を作り出した。

たとえば、ひとつの郡全体を見るときには、雲に生じる小さな波動に注目することに意味があるだろうか? 必要なのはもっと大きな傾向であり、寒冷前線の生成や雨になりそうな領域など、重要なデータポイントを見つける方法だ。

  1. flights

  2. vorticity

  3. updrafts

  4. drafts

  5. clouds

しかし、局所的な雲の生成について知りたいときは、そんなマクロなデータは役に立たない。たとえばそこだけは、台風の風雨が異様に激しいかもしれない。

あるいは、あなたが小型飛行機のパイロットだったらどうか。ちょっとした雨や雲は気にならないかもしれないが、どこかに乱気流が起きそうなパターンがあって、それが今後どっち方向へどれぐらいの速さで動いていくのか知りたいときはどうする? または、先日墜落事故起きた、その場所の今の気象状況を知りたいときは?。

視覚化のこれら複数の例は、大量のデータ集合を解釈し表示する方法が、いろんな目的によってさまざまであることを、示している。

このプロジェクトにおけるRimensbergerの指導教官Tobias Güntherによると、膨大なデータを解釈してシミュレーションを作りだすために今使っているアルゴリズムが、とても遅すぎる。今は、その改良に取り組んでいるところだ。でも、時間条件がゆるい利用目的なら、現状でも十分使える、と。

彼らがETH Zürichの視覚化コンテストのために作成したペーパーの全文が、同大学のWebサイトにある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

データは新しい石油ではない

(日本語版注:本稿は、Jocelyn GoldfeinとIvy Nguyenにより執筆された記事。Jocelyn GoldfeinはZetta Venture Partnersの業務執行取締役。 Ivy Nguyenは、Zetta Venture Partnersの共同経営者。)

ソフトウエアの開発が以前に比べて簡単になったことで、ソフトウエア・ビジネスにおいて身を守ることは、以前よりも難しくなっている。そのため、投資家や企業家が、データに新しい競争力の可能性があると楽観視するのは不思議ではない。データは「新しい石油だ」と称賛する人間もいる。私たちは、ビジネスに関する問題を解決してくれるデータやAIを活用するスタートアップへの投資に力を入れているため、たしかに、そうした声を聞くわけだが、石油に例えるのは少し違うと思う。

ビッグデータへの関心は非常に高いが、すべてのデータが同等に作られているわけではないという事実は見落とされがちだ。スタートアップも大手企業も、口を揃えて、テラバイト級だとか、米国議会図書館に収められている情報より多くのデータを保有しているとか、自分たちが集積したデータの量を自慢するが、量だけで「データモート」(Data Moat:データの堀)を築くことはできない。

データ戦略の変遷  左から「ワークフロー・ツール(データなし)」「データ集約」「データ駆動型好循環(AI / ML)」「データモート」

 

その理由のひとつには、生のデータは、問題解決に利用できるデータと比べて価値が遙かに劣るということがある。それは、公開市場を見るとわかる。ニールセンアクシオムなどのデータの収拾や提供を業務としている企業は、ネットフリックスやフェイスブックのようにデータをアルゴリズムや機械学習(ML)と組み合わせることで製品を生み出している企業と比較すると、企業評価は数分の一をなんとか維持している程度だ。新しい世代のAI系スタートアップは、その違いをよく心得ていて、収拾したデータから価値を抽出するためのMLモデルを採用している。

MLベースのソリューションにデータが利用できたとしても、そのデータセットのサイズはまた別の話だ。データセットの価値、つまりデータモートの強さは、文脈による。アプリケーションによっては、顧客に何らかの価値を提供するために、非常な高精度にトレーニングしたモデルを必要とするものがあるかと思えば、ほんの僅かなデータ、あるいはまったくデータを必要としない場合もある。独占的に所持できるデータもあれば、すでに複製されているデータもある。時間とともに価値が失われるデータもあれば、永久に価値を保ち続けるデータセットもある。アプリケーションがデータの価値を決定するのだ。

「データ欲」の範囲を規定する

エンドユーザーに価値ある機能を提供するためには、MLアプリケーションは、幅広く大量のデータを必要とする。

MAP閾値

クラウドの分野には、実用最小限の製品(MVP)という考え方が根付いている。初期顧客を探し出すのに必要な機能だけを備えたソフトウエア郡だ。インテリジェンスの分野では、私たちはデータやモデルから見られるアナログの部分に注目している。採用を正当とするに足る最小限の精度を持つ情報だ。これを私たちは最低限のアルゴリズム性能(MAP)と呼んでいる。

ほとんどの場合、アプリケーションで価値を生みだすのに必要な精度は、100パーセントでなくてもよい。たとえば、医師のための生産性向上ツールがあったとしよう。最初は、健康状態を電子的に記録するシステムのデータ入力を補助する役割を果たすが、時が経つにつれて、どの医師がシステムに入っているかを学習して、データ入力を自動化するようになる。ここではMAPはゼロだ。使い始めた最初の日から、そのソフトウエアの機能が価値を発揮するからだ。インテリジェンスは後から付加される。しかし、AIが中心になっている製品(たとえば、CTスキャナーから脳卒中を特定するツール)の場合は、生身の人間が行うときと同等精度のソリューションが求められる。MAPは人間の放射線科医の能力と同等になり、製品として成立させるまでには、恐ろしいほど大量のデータが必要とされる。

成績の閾値

100パーセントに近い精度があっても、すべての問題が解決できるわけではない。あまりにも複雑すぎるため、最先端の技術を駆使したモデルを必要とする問題もある。その場合は、データは特効薬とはならない。データを増やすことで、モデルの成績は徐々に向上するだろうが、すぐに限界利益の減少に直面してしまう。

反対に、追跡すべき次元が少なく、結果の幅も小さく、比較的単純にモデリングできる問題の場合は、ほんのわずかのトレーングされたデータセットで解決できてしまう。

早い話が、問題を効率的に解決するために必要なデータの量は、状況によって変わるということだ。実用的なレベルの精度に達するために必要なトレーニングされたデータの量を、私たちは「成績の閾値」(Performance Threshold)と呼んでいる。

書類処理におけるMAPと成績の閾値の関係 縦軸は精度、横軸はトレーニング用の実例(ドキュメントの数)。 左「成績の閾値=ドキュメント数200」、右「MAP=93%(人間による処理の精度)」

AIを使った契約処理は、成績の閾値が低いアプリケーションのよい例だ。契約書のタイプは何千とあるが、そのほとんどには、契約に関わる人たち、価値を交換するアイテム、期限など、共通する要点がある。住宅ローンやレンタル契約などの書類は、規制に準拠しなければならないため、ほとんど定型化されている。わずか数百種類の例を使ってトレーニングするだけで、実用的な精度に高められる自動文書処理のアルゴリズムを開発したスタートアップを、私たちは数多く見てきた。

起業家にはバランス感覚が必要だ。成績の閾値が高ければ、顧客に使ってもらい、より多くのデータを集めるために、十分なデータを集めなければならないという「ニワトリが先か卵が先か」のような問題に行き当たる。低すぎれば、データモートは築けない。

安定性の閾値

MLモデルは、それが利用されることになる現実の環境から例を集めてトレーニングされる。その環境が少しずつ、または突然に変化したとき、それに伴って変化できなければモデルは陳腐化する。つまり、そのモデルの予測は、もう信頼できないということだ。

たとえば、スタートアップのConstructor.ioは、MLを使って電子商取引サイトの検索結果をランク付けしている。そのシステムは、顧客が検索結果をクリックするかどうかを観察し、そのデータを使って、よりよい検索結果を得るための順番を予測するというものだ。しかし、電子商取引の製品カタログは常に変化している。もしそのモデルが、すべてのクリックのウェイトを同じと考えていたら、または一定の時間のデータセットだけでトレーニングされていたとしたら、古い製品の価値を過大に評価したり、新製品や現在人気の製品をそこから除外してしまったりする恐れが出てくる。

モデルの安定性を保ちたいなら、環境の変化の速度に合わせて最新のトレーニングデータを取り込む必要がある。私たちは、このデータ取得の速度を「安定性の閾値」と呼んでいる。

短命なデータでは強固なデータモートは作れない。一方、安定性の閾値が低い場合、豊富で新鮮なデータへの継続的なアクセスは、大きな参入障壁になってしまう。

長期的な防御力で好機を見極める

MAP、成績の閾値、安定性の閾値は、強固なデータモートを築く際に中核となる要素だ。

新しいカテゴリーに飛び込む先行者には、MAPが低い企業があるが、ひとたびカテゴリーを確立して、そこを牽引するようになれば、後から参入する者たちの敷居は、先行者のときと同じか、それよりも高くなる。

成績の閾値に達するまでに必要なデータと、成績を維持するため(安定性の閾値)に必要なデータの量が少なくて済む分野では、防御が難しい。新規参入者はすでに十分なデータを持っているので、先行者のソリューションに簡単に追いついたり、追い越したりできてしまう。その一方で、成績の閾値(大量のデータを必要としない)と低い安定性の閾値(データが急速に古くなる)と戦っている企業でも、他の企業よりも早く新しいデータを取得できれば、データモートを築ける可能性がある。

強固なデータモートのその他の要素

AI系の投資家は、データセットは「公開データ」と「独自データ」に分けられると熱弁するが、データモートには、それとは別に次の要素がある。

  • アクセスのしやすさ
  • 時間 — どれだけ早くデータを収集してモデルに活かせるか。データには即座にアクセスできるか、または取得や処理に長い時間がかからないか。
  • コスト — そのデータを入手するのに、いくらかかるのか。データを使用するユーザーがライセンス権のために金を払う必要があるのか。または、データのラベリングのために人件費を払う必要があるのか。
  • 独自性 — 同じ結果を導き出すモデルが構築できる同等のデータが広く公開されていないか。そのような、いわゆる独自データは、「日用データ」(Commodity Data)と呼ぶべきだろう。たとえば、求人情報や、広く普及している形式の書類(機密保持契約書やローンの申請書など)や、人の顔の画像のようなものがそれにあたる。
  • 次元性 — データセットの中に、種類の異なる属性がどれほど含まれているか。その多くが、問題解決に役立つものであるか。
  • 幅 ― 属性の価値がどれほど多岐に渡っているか。そのデータセットに、極端な事例や稀な例外的事例が含まれているか。データまたは学習が、たった一人の顧客から得たものではなく、幅広い顧客層から収拾され蓄えられているか。
  • 寿命 ― そのデータは、長期にわたって幅広く利用できるものであるか。そのデータでトレーニングされたモデルは、長期間使えるか。または、定期的な更新が必要か。
  • 好循環 ― 性能のフィードバックや予測の精度といった結果を、アルゴリズムの改良のためのインプットとして使えるか。時を経るごとに性能が磨かれてゆくか。

今やソフトウェアは日用品だ。長期間にわたって競争での優位性を保ちたいと考える企業にとって、データモートの構築はますます重要になる。技術系の巨大企業がクラウド・コンピューティングの顧客を獲得するためにAIツールキットを無料公開する世の中では、データセットは、差別化のための非常に重要な決め手となる。本当に防衛力の高いデータモートは、データを大量に集めるだけでは実現しない。最良のデータモートは、特定の問題分野と強く結びついている。そこでは、顧客の問題を解決するごとに、他所にはない新鮮なデータが価値を生み出すようになる。

画像:Artem_Egorov / Getty Images

[原文へ]

(翻訳: Tetsuo Kanai)

Googleが三月の狂気(march madness)でリアルタイムの試合展開予想をCMで提供

Googleは、同社のデータサイエンスの技術をリアルタイムで試してみたいようだ。今週末(米国時間3/30〜)同社は、サンアントニオで行われるファイナルフォー(Final Four, 全米男子大学バスケ選手権)で、データ分析と機械学習の技術を駆使して、試合中にさまざまな予測を行う。そしてハーフタイムに放映されるテレビコマーシャルでは、そのゲームの後半戦について予言する。

その詳しい計画は同社の今朝(米国時間3/30)のブログ記事に載っていて、そこでは、Googleのクラウド技術を使ったスポーツデータの統計分析などで同社とNCAA(全米大学体育協会)はすでに関係があり、今回の企画もそのご縁から生まれた、と言っている。そしてGoogleはこの機会を、NCAAのデータのより高度な活用の機会と捉えている。

チームはデータサイエンティストと技術者とバスケットボールのファンたちで構成され、GoogleはGoogle Cloud PlatformとBigQuery、Cloud Datalabなどの技術を利用するデータ処理のワークフローを構築した。データは非常に細かくて、各人の毎分のショットブロック数、動物をマスコットにしているチームの逆転負け率、などもある。Googleはそれらのデータを総動員して、今行われているゲームの経過や結果を予想する。そのためには、ゲームの前半から得られたデータをリアルタイムで分析し、それに基づく予想を数分後にコマーシャルで発表する。

Google Cloudのチームが試合中の会場にいて、前半のデータをワークフローに放り込み、NCAAの過去のデータも利用して分析する。ハーフタイムになったら、データをさらに分析して予想を作りだす。その技術的な詳しい説明は、Google Cloud Big Data and Machine Learningのブログで共有されている。

ハーフタイムが終わる前にGoogleは、出来立てほやほやのテレビコマーシャルをCBSとTurnerに渡し、後半が始まる直前にそれが放映される。

“スポーツイベントの実況中に自社のリアルタイム予測分析技術を利用してコマーシャルを作る企業は、うちが世界で初めてだろう”、とGoogleは言っている。

この実験はGoogle Cloudなどの技術を宣伝する方法としても巧妙だが、ファイナルフォーの予想をするテクノロジー企業はGoogleだけではない。

すべてのバーチャルアシスタント(スマートアシスタント、音声アシスタント)が、独自の予想をしている。GoogleのGoogle Assistantだけでなく、AmazonのAlexaも、MicrosoftのCortanaも、AppleのSiriも。でもそれらの一部は、本物のデータサイエンスを利用した予測というより、人が書いた意見のようだ。

このGoogleとNCAAのデータサイエンス/機械学習の実験には、そのためのWebサイトもある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

時系列データベースで次々とエンタープライズ顧客を獲得しているInfluxDataがシリーズCで$35Mを調達

センサー群がどんどん増える一方のデータを絶えず捉(とら)まえているような世界では、その大量のデータを収集して時間軸の上でそれを測る技術がますます重要になる。オープンソースの時系列データベースInfluxDBの実装や管理サービスを提供するInfluxDataが今日、Sapphire VenturesがリードするシリーズCのラウンドで3500万ドルを調達したことを発表した。Sapphireは、エンタープライズソフトウェアの大手SAPの投資部門だ。

前からの投資家Battery Ventures, Mayfield Fund, およびTrinity Ventures, そして新たな投資家としてHarmony Partnersもこのラウンドに参加した。これでInfluxDataの資金調達総額は6000万ドル近くになる。

時系列データベースはその名の通り、データを素早く捕捉計測して、その時間上のトレンドを見るためのデータベースだ。InfluxDataのCTO Paul Dixは時系列ツールのニーズがあることを知って、2014年にオープンソースのツールキットの開発を始めた。それはGitHub上でたちまち評判になった、とCEOのEvan Kaplanは言っている。今では12万のサイトがInfluxをオープンソースで利用し、400のエンタープライズ顧客が同社のプラットホームを使っている。

デベロッパーがInfluxのツールを使って時系列アプリケーションを作ることもできるが、エンタープライズのスケールやセキュリティや可用性が必要なら、商用バージョンのプロダクトを買う必要があるだろう。“Influxを大きなプロダクションで本格的に動かしたいなら、クローズドソースのバージョン(商用バージョン)を買うべきだ”、とKaplanは語る。

その商用バージョンは立ち上げてからまだ18か月だが、早くからIBM, SAP, Cisco, PayPal, Tesla, Siemensなど代表的なエンタープライズブランドが顧客になっている。

SapphireのパートナーAnders Ranumによると、同VCはこれからの新しい市場機会に目をつけていて、それを先取りしたいから投資をした。“機械学習や物のインターネット、人工知能などの新しい能力を企業が使いこなさなくてはならなくなると、その企業で日々得られるすべてのデータを捕捉分析してスマートな意思決定に結びつけていくことが、彼らにとって急峻な障壁になる”、とRanumは声明の中で言っている。彼が信じているのは、時系列ツールがそんな企業を助ける、ということだ。

同社には今80名の社員がいるが、本日得られた資金により、これを年内に倍にして、プロダクトの成長を促進したい。今日の投資の一環として、SapphireのRanumがInfluxの取締役会に加わる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AlphabetがXムーンショット生まれのサイバーセキュリティ企業Chronicleをローンチ

あなたが、まだ間違って“Google”と呼んでるかもしれないAlphabetが今日(米国時間1/24)、新しいサイバーセキュリティ企業Chronicleのローンチを発表した。それは、企業のハッカー検出と撃退能力を高めることがねらいだ。ChronicleはAlphabetのXムーンショットグループから巣立ち、今ではGoogleなどと同じく、Alphabet傘下の単独企業だ。

Google VenturesからXに入り、その前はSymantecのCOOだったStephen Gillettが、この新会社のCEOになる。

最初にChronicleは、二つのサービスを提供する: 企業向けのセキュリティインテリジェンスとアナリティクスのプラットホームと、マルウェアやウィルスをスキャンするVirusTotalだ。後者はGoogleが、2012年に買収したセキュリティ企業だ。

Gillettが書いた記事によると、Chronicleの基本的な目的は、企業のセキュリティの盲点や死角を取り除き、企業が自分たちのセキュリティの全容を細部まで明確に把握できるようにすることだ。Gillettはこう書いている: “企業のセキュリティチームのスピードと実効性を今の10倍にしたい。そのためには、彼らにとってこれまで見つけることが困難だったセキュリティ関連のさまざまなシグナルを、容易に、はやく、そして低コストで捕捉分析できるようにしてあげることが、重要だ。Chronicleが提供するインテリジェンスとアナリティクスのプラットホームは、それを可能にする”。

XのCaptain of Moonshots(ムーンショットのキャプテン)、Astro Tellerによると、“企業のセキュリティチームが攻撃を見つけて調べるために必要な情報は、その企業の既存のセキュリティツールやITシステムの中にある。しかしそれらは膨大な量のデータの中に隠れているから、簡単には見えないし、理解も利用もできない”。

Chronicleのプラットホームは目下構築中で、まだその全貌は見えない。GillettによるとそれはAlphabetのインフラストラクチャの上で動き、機械学習と高度な検索能力により、企業によるセキュリティデータの分析を助ける。そしてChronicleのサービスはクラウドから提供されるので、“企業のニーズの伸縮に応ずる柔軟性とスケーラビリティがあり、企業自身が新たなセキュリティソフトウェアを実装したり管理する必要がない”。

このような、クラウドからのセキュリティサービスはChronicleが初めてではなく、ログを分析する専門企業もあり、またIBMなどもエンタープライズ・セキュリティには力を入れている。そんな競合環境における、Chronicleの差別化要因が何になるのか楽しみだ。

現時点で提供できる詳細情報があまりないことは、Alphabetも認めているが、今Chronicleのサービスは、いくつかのFortune 500社の協力により、アルファテストを行っている。

Chronicleは今日(米国時間1/24)の午後プレスコールを行うので、サービスの詳細が分かり次第、この記事をアップデートしたい。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSがIoT専用のデータ分析ツールAWS IoT Analyticsをローンチ、機械学習にも対応

物のインターネット(Internet of Things, IOT)は、近未来のもっともホットなテクノロジー、今やどこのカンファレンスへ行っても主役級の扱いだ。IoTという技術の突出した特徴のひとつが、多くのデバイスが常時大量のデータを吐きつづけること。そしてそれらのデータの意味を知ることが、システムの重要な課題になる。そこでAmazon AWSは、独自のIoTアナリティクスサービスAWS IoT Analyticsを、今日(米国時間11/29)のre:Inventカンファレンスで立ち上げた。

AWSのテクニカル・エヴァンジェリストTara Walkerブログ記事によると、このサービスの究極の目的はIoTが吐き出すデータをすべて管理することだ: “AWS IoT Analyticsを利用して、メッセージを処理したり、大量のデバイスデータを収集保存したり、データをクェリしたりできる。このサービスはデータ視覚化サービスAmazon Quicksightや、オープンソースのデータサイエンスツールJupyter Notebooksを統合している。後者によって、データを機械学習で処理することも可能だ”。〔参考記事

上記の最後の部分は、センサーやデバイスからやってくるデータをベースに機械学習のモデルを作るときに便利だ。AWSが今日発表した、機械学習のモデル制作支援ツールSageMakerも、やはりJupyter Notebooksをサポートしている。

IoTから出てくる膨大な量のデータをユーザーが直接、QuickSightのような汎用ツールで処理するのは酷である、と考えたAmazonは、このAWS IoT Analyticsという専用ツールを作ったのだ。しかもQuickSightでは、何が起きたのかを見ることはできても、これまでのデータの傾向に基づく予測ができない。

たとえば、このIoT Analyticsを使えば、工場などの機械が実際に故障する前に、メンテナンスが必要である状態を知ることができる。本番稼働時に急に停止するのではなく、ユーザーが自分の意思で余暇時間などにメンテできる。

このIoT専用のアナリティクスツールは、IoTのセンサーからのデータを収集、保存、そしてクェリでき、特定のデータ集合を一定の時間間隔で取り出すことができる。

Amazonが汎用のBI(ビジネスインテリジェンス)サービスAmazon QuickSightを立ち上げたのは、2015年だ。

画像提供: Bloomberg/Getty Images


[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Algorithmiaのプラットホームにより企業が自分たちの機械学習モデルを管理しデプロイできる

Algorithmiaという名前のスタートアップが、オンラインのマーケットプレースを開始しました。何のマーケットプレースでしょう? そう、正解です。アルゴリズム屋だからアルゴリズムに決まっています。そして、デベロッパーたちがここに出品するアルゴリズムは、顔認識や感情分析などなど、機械学習関連のものがとても多かった。

そこで、ML/AIがブームであることに気づいた同社は今日(米国時間11/15)、その方向への次の一歩を踏み出し、データサイエンティストが自分で機械学習のモデルを管理/デプロイできて、社内でモデルの共有もできる、というサービスを立ち上げた。

それは基本的に、MLのモデルを動かすために同社が作ったインフラストラクチャやサービスの一部を利用する、新しいプロダクトだ。Algorithmiaの協同ファウンダーでCTOのKenny Danielが、今日の発表声明で述べている: “Tensorflowがオープンソースでも、そのスケーリングは違う。今ではほとんどすべての研究開発事業に、データの収集とデータの整理、そしてそれによるモデルの構築が伴っている。Algorithmiaはこれまでの5年間を費やして、それらのモデルをユーザーが実際に動かしてみるためのインフラストラクチャを構築してきた”。

この新しいサービスでは、データサイエンティストが自分の好きな言語とフレームワークでモデルを作り、それをAlgorithmiaのクラウド(CODEXプラットホーム)またはオンプレミスのアーキテクチャを使ってホストする。そのために同社は、そのサービスの二つのバージョンを提供している: モデルを同社のクラウドでホストするためのServerless AI Layerと、サービスを任意のパブリックまたはプライベートなクラウドでホストするためのEnterprise AI Layerだ。

クラウドとオンプレミスどちらも、gitを使ってモデルを加えたり、モデルを社内で他と共有したり、パーミッションや認可を扱ったりできる。また、モデルのデプロイに必要なDevOpsのすべても扱う。

ここ数か月同社は、登録したエンタープライズ顧客たちによりこのサービスのベータを行っている。それには、同社のサービスを使って自分たちのモデルをホストしたいと考えている政府省庁もいくつか含まれる。

“Algorithmiaがアメリカの政府省庁に力を与えることによって、そのAI層に新しい能力を迅速にデプロイしている”、とCIAの投資部門In-Q-TelのKatie Grayは語る。“そのプラットホームがセキュリティとスケーラビリティとリソースの見つけやすさを担保するので、データサイエンティストは問題解決に専念できる”。

今年半ばにAlgorithmiaはシリーズAで1050万ドルを調達したが、そのラウンドをリードしたのはGoogleが新たに作った、AIに特化したベンチャーファンドだった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

水は身近すぎて忘れられている問題、研究者たちは将来に備えてネット上の情報共有化を提案

蛇口から出る水は、どこから来ているのだろう? どのようにろ過され、浄化されているのだろう? 1ガロン(約4リットル)の水を利用者に送るために要する市や州の費用はどれぐらいだろう? それはもっと安くできないのか? きれいな水がますます貴重な資源になってくるにつれて、あれやこれやの疑問が自然に湧いてくる。それらの疑問に答えるためには、オープンに共有される‘水のインターネット’(internet of water, IoW)が必要だ、デューク大学とアスペン研究所(Aspen Institute)の研究者たちはそう考えている

干ばつや洪水のような自然災害や、過密都市や工場廃液のような人災、これらの被害者である水系は酷使され無理解にさらされている。各地の行政や公共事業体は、水の使用に関するデータを大量に作っているが、国レベルのデータベースはほとんどなく、国や世界の標準に合ったオープンなデータベースとなると、なおさらない。

“人間と水に関しては、データは多いけど情報は乏しい”、デュークのニコラス研究所のMartin Doyleが説明する。“水のデータがオープンに共有され、みんながよく使うデジタルのプラットホーム〔Google検索など?〕に統合されたら、一般市民が地元の水質を測れるようになり、行政は水に起因する健康危機を早めに警報できるようになるなど、水をめぐる社会状況が一変するだろう”。

それは、ミネアポリスの水道局の人がフェニックスの1ガロンあたりの水道料金を知りたい、というレベルの問題ではない。むしろそれは、有意義なビッグデータがみすみす捨てられていた、という問題だ。視野を広げればより多くのデータが得られ、システムの一部を最適化するための意思決定の質も向上する。マクロとミクロの両方のレベルで。

しかしデータの収集と分析にはお金がかかり、国レベルの情報共有システムともなるとさらにお金が要る。そこで研究者たちの結論は、それをすることのメリットを分かりやすい言葉で説得していくことだ。結局のところ、お金の余裕のない州当局が、既存の実際に役に立っているサービスではなく新奇なデータプロジェクトに数百万ドルを投じるとしたら、そこまでする動機やメリットはなんだろうか?

研究者たちは、水と水のデータが極端に軽視されている、と断言する。カリフォルニアで最近の大規模な干ばつのとき行われたような、既存のデータ収集努力を検分することによって、オープンなデータにアクセスできることの具体的な利点を示せるのではないか、とも期待している。

それでも、こんな状況は、きれいな水の入手にはまったく問題がなく簡単でやさしい、ということを意味しているのではない。水不足や季節変動は、自然資源が今後さらに枯渇し、人口が増加するに伴って、ますます深刻になる。

“有限な水資源に対して需要は成長している。適正なトレードオフを見つけるためには、オープンで誰もがアクセスできるデータが必要だ”、カリフォルニア州水管理委員会のGreg Gearheartはそう語った。

デュークのチームが好んでそう呼ぶ“水のインターネット”は、すべての自治体からの、水に関するあらゆる種類のデータが集まるクリアリングハウスだ。関心を持つ一般市民や、行政府のデータサイエンティスト、それにアプリケーションのデベロッパーなど、誰もがそれにアクセスできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの検索でいちばん多い‘ハウツー検索’は何か?国別カテゴリー別に分かるサイトを立ち上げ

GoogleのNews Labが、検索のデータを利用する新しいWebサイトを立ち上げた。対話的ビジュアルデータが専門のジャーナリストXaquin G.V.が協力している。このサイトは、何らかの“ハウツー”を知ろうとする検索に関連したデータを集めているが、実はGoogleの検索ではこの「ハウツー検索」がとても多いことに、最近彼らは気づいたのだ。

このサイト上のビジュアルエッセイでXaquinが書いているところによると、彼は自分の検索経験からこれを思いついた。家にいると、自分には知識も経験もない小さな事件や事故がよく起きて、途方に暮れるのだ。ぼくもそう思う。トイレの水洗機能を直したり、ドアベルの配線をしたり、そんな単純なことでいつもGoogleを長時間利用してしまうのだ。

この新しいサイトはXaquinがデザインし、Google検索とそのTrendsツールを利用している。サイトを訪ねたユーザーはまず、ハウツーのトレンドを知りたい国の名前を入力する。自分の国でなくてもよい。すると、家の中の何/どこの修理に関する検索が多いかが、上図のようなイラストとともに表示される。たとえばカナダでは、ドアの修理がいちばん多く、次いで冷蔵庫やトイレの修理も多い。

世界中のハウツー検索の‘トップ100’も載っている。なかなか参考になる。それら100種はカテゴリーで分類され、その検索頻度が視覚化されている。

多くの人が知りたがっているのは、パンケーキの作り方、お金の儲け方、体重の減らし方、卵のゆで方などだ。キスの仕方、妊娠する方法、ネクタイの締め方、などを尋ねる人たちも、実は少なくない。あ、これはぼくも/わたしも知りたいな、と思ったら、イラストの上をクリックすると実際の検索結果のページへ行く。

サイトは、モバイルでも見やすいようにデザインされている。Google News Labのデータ編集者Simon Rogersによると、こういうビジュアルなストーリー展開を実験するのは、今後のモバイルのパフォーマンス向上対策のためでもある。そのためにはまず、オーディエンスの何割がモバイルで見ているかを、知る必要がある。

また、Googleの検索や、そこからの派生データが、将来のデータジャーナリズムや、人びとの興味をひく記事の構成および展開に、どのように利用されうるか、それを知りたいという目的もある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

インメモリデータベースのRedis Labsが$44Mを調達、データベースもスタートアップによる革新の波が

インメモリーデータベースを専業とするRedis Labsが今日(米国時間8/21)、Goldman Sachsが率いるラウンドにより4400万ドルを調達したことを発表した。

Redis Labsはそのほかのオープンソースのデータベース企業と同じく、技術そのものは無料、企業のお世話は有料、というビジネスモデルだ。つまり誰でもその技術を利用して何かを作れるが、企業のデータベースの管理は十分な能力を持つわれわれにお任せください、というタイプだ。

同社が提供するデータベースは、サーバーのメモリ上で操作されるので速い。しかし企業ユーザーがその速さを享受できるためには、NoSQLデータベースをはじめとして、それなりの知識技能が必要だ。Redis Labsの今回の資金調達や、この前のMongoDBの非公開IPOなどを見ると、データベースのスタートアップはこのところ追い風と言えそうだ。

Redis Labsのオープンソースバージョンは誰もがローカルにホストできるが、有料の企業ユーザーにはそれをクラウドに置くオプションがある。つまり企業は、自分のリソース(計算機資源)を使わずにその技術を利用できるのだ。

このモデルで成功している例としてDockerやClouderaが挙げられる。後者は好調なIPOを達成ししたが、最近は平凡だ。前者は、Bloombergによると、13億ドルの評価額で資金調達中と言われる。

Redis Labsのこれまでの調達総額は8600万ドルになる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

企業の非技術系一般社員でも機械学習を利用できるようにするH2O.aiのDriverless AI

Driverless AIH2O.aiの最新のプロダクトで、企業におけるデータサイエンスの活用の、敷居を低くすることをねらっている。このツールは、非技術系の社員たちを助けて、データの準備、パラメータの調整、当面の問題に対する最適アルゴリズムの判断などのタスクを、機械学習を利用して行う。

機械学習で解こうとする問題は、研究者のレベルでは複雑で予測不可能なものが多い。前例のないユースケースでGANや強化学習などの新しい技法を使っていくためには、高い技術力が必要だ。しかし企業が機械学習を使っていく場合は、比較的予測可能な問題が多い。たとえばサポートベクターマシンを使ってデフォルト率を評価する、など。

でも、そんな比較的簡単な問題でも、非技術系の社員の手には負えないことがある。企業は営業や人事など、データ分析とは無縁だった分野でも、最近ますますデータサイエンスを利用しようとしているが、そのために彼らを再教育するのはコスト的にたいへんすぎる。

H2O.aiのプロダクトはどれもAIを使いやすくしてくれるが、でもDriverless AI(運転者不要のAI)はさらに一歩進んで、モデルを準備するときに必要な難しい決定の多くを自動化する。Driverless AIは、feature engineering(特徴量工学、特徴量の選択・作成・変換)を自動化する。特徴量とは、いろんな変数/変量がある中で、モデルの構築に利用すべき重要な変数変量のことだ。

Driverless AIにはよく使われるユースケースが組み込まれているが、どんな機械学習の問題でも解ける。うまくいけば標準的なモデルを見つけて十分にチューニングし、そのロングテールの少なくとも一部を自動化する。

同社は1月にDeep Waterをローンチしたとき、今日のリリースを暗示した。Deep Waterは、ディープラーニングとGPUを一般ユーザーが利用するためのプラットホームだ。

機械学習による自動化は、まだまだ初期的段階だ。GoogleのCEO Sundar Pichai は今年のI/Oカンファレンスで、試行錯誤と大量の計算処理で機械学習の問題を解くための、最良のモデルと特徴を自動的に選び出すAIツールを作っていると述べて、会場をどよめかせた。

Driverless AIはAIを非技術系ユーザーのために民主化し抽象化する旅路の第一歩だ。ダウンロードして実験してみたい人は、ここからどうぞ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

データ駆動型組織になるための5つの構成要素

【編集部注】著者のCarl Andersonは、“Creating a Data-Driven Organization”の著者。以前はWarby ParkerとWeWorkでデータ分析、データサイエンスを担当していたが、現在はWeWorkのプロダクト研究部門のメンバーである。もう一人の著者のTianhui Michael Liは、PhDたちやポストドクたちの、学界から産業界への移行を支援する8週間のフェローシップであるThe Data Incubator創業者。以前はFoursquareでデータサイエンスの収益化を指揮しており、Google、Andreessen Horowitz、JP Morgan、DE Shawでの勤務経験がある。

組織はデータを戦略的資産としてどのように活用できるだろうか?データとは高価なものだ。企業は、データの収集とクレンジング、ホスティングとメンテナンスを行い、データエンジニアや、データサイエンティスト、そしてデータアナリストの給与を支払い、様々な違反のリスクなどに備えなければならない。

必要なものは積み上がるばかりだ。しかし、もし成功すれば、繁栄するデータ駆動型組織は、大きな見返りを得ることができる。他の要因を補正した上で、MITのSloan School of ManagementのErik Brynjolfssonたちは、データ駆動型の企業は、データ駆動の不足している企業よりも、5〜6%高い生産量と生産性を備えていることを発見した。また、資産利用率、株主資本利益率および市場価値も高いことが分かった。また他の調査によれば、データアナリシスは1ドルの投資に対して13.01ドルの見返りがあるという。データ駆動型であることは十分に引き合うのだ!

データ駆動型であるためには、高品質のデータ、広範なアクセス、データリテラシー、適切なデータ駆動型の意思決定プロセスなど、多くの要素を結びつける包括的なデータカルチャーが必要だ。この記事では、こうしたいくつかの主要なビルディングブロックについて説明する。

事実の単一情報源

事実の単一情報源(a single source of truth)こそ、会社全体から参照することのできる、中心的で、コントロールされ、「恵まれた」データの源だ。それがマスターデータとなる。そのようなデータを持たず、スタッフたちが異なるシステムから似たようなメトリックを引き出すことができてしまうなら、必然的にそれらのシステムからは異なる数字が生成される。そうなると議論になってしまう。「あちらはああ言った、こちらはこう言った」という議論に巻き込まれて、それぞれの立場からの「事実」を引き出して自らの立場を守ろうとするシナリオに入るのだ。あるいは(そしてより残念なケースでは)よりましな情報源を使える筈だったのに、古くて品質の低い、あるいは間違ったデータや指標を知らずに使ってしまい、悪い決定を下すチームも出てしまうかも知れない。

事実の単一情報源を持っている場合には、アナリストや他の意思決定者といったエンドユーザーたちに、優れた価値を提供することができる。彼らは組織内でデータを探す時間が少なくて済むようになり、データの利用により多くの時間を割くことができるようになるからだ。さらに、データソースはさらに整理され、文書化され、統合される可能性が高くなる。したがって、関心のあるエンティティについてより豊富なコンテキストを提供することによって、ユーザはデータを活用し、応用可能な洞察を見つけることがやり易くなる。

データの入手先を知り、質の高いデータを提供することは、要素の1つにすぎない。

データ管理者側からみても、事実の単一情報源は望ましい。これによって、文書化を行うこと、テーブル間での名前の衝突を防ぐこと、データ品質チェックを実行して、基礎となるIDがテーブル全体で一貫していることを保証することが容易になる。また、さまざまな情報源からもたらされる可能性のある、主要な関係やエンティティに対する、俯瞰可能で簡単に作業できるビューを提供することもより簡単になる。

たとえば、コワーキングスペースのグローバルプロバイダであるWeWorkでは、アナリストたちに「アクティビティストリーム」と呼ばれるコアテーブルを提供している。これはWebページビュー、オフィス予約、ツアー予約、支払い、Zendeskチケット、キーカードのスワイプ履歴などを提供する、1つの絞り込まれたテーブルだ。このテーブルは、会員やロケーションに従って、ユーザーたちがスライスしたり細切れにするといった作業が容易にできるようになっている。実はこうしたデータは実際には様々な異なるシステムからやって来ているのだ。さらに、ビジネスのこの集中化された、全体的な視点を持つことで、これらのデータの上にさらに多くの自動化されたツールを構築して、多数の異なるセグメントの中にパターンを探すことができることを意味している。

大規模な組織では、歴史的な理由でデータがサイロ化されている場合が多い。例えば、大企業は、企業買収によって他社のデータシステムを取り込む可能性が高く、その結果独立したシステムが追加されていく。したがって、事実の単一情報源のためには、大規模で複雑な投資が必要となる可能性がある。しかし、そうした作業を進めている最中にも、中央データチームまたはオフィスは、公式な指針を提供することによって、大きな違いを生み出すことができる。例えば何がデータとして存在しているのか、それは何処にあり、また複数の情報源がある場合何処が一番取得するのに適した場所かなどだ。「お客様の注文データが必要な場合は、システムXまたはデータベーステーブルYを使用すること」そしてそれ以外には存在しないこと。が全員に徹底していなければならない。

データ辞書

データの入手先を知り、質の高いデータを提供することは、要素の1つにすぎない。利用者はデータフィールドとその値(メトリクス)の意味を知る必要がある。データ辞書が必要だ。これは多くの組織を躓かせる視点だ。メトリクスとその定義の明確なリストがない場合、人びとは心の中に仮定を持つことになる、おそらくそれらはそれぞれ、他の同僚が心に描いている仮定とは異なっている可能性があるだろう。そして議論が紛糾する。

ビジネスは明快で、曖昧さがなく、そして合意された定義に基く用語集を作り出す必要がある。このためには、全ての主要なステークホルダーとビジネスドメインの専門家との議論が必要だ。まず第1に、それらを公式な定義として賛同を取り付ける必要がある。各チームがそれぞれの秘密のメトリクスを使って裏作業をすることは望まないはずだ。第2に、人びとの理解が異なるのは、核になる定義ではなく、その周辺のエッジケースである場合が多い。このため、「注文受付」メトリクスについては全員が理解しているとしても、キャンセル、注文分割、不正についてどのように処理するかについての認識は、ズレている可能性がある。

これらのシナリオは、提示され、議論され、そして解決される必要がある。ここでの目標は、複数の類似したメトリクスを単一の共通メトリクスにまとめることだ。あるいは多くの側面に対応するために、ある1つのメトリクスを、2ないしそれ以上のメトリクスに分割する状況を具体化することだ。

中心的な情報源から明確なメタデータと共に、クリーンで高品質なデータが得られるとしても、もし担当者がアクセスできない場合には効果的ではない。

たとえばWeWorkでは、メンバーシップを検討している人たちは、ツアーに申し込むことで、施設内容を見学することができる。重要なことだが、複数のロケーションを見学したり、実際に契約を結ぶ前に同僚に見せようと2度目のツアーに申し込んでくる人もいる。私たちの様々なダッシュボードには、「ツアー」というメトリクスが表示されていたが、それらはチーム間で一貫してはいなかった。データ辞書を作成するプロセスで、2つの異なるメトリクスの具体化に繋がった。

  • “Tours completed-Volume”(ツアー終了数)は、ツアーの絶対数を記録している。このメトリクスは、ツアーを担当するコミュニティチームがチェックしている。
  • “Tours completed-People” (ツアー終了人数)は、ツアーに参加した重複を省いた人間の数をキャプチャしたものだ。これにより、営業チームとマーケティングチームが追跡する、リードコンバージョンメトリクス(成約率メトリクス)が得られる。

ここでは、適切に選択された名前の特定性と、例を伴った曖昧さのない定義が重要だ。ユーザーがわかった気になる短い名前よりも、”non_cancelled_orders”(取り消されなかった注文)や、”Tours Created To Tours Completed Conversion%”(予約に対して実施されたツアーの比率)」といった、長くても説明的な名前をよく考えてつけることが推奨される。

広範なデータアクセス

中心的な情報源から明確なメタデータと共に、クリーンで高品質なデータが得られるとしても、もし担当者がアクセスできない場合には効果的ではない。データ駆動型の組織は、すべてを取り込む傾向があり、データが助けとなるところであれば、どこへでもアクセスを提供する。ただし、これは全てのデータに対する鍵を、全てのスタッフに渡すことを意味するものではない。CIOがそんなことを許可することはない!そうではなく、これが意味するのは、アナリストや重要意思決定者に限らず、現場の最前線にまで及ぶ組織全体に渡って、個々人のニーズを評価するということだ。

例えば、処方箋眼鏡やサングラスの小売業者であるWarby Parkerは、小売店のフロアに入る提携会社たちに、店舗全体だけでなく、個別の業績の詳細を提供するダッシュボードも提供している。サンフランシスコの宅配業者であるSprigでは、注文された食事を分析したり、人気のある(あるいは不人気な)食材や味を理解し、メニューを改善するために、シェフたち自らが分析プラットフォームにアクセスすることもできる。

The Data Incubatorのフェローシップから、データサイエンティストを雇用しているある大規模なFortune 100金融コングロマリットは、データサイエンスチームへの広範なアクセスを許可することが、Google、Facebook、Uberなどの「セクシー」なシリコンバレー企業にも負けない、雇用上の魅力を保つことができている一因になっている。そしてそのアクセスは何もデータサイエンティストたちだけに止まるものではない。私たちの元同僚が取り組んでいたプロダクトの1つは、カスタマーサービス担当者たちに顧客との電話でのやりとりの履歴を視覚化して示す、サマリダッシュボードだった。

データ駆動型組織では、個々人がどんなデータが存在しているのかを知っているような文化を醸成する必要がある。

怒っている顧客に対面しているカスタマーサービスや、損傷したプロダクトを載せたパレット(荷物台)を目の前にした倉庫係といった現場のスタッフ自身が、データを即座に活用して、最善の次のステップを決めることができるようになるのだ。適切な権限を与えられれば、現場のスタッフは、状況を解決したり、ワークフローの変更を判断したり、顧客の苦情を処理したりするのに最適な立場にいるのだ。

データ駆動型組織では、個々人がどんなデータが存在しているのかを知っているような文化を醸成する必要がある。良いデータ辞書と、日々意思決定に使われるデータを見ていることがその役に立つ。そしてもし心から必要とするユースケースがあるのなら、データのアクセスを要求することでスタッフたちのやる気が高まることになる。適切な承認プロセスと監督機能があり、必要に応じてアクセス権限を簡単に取り消すことのできるようなシステムがあるならば、スタッフが飛び越える必要のある多すぎるハードルと不要な長すぎる遅延を取り除くために、お役所仕事は改めるべきなのだ。

最後に、より広範なアクセスと、分析ツールのユーザーを増やすことで、組織はトレーニングとサポートの提供に取り組まなければならない。WeWorkでは、Slack、電子メール、そしてサービスデスクのチケットを利用してデータチームを利用できる一方で、ビジネスインテリジェンスツール、SQLクエリ、およびデータに関するその他の側面について、ユーザーを支援するための物理的なオフィス開放時間を、毎週決まった時間に提供している。

データリテラシー

広範なデータアクセスを持つデータ駆動型組織では、スタッフは頻繁にレポート、ダッシュボード、分析結果を見ることになり、データ自体を分析するチャンスも得られる。それを効果的に行うには、十分なデータリテラシーを持っていなければならない。

データリテラシーは、多くの場合多面的な取り組みだ(このトピックに関する優れた閲覧可能なオーバービューに関しては、Brent Dykesのこの記事を参照)。The Data Incubatorでは、さまざまなスキルレベルを持つ従業員と顧客を、それぞれに合ったアプローチで結びつけている。

最もエキサイティングな分野の1つは、データサイエンストレーニングだ。これは、レコメンドエンジンやその他の予測モデルなどのデータプロダクトを作成するだけではなく、データから洞察を引き出すための、先進的計算型データマイニングならびにマシンラーニングアプローチへの導入をカバーしている。これはより先進的なユーザーたちが、その競争領域の中で、ピラミッドの最高レベルのスキルへと集中する傾向になりやすい。私たちの多くのクライアントにとって最も素早く結果のでるものの1つは、既にデータサイエンティストの道を半分まで進んできた者たちに対して、残りの半分の部分を訓練することだ。

例えば、医薬品や金融の顧客は、データサイエンスの統計的側面には精通しているものの、計算機の活用の最前線には疎い統計学者たちを抱えている傾向がある。一方多くのテクノロジー企業は、統計的厳密さには欠けているプログラミング能力を、豊富に持っている。統計学者をプログラミングで訓練したり、プログラマに統計学者の訓練を施すことは、より広い範囲に適用することができる、素晴らしい「迅速な勝利」なのだ。

データは、既に行われた意思決定を支えたり(あるいは覆したり)するためにあるのではなく、将来の決定を助けるために存在している

そのようなスキルを持っていない人たちには、データリテラシーを高める機会が沢山用意されている。企業はデータリテラシー訓練をすべての人に必要なものと見始めており、過去12ヶ月間には「管理者向け入門データサイエンス」コースの需要が倍増している。最も簡単で簡単なレベルは、記述統計学の基本スキルを高めることだ。これらは、平均、パーセンタイル、レンジ、標準偏差といったデータを要約するための基本的な方法で、基礎となるデータの形が適切かあるいは不適切かを判別できる。

例えば、住宅価格や収入のようにデータに大きな偏りがある場合、平均値よりも中央値の方がデータを要約するのに適したメトリクスだ。ただ人びとを、想像上の思い込みを減らし、データをプロットして調べ、適切な要約メトリクスを使用するように訓練するだけで、大いなる成功となるだろう。

また別の成功がデータの視覚化スキルからやってくる。あまりにもしばしば、チャート上にはゴミが溢れかえっている。つまり、要点を損なう不必要な乱雑さや注釈などだ。あるいは、不適切なタイプのチャートが使われていることもある。多数のセグメントを持つ複数の円グラフや、解釈がほぼ不可能に近い色分けが選択されているものなど。

膨大な努力をデータの収集と分析だけに費やすのは悲劇だ、失敗が待っているだけだし、最終的なデータのインパクトも減じてしまう。ほんのわずかのデータ視覚化トレーニングだけでもとても役に立ち、人びとのプレゼンテーションスキルを大幅に改善し、洞察をより明確にし、より理解しやすく、そして最終的には利用される可能性を引き上げてくれる。

次に複雑なレベルのものは、推測統計学だ。これは、例えば週毎のウェブサイトのトラフィックの傾向や差異が、本物なのか、あるいは単なるランダムな変化なのかかどうかを検出するために使用される、標準的で客観的な統計的テストだ。ここでの目的は、マネージャや顧客サービス代理店がこれらのテストを実行できるようにするのではなく、彼らが統計がどのように使用できるかを認識し、相関関係と因果関係の違いを知り​​、予測には常に不確実性が伴うことを正しく理解させることだ。意思決定者やマネージャーにとっては、これはまた粗雑な仕事や、データから結論が導かれないような結果を、差し戻すための強力なスキルとなる。

意思決定

データは意思決定プロセスに実際に組み込まれている場合にのみ、影響を与えることができる。組織は、高品質、タイムリー、そして関連性が高いデータと、洞察と推奨を与えてくれる素晴らしいレポートを慎重に作成することができる、高いスキルのアナリストを揃えることができる。しかし、そのレポートが開かれないまま机の上に鎮座していたり、受信トレイで未読のままであったり、意思決定者がデータの内容にかかわらず、何をするのかを既に決めてしまっていたとしたら、すべては無駄である。

Avinash Kaushikによって提唱されたされた用語、HiPPO (“highest paid person’s opinion”:最高額報酬取得者の意見)はデータ駆動性へのアンチテーゼだ。全員にとってお馴染みのことだろう。彼らは何十年もの経験を持つ専門家だ。特にデータが彼らの先入観に反する場合には、データが何を言っているかは気にせず、彼ら自身の計画に執着する。なにしろ彼らは最善を知っているのだ、そして何はともあれ、彼らは上司なのだ。フィナンシャル・タイムズが説明しているように:

HiPPOは、ビジネスのためには致命的なものになる可能性がある。何故なら良く理解されていないメトリクスか、あるいは純粋に想像に基づいた決定を行なうことになるからだ。顧客インタラクションの全範囲から意味を抽出し、あるアクションの裏の動き、タイミング、場所、そして理由を評価するインテリジェントなツールを、HiPPOのアプローチは利用しないので、企業にとって重大な障害を与える可能性があるのだ。

しばしは組織というものは直感に価値が置かれたり、説明責任が欠如した文化が蔓延していることがある。ある調査によれば、意思決定者たちが組織における意思決定に説明する責任を負っていると答えたのは、わずか19%だけだった。HiPPOが繁栄しているのはそのような生態系だ。

HiPPOに対抗する1つの方法は、A/B試験などの客観的実験の文化を育むことだ。これらのシナリオでは、ウェブサイトのデザインやマーケティングメッセージの変更などにかかわらず、可能な限りコントロールを行い、成功判定のメトリクスと必要なサンプルサイズを決定し、要素の1つを変更して実験を行なう。ここで重要な点は、明確な分析計画を立てて、実験を実行する前に成功のメトリクスと予測値を設定することだ。言い換えれば、計画を立てるによって、結果が出た後にHiPPOがいいとこ取りをすることを防ぐのだ。これはどんなパイロットプログラムでも同じだ。

幅広いデータリテラシー訓練の価値の一部は、ビッグデータに対して認識された脅威から生じる恐れを、和らげてくれることだ。データは、既に行われた意思決定を支えたり(あるいは覆したり)するためにあるのではなく、将来の決定を助けるために存在している。それはマネージャーの仕事を脅かすことはしない、むしろそれを無視することで、脅かされることになるだろう。データサイエンスの訓練は、データの働きを解明することで、データに対するマネージャの自信を深め、企業におけるデータ駆動型の意思決定を高めることができる。

おわりに

私たちは雇い主とクライアントの両方の仕事を通して、データ駆動型の文化は一晩で達成できるものではなく、複数のステップのプロセスの一部であることを学んだ。第1に必要なのは、分析対象となる、クリーンで単一のデータソースである。次に、データアナリストとデータサイエンティストたちは、データ辞書とそのデータの意味に同意する必要がある。次に、データ分析に対してビジネスの専門知識を適用するためには、データサイエンティストたちだけでなく、組織全体がこのデータに幅広くアクセスする必要がある。データへのアクセス権が与えられると同時に、データリテラシーを強化するための適切なトレーニングが必要となる。そして最後に、意思決定に影響を及ぼすために、これらのすばらしいデータ分析をすべて、データを信頼するマネージャーの手に渡す必要があるのだ。

[ 原文へ ]
(翻訳:Sako)

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Airbnbが社内にデータサイエンス大学を開校、非技術系一般社員も対象

テクノロジー企業と、最近ではますます多くの一般企業が、データサイエンティストの不足にあえいでいる。どの企業にも独自の雇用と教育の戦略はあるが、Airbnbはさらに一歩進んで、独自のコース番号までつけた、大学みたいな社員教育事業を立ち上げた。

そのData UniversityでもってAirbnbは、全社員を“脱データ音痴”するつもりだ。CourseraやUdacityのような一般的なオンラインコースでは、データとツールに関するAirbnb独自のニーズが満たされない。そこで同社はコースの設計から自社で取り組み、社員のニーズに合わせてそれらを3段階のコース番号レベルに分類した(下右図)。

100のレベルは、人事や企画の人たちも含め、全員が受講できる「データに基づく意思決定」。

中級クラスはSQLやSuperset(Airbnb製オープンソースのデータ可視化ツール)を勉強して、一般社員でもプロジェクトマネージャーになれる。上級のPythonや機械学習のコースでは、技術系社員がスキルをブラッシュアップする。

2016Q3に立ち上げたこの事業により、同社のデータサイエンスツールの各週のアクティブユーザー数がそれまでより30〜45%増えた。同社の500名の社員がすでに、少なくとも1つのクラスを受講している。まだ、全世界22のオフィスに全展開してはいない。

Airbnbはこれまで4度、データサイエンスの教育事業をトライしている。分析実験チームのプロダクトマネージャJeff Fengによると、その経験から得られた重要な教訓が三つある:

  • 誰もがとっつきやすいカリキュラムを設計すること
  • 上級管理職が部下部員に対してデータ能力の重要性/必要性を喚起すること
  • 成功を測る方法を見つけること

ほかの企業が社内でデータサイエンスのコースを立ち上げるときも、これらが参考になるはず、とFengは言う。この事業は、かつてGoogleを他から大きく差別化することに貢献した社内クラスを参考にしているようだ。Googleの場合は技術系のコースと一般コースの両方があり、データの視覚化も教えるし、簿記も教える。

Airbnbは、その初級データサイエンスクラスの開設にあたって、それが技術者だけを対象とするものではない、と訴え、そして、より本格的に技術を学びたい者のために今後もっと上のレベルの上級クラスをひらく、と声明している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Clouderaは株式市場へのデビュー初日を20%アップで終える、前途は明るいというが損失は続く

ビッグデータ分析のトップ企業Clouderaは、IPOで15ドルをつけ、その日の終値はそれから20%強増の18ドル9セントになった。これもClouderaの予測12〜14ドルを上回っている。

株価の上昇は新たな投資家にとって良くても、その結果は一部の社員にとっては大きな幻滅だ。彼らが同社の最後のプライベートラウンドの後でチームに参加した場合は、報酬株式の価額が下がったことになるからだ。Clouderaの時価総額は今約23億ドルだが、Intelが2014年に与えた41億ドルの評価額より相当少ない。この、最近ますます一般的になってきた現象は、“ダウンラウンドIPO”とあだ名されている〔IPOで評価額が下がること〕。

しかしCEOのTom Rileyは本誌TechCrunchのインタビューで、“今後の確実な成長が見込めるからそれは問題ではない”、と力説した。株式市場におけるパフォーマンスは良いから、いずれ40億ドル+には達するだろう。2015年に上場したSquareは、上場前の市場評価額の半分でスタートし、その後株価は倍増した。

同社は2008年以来10億ドルあまりを調達している。Intelが最大の株主で、IPOの前には同社の22%を所有していた。Accelが16.3%、そしてGreylock Partnersが12.5%を握っていた。

Clouderaは、銀行や通信企業など、幅広い業種部門に顧客を抱えている。同社は、テロ対策のためのインテリジェンスサービスも提供している。

“弊社の顧客は、それまでアクセスできなかった新しいデータを活用して、彼らの顧客に関するより良いインサイトを得ている”、とRileyは語る。

Clouderaの売上は伸びていて、1月に終わった会計年度の売上2億6100万ドルは、前年度の1億6600万ドルを大きく上回った。

損失は1億8632万ドルで、前年度の2億300万ドルから減少した。しかしIPO申請書のリスク要素の節には、“今後もしばらくは継続的に純損失を負うことが予測される”、とある。

今後は競合がClouderaにとって大きな障害物になると思われるが、Releyは“うちは大企業専門だから大丈夫”、と言う。しかし同社のS-1申請書には、競合他社の長いリストがあり、そこにはHP, IBM, Oracle, Amazon Web Services, Hortonworksなどの名が挙げられている。

IntelとClouderaは協働して、データ処理のスピードとセキュリティの改善に努めている。両社が共同で“パフォーマンス向上のためのソフトウェアとハードウェアを設計している”、とRileyは語る。IntelはClouderaの上場に際してその株式を買い増しした。

Morgan StanleyとJP Morgan、そしてAllen & CompanyがIPOの引受銀行だった。同社は“CLDR”の チッカーでニューヨーク証券取引所に上場した。

先月はSnapが2017年のテクノロジー企業のIPOの口火を切り、市場を覚醒させた。そしてその後は、MuleSoft, Alteryx, Yext, Okta, Netshoes, Carvanaと公開市場へのデビューが続いた。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ボールと選手全員にセンサーをつけてバスケの試合をリアルタイムで分析するShotTracker、ファン用アプリもある

今週のクールなスポーツハードウェアは、こいつだ:

カンザスシティーのShotTrackerが作ったチーム用のシステムは、バスケットボールの試合の最初から最後までの経過データをリアルタイムで収集分析する。そのデモが、今週カンザスシティーで開催されているトーナメントNAIA D1 Men’s National Championshipの、31の出場チームすべてに対して行われている。トーナメント戦用のリアルタイムの自動化データ収集システムは、これが初めてだ。

まず、各選手は自分の靴紐に小さなセンサーを結びつける。ボールの内部にも、センサーがある。そしてコートの周囲にも、垂木の高い位置にセンサー〔受信器?〕があり、ボール内と各選手のセンサーの位置を追う。10名の選手とボールがコート内にあるかぎり、それらの位置をリアルタイムで追い続ける。

そのデータから、各瞬間の選手とボールの位置と動きが三次元で分かるが、システムはそれらのデータをリアルタイムで分析する。そしてユーザーには、シュートチャートや、シュート試投、その成功、失敗、ターンオーバー、アシスト、スチール、リバウンド、などがいつどこで起きたか分かる。

  1. naia_tourny91.jpg

  2. naia_tourny6.png

  3. naia_tourny2.png

監督とチームはそれらのデータにリアルタイムでアクセスでき、観客のファンたちもShotTrackerのアプリで見られる。以前はデータの収集も分析も複数の人間による人力だったので、お金のないチームにはできなかった。

ShotTrackerが最初にローンチしたのは、アマチュアの選手がシュートのフォームを改善するためのハードウェアデバイスだった。そしてそのあと、今の、リアルタイムでデータを分析するチーム用製品に方向を変えた。

同社は最近、Magic Johnsonと元NBAのコミッショナーDavid Sternから500万ドルのシード資金を調達した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))