AmazonのComprehend Medicalサービスは機械学習を利用して患者の記録から有意な医療データを取り出す

【抄訳】
Amazonが、機械学習を利用して患者の記録から重要なデータを取り出し、病院などのヘルスケアプロバイダーや研究者たちの費用節約や治療方針の決定、臨床試験(治験)の管理などを助ける新しいサービスを立ち上げた。AmazonがAmazon Comprehend Medicalとよぶこのサービスの発表は、火曜日(米国時間11/27)に、The Wall Street Journalがそれを報じた直後に行われた。

このクラウドソフトウェアはテキスト分析と機械学習を組み合わせて、処方や注記、面談の音声、検査の結果、などから成る患者の記録を読む。これらの記録がデジタイズされてComprehend Medicalにアップロードされると、診断や処置、薬の処方、そして症状などに関する情報が拾い上げられてまとめられる。

〔参考記事: Amazon Comprehendとは…「Amazon Comprehendでは機械学習の技術とは無縁なデベロッパーでも専門用語で自然言語処理モデルを訓練できる」〕

Amazonの最近のヘルスケアへの進出としては、オンラインの処方箋サービスPillPackを10億ドル近くで買収したことや、Amazonの社員のヘルスケアを改善するための、Berkshire HathawayとJP Morgan Chaseとのジョイントベンチャーが挙げられる。これらにより同社は、最近ますますヘルスケアにフォーカスしているそのほかの大手テクノロジー企業の仲間入りをしている。

たとえば今年初めにAppleは、iPhoneのユーザーが自分の病院の医療記録を見られるための機能をiPhone上に導入した。またGoogleは最近、大手医療法人Geisingerの前CEODavid Feinbergを雇用して、検索やGoogle Brain, Google Fit, Nestなど多岐にわたるGoogleの各事業部門が抱えるヘルスケア企画の、一元化と全体的な指揮を彼に委ねた。

今日の発表声明の中でAmazonはこう言っている: “これまでは、この情報を見つけるために長時間の手作業を要し、しかもそのために、高度な技能を持つ医療エキスパートによるデータ入力や、情報を自動的に取り出すためにデベロッパーのチームがカスタムのコードとルールを書く必要があった”。そして同社の主張によるとComprehend Medicalは、患者の記録の中に“医療の状態、解剖学的専門用語、医療検査の詳細、治療内容、処置”、などを正確に見つける。一方、患者は、このサービスを利用して自分の治療のさまざまな側面を管理し、通院のスケジュールや薬の処方、保険の適用の判断などを明確に把握できる。

【後略】
●データは暗号化され、どこにも保存・利用されないのでプライバシーの問題はない。
●すでにいくつかの大手製薬企業や医学研究所がComprehend Medicalを試験的に導入し、とくに治験の適正な実施に必要な膨大な量のデータ作業の省力化や迅速化などに貢献している。“これまで数時間を要したデータ作業が数秒で終わる”そうである。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Red Hatがハイブリッドクラウドのデータ管理サービスNooBaaを買収

Red Hatは今、340億ドルという巨額でIBMに買収されようとしているが、それが完了していない現時点でRed Hatは、独立企業としての買収を行っている。同社の今日(米国時間11/27)の発表によると、買収したのはテルアビブの初期段階のスタートアップNooBaaで、ここはエンタープライズのデータ管理を助け、単一のAPIによりさまざまなデータプロバイダーに容易にアクセスできるようにする。

最近のRed Hatは、エンタープライズによるハイブリッドクラウドおよびマルチクラウドの管理の支援を強調しているから、NooBaaの技術はその指向性によく合っていると言える。NooBaaの中核的なサービスはさまざまなデータサイロの一元化なので、Red Hatのポートフォリオの一員として適している。OpenShiftとOpenShift Container Platform、およびストレージサービスCeph Storageを抱えるRed Hatは、今すでに、幅広いハイブリッドクラウドツールを提供している。

Red Hatでストレージとハイパーコンバージドインフラストラクチャのゼネラルマネージャーを担当しているVP Ranga Rangachariが、今日の発表でこう述べている: “NooBaaの技術はわれわれのポートフォリオを拡張し、今日のハイブリッドおよびマルチクラウドの世界でデベロッパーのニーズを満たすわれわれの能力を強化する。同社の9名の技術チームをRed Hatにお迎えすることは大きな喜びであり、今後は共に、オープンなハイブリッドクラウド技術の指導的プロバイダーとしてのRed Hatを、より強固にすることに取り組んでいきたい”。

Red Hatの技術は、そのほとんどが実質的にオープンソースだが、NooBaaのコードは違う。しかしNoo Baaの計画では、しかるべきときに同社の技術をオープンソースにする予定だ。ただしその明確な日程等は、まだ未定だ。

NooBaaは、2013年に創業された。同社はこれまで、Jerusalem Venture PartnersやOurCrowdからある程度のベンチャー資金を調達しており、またAkamai Capitalからの戦略的投資も得ている。そのラウンドの規模は公表されていないし、また今回の買収の価額等も非公開だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

企業のデータ保護とコンプライアンス充足をAIと機械学習で自動化するCognigoが$8.5Mを調達

AIと機械学習を利用して企業のデータ保護とGDPRなどの規制へのコンプライアンスを助けるCognigoが今日(米国時間11/13)、シリーズAのラウンドで850万ドルを調達したことを発表した。このラウンドをリードしたのはイスラエルのクラウドファンディングプラットホームOurCrowdで、これにプライバシー保護企業のProsegurState of Mind Venturesが参加した。

同社は、重要なデータ資産を護り、個人を同定できる情報が自社のネットワークの外に漏れることを防ごうとしている企業を支援できる、と約束している。そして同社によると、そのやり方は、専用システムのセットアップやそれらの長年の管理を必要とするような手作業の管理ではない。たとえばCognitoによれば、同社は企業のGDPRコンプライアンスの達成を、数か月ではなく数日で完了する。

そのために同社は、事前に訓練したデータ分類用の言語モデルを使用する。そのモデルは、給与明細や特許、NDA、契約書など、よくあるカテゴリーを検出するよう訓練されている。企業は独自のデータサンプルでモデルをさらに訓練し、その独自のニーズのためにモデルをカスタマイズできる。同社のスポークスパーソンは曰く、“唯一必要な人間による介入は構成だが、それは一日で済む作業だ。それ以外では、システムは完全に人手要らずだ”。

同社によると、新たな資金はR&Dとマーケティングと営業のチーム拡大に充てられ、目標は市場プレゼンスの拡張と製品知名度の向上だ。“弊社のビジョンは、顧客が自分のデータを利用して確実にスマートな意思決定ができ、同時にそのデータが継続的に保護されコンプライアンスを維持することだ”、と同社は言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

センサーデータのリアルタイムデータベースを提供するModeが$3Mを調達(上田学氏談話あり)

企業が、センサーのデータに瞬時にアクセスできるためのリアルタイムデータベースを提供しているModeが、True Venturesの率いるラウンドにより300万ドルを調達した。GigaOm(テクノロジーブログの老舗)のファウンダーでTrue VenturesのパートナーOm Malikが、このラウンドの一環としてModeの取締役会に加わった。

今では多くの企業で、車や携帯電話、各種器具・機器、医療器具、そのほかの機械類などからのセンサーデータがたくさん集まってくる。しかしこれらのセンサーをデプロイしている企業に、データの意味を〔時系列や統計分析などで〕理解するためのバックエンドデータベースがない場合が多い。

サンマテオに拠を置くModeは、企業が大量のデータをクラウドに置いて、彼らのデバイスをもっとよく理解し、次にやるべきことが分かるようにする。今Modeの顧客は、ソーラー、医療、製造業などの業種が多い。

Modeの協同ファウンダーでTwitterの技術部長だったGaku Uedaは語る: “データの収集にフォーカスするのは、共通的なインフラの問題をわれわれが担当して、顧客企業はデータの有効利用に専念してもらうためだ”。

Uedaと、同じく協同ファウンダーでゲーム企業50Cubesの技術部長だったEthan Kanは、長年の友だちだ。True VenturesのMalikによると、彼が投資家として同社に惹かれた理由の一つが、それだった。

そのMalikは言う: “企業は直線ではない。上がり下がりがある。でも、良い協同ファウンダーに恵まれていたら、何でも切り抜けられる”。

今回の資金調達でModeの調達総額は500万ドルになる。Kleiner Perkins, Compound.vc, Fujitsuなども同社に投資している。今回のシリーズAの資金は、クラウドにつなぐセンサーをもっと増やし、チームを拡張するために使われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

いくつもの人気iPhoneアプリがユーザーの位置情報を売っている

いくつもの人気iPhoneアプリが“何千万台というモバイルデバイス”の位置情報を、データを売って儲けているサードパーティの会社と密かに共有している、とセキュリティ研究者のグループが指摘している。

お天気アプリやフィットネスアプリなどほとんどのアプリがきちんと作動するためにユーザーの位置情報へのアクセスを必要としているが、ダウンロード無料のアプリは収入につなげるために往々にして位置情報を共有している。

多くのケースで、そうしたアプリは正確な位置や他のセンシティブでユーザーの特定につながるようなデータを“絶えずいつでも”送信している。しかも多くの場合、位置情報がサードパーティと共有されるということを“ほとんど知らせていない”、とセキュリティ研究者はGuardianAppプロジェクトで述べている。

「センシティブな情報へのアクセスを許可することが、ユーザーの知らない、そして関わりを持ちたくない誰かに密かに自分のデータが送られる、ということを意味するかもしれない。そんな懸念なしに、人々は自分の携帯で好きなアプリ使うことができるようになるべきだ」と研究者の1人、Will Strafachは語る。

ネットワークトラフィックを監視するツールを使って調べたところ、研究者らはBluetoothビーコンやWi-Fiネットワークという名の下に位置データを収集する24の人気のiPhoneアプリを発見した。ユーザーがどこにいるのか、どこを訪れるのかを知るためだ。こうしたデータ売買で収入を得ている会社は、加速度計やバッテリー充電ステータス、通信ネットワークからもデバイスデータを収集している。


データ提供の見返りとして、こうしたデータ会社はデータを集めたアプリデベロッパーに金を払い、データベースを増強し、そしてユーザーの位置履歴をもとに広告を展開する。

彼らの多くが、個人を特定するようなデータは集めていないと主張するが、Strafachは緯度と経度の組み合わせで個人の自宅や職場を特定できると指摘する。

そうしたデータを収集しているアプリをいくつか挙げる。

ASKfmは10代をターゲットにした、匿名Q&Aアプリで、 Apple App Storeで1400のレートがつき、何千万ものユーザーを抱える。このアプリは”第三者とは共有されない”としてユーザーの位置情報へのアクセスを求める。しかし実際には位置データを2つのデータ会社、AreaMetricsとHuqに送っている。問い合わせたところ、このアプリデベロッパーはアプリが行なっているデータ収集は”業界の基準に適合していて、我々のユーザーにとっては許容範囲内だ”と答えた。

NOAA Weather Radarは26万6000のレビューがあり、何百万回もダウンロードされている。位置情報へのアクセスは”天気情報を提供するために使われている”。しかし3月から展開されたアプリの初期バージョンは3つのデータ会社、Factual、Sense360、Teemoに位置情報を送っていた。それからコードは除外されている。アプリを制作したApalonの広報担当は、今年初めに”いくつかのプロバイダーとかなり限定された簡単なテストを行なった”と話した。

Homes.comは、位置情報に基づいて”周辺の家を見つける”ことができる人気のアプリだ。しかしそのコードはー古いものだと思われるがーいまだに 正確な座標をAreaMetricsへと送っている。アプリメーカーは「昨年”短い間”AreaMetricsを使っていたが、コードはアクティベートされていない」と言っている。

Perfect365は1億人以上のユーザーを抱える美しいARアプリで、”ユーザーの位置情報などに基づいて体験をカスタマイズする”ために位置情報を求める。そして詳細はプライバシーポリシーを参照するようにと案内しているープライバシーポリシーでは位置データが広告に使用されると明記されている。このアプリは、今年BuzzFeedが調査結果を報じた後Appストアから削除されたが、数日後に戻ってきた。このアプリの最新のバージョンには、8つのデータ会社のコードが含まれている。この点について、アプリ開発元はコメントを避けている。

そしてリストはまだ続くーSinclairが所有する100以上のローカルニュースや天気アプリも含まれていて、これらはデータをトラッキングして収入を得ているRevealと位置情報を共有している。Revealが言うには、“ターゲット広告を出す広告主をアレンジする”ことで大メディア企業が売上を維持するのを手伝っている。

人気アプリのデベロッパーと、中には毎日何十億もの位置データを集めているところもあるデータ売買会社にとって、これは手っ取り早く儲かるビジネスだ。

データから収入を得ている会社のほとんどが、何も悪いことはしていないと否定し、ユーザーはいつでもデータへのアクセスを解除することができると言う。また、データを買う多くの会社がアプリデベロッパーに対して、位置情報を集めてサードパーティに渡していることを明言するように求めているとも言っている。

研究では、こうしたプロセスの実行はほとんど確認されていない、としている。

Revealは顧客に対し、位置データの使用をプライバシーポリシーに明記するよう求めているとし、さらにはユーザーはいつでもデータへのアクセスを解除することができると話している。HuqもReveal同様、自社のサービスを説明するという方策を“パートナーアプリが履行しているか確かめるために定期的なチェック”を実行している、と話す。コーヒーショップや小売店といった公共の場所から主にBluetoothビーコンデータを集めるAreaMetricsは、ユーザーから個人情報を受信することには“関心なし”としている。

Sense360は、集めるデータは匿名化されていて、アプリにはユーザーのはっきりとした同意を得るよう求めている、としているが、Strafachは彼が見たアプリのほとんどがそうした保険的な意味合いのある文言を含んではいなかった、と指摘した。しかし、Sense360はなぜ特定のアプリと手を切ったのか、というより具体的な質問に対しては答えなかった。Wireless Registryも、アプリ側にユーザーの同意を得るよう求めていると言っているが、ユーザーのプライバシーを確保するためのセキュリティ手段についてはおそらくコメントしないだろう。inMarketは、広告の基準とガイドラインに従っている、と文面で述べた。

Cuebiqは、データを蓄積して送るために“高度な暗号方法”を使っていると主張しているが、Strafachはデータがスクランブルをかけられているという“証拠はなかった”としている。Cuebigは、“トラッカー”ではない、と言い、そしていくつかのアプリデベロッパーはユーザーのデータを渡して収入を得ているが、ほとんどのアプリデベロッパーは分析のために使っている、とも言う。そしてFactualは広告と分析に位置データを使っているが、ユーザーからアプリ内での同意を得なければならないと話した。

Teemoにも話を聞こうとしたが、質問に答えなかった。SafeGraph、Mobiquity  、Fysicalはコメントのリクエストに応じなかった。

「実行に移さなければならない自己規制のようなものがあるにもかかわらず、ほとんどの会社の主張や行なっていることには法的責任を伴っていない」とStrafachは語る。

またStrafachは、ユーザーができることはそう多くないが、iPhoneのプライバシー設定で広告トラッキングを制限することで、位置情報トラッカーがユーザーを特定するのは難しくなる、と話した。

プライバシーポリシーがないアプリに対するAppleの取り締まりは来月実施される。しかし、ほとんどの人がそもそもプライバシーポリシーを読まないことを考えると、アプリ側がすぐに行いを改めるということはなさそうだ。


[原文へ]

(翻訳:Mizoguchi)

Googleの‘Dataset Search’サービスで科学者やジャーナリストがデータの発見と理解を強化

Googlegが水曜日(米国時間9/5)に、“Dataset Search”(データセット検索)のローンチを発表した。それは、科学者やデータを追うジャーナリストを助けて、彼らがデータまみれのWebの中で数字の行間にあるストーリーを素早く見つけられるようにする。

さまざまなデータセットはこれまで一般的に、いろんな研究者や研究機関のWebサイトに分散して存在する。たとえば、ある気候現象に関するデータはNASAとNational Oceanic and Atmospheric Administration(NOAA)の両方に分散していたりする。特殊なデータは、ProPublicaに行かないとないかもしれない。Google検索には前からGoogle Scholarという専門家向けの検索サービスがあるが、Dataset Searchはそれをさらに改良して、一回の検索でこれら主要なデータソースを取り出せるようにする。

Googleはデータセットのプロバイダーへのガイドラインで、彼らのデータをもっと容易に見つかるようにするための、データや情報の提示の仕方を示唆している。そのやり方は、データをめぐるコラボレーションのためのコミュニティSchemaが作った、オープンソースのスタンダードをベースとし、データのプロバイダーに、データセットの作者や、データの収集方法、発表された日付、データの利用にあたっての条件、などの情報を含めるよう、求めている。

この新しい検索機能は、検索によるデータへのアクセスと可視性を増強するイニシアチブの第二部に相当し、これの前には、今年の初めに、ふつうの検索でデータジャーナリストが容易にデータを発見できるようにするための方法が、開発/提示された。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

データは新しい石油ではない

(日本語版注:本稿は、Jocelyn GoldfeinとIvy Nguyenにより執筆された記事。Jocelyn GoldfeinはZetta Venture Partnersの業務執行取締役。 Ivy Nguyenは、Zetta Venture Partnersの共同経営者。)

ソフトウエアの開発が以前に比べて簡単になったことで、ソフトウエア・ビジネスにおいて身を守ることは、以前よりも難しくなっている。そのため、投資家や企業家が、データに新しい競争力の可能性があると楽観視するのは不思議ではない。データは「新しい石油だ」と称賛する人間もいる。私たちは、ビジネスに関する問題を解決してくれるデータやAIを活用するスタートアップへの投資に力を入れているため、たしかに、そうした声を聞くわけだが、石油に例えるのは少し違うと思う。

ビッグデータへの関心は非常に高いが、すべてのデータが同等に作られているわけではないという事実は見落とされがちだ。スタートアップも大手企業も、口を揃えて、テラバイト級だとか、米国議会図書館に収められている情報より多くのデータを保有しているとか、自分たちが集積したデータの量を自慢するが、量だけで「データモート」(Data Moat:データの堀)を築くことはできない。

データ戦略の変遷  左から「ワークフロー・ツール(データなし)」「データ集約」「データ駆動型好循環(AI / ML)」「データモート」

 

その理由のひとつには、生のデータは、問題解決に利用できるデータと比べて価値が遙かに劣るということがある。それは、公開市場を見るとわかる。ニールセンアクシオムなどのデータの収拾や提供を業務としている企業は、ネットフリックスやフェイスブックのようにデータをアルゴリズムや機械学習(ML)と組み合わせることで製品を生み出している企業と比較すると、企業評価は数分の一をなんとか維持している程度だ。新しい世代のAI系スタートアップは、その違いをよく心得ていて、収拾したデータから価値を抽出するためのMLモデルを採用している。

MLベースのソリューションにデータが利用できたとしても、そのデータセットのサイズはまた別の話だ。データセットの価値、つまりデータモートの強さは、文脈による。アプリケーションによっては、顧客に何らかの価値を提供するために、非常な高精度にトレーニングしたモデルを必要とするものがあるかと思えば、ほんの僅かなデータ、あるいはまったくデータを必要としない場合もある。独占的に所持できるデータもあれば、すでに複製されているデータもある。時間とともに価値が失われるデータもあれば、永久に価値を保ち続けるデータセットもある。アプリケーションがデータの価値を決定するのだ。

「データ欲」の範囲を規定する

エンドユーザーに価値ある機能を提供するためには、MLアプリケーションは、幅広く大量のデータを必要とする。

MAP閾値

クラウドの分野には、実用最小限の製品(MVP)という考え方が根付いている。初期顧客を探し出すのに必要な機能だけを備えたソフトウエア郡だ。インテリジェンスの分野では、私たちはデータやモデルから見られるアナログの部分に注目している。採用を正当とするに足る最小限の精度を持つ情報だ。これを私たちは最低限のアルゴリズム性能(MAP)と呼んでいる。

ほとんどの場合、アプリケーションで価値を生みだすのに必要な精度は、100パーセントでなくてもよい。たとえば、医師のための生産性向上ツールがあったとしよう。最初は、健康状態を電子的に記録するシステムのデータ入力を補助する役割を果たすが、時が経つにつれて、どの医師がシステムに入っているかを学習して、データ入力を自動化するようになる。ここではMAPはゼロだ。使い始めた最初の日から、そのソフトウエアの機能が価値を発揮するからだ。インテリジェンスは後から付加される。しかし、AIが中心になっている製品(たとえば、CTスキャナーから脳卒中を特定するツール)の場合は、生身の人間が行うときと同等精度のソリューションが求められる。MAPは人間の放射線科医の能力と同等になり、製品として成立させるまでには、恐ろしいほど大量のデータが必要とされる。

成績の閾値

100パーセントに近い精度があっても、すべての問題が解決できるわけではない。あまりにも複雑すぎるため、最先端の技術を駆使したモデルを必要とする問題もある。その場合は、データは特効薬とはならない。データを増やすことで、モデルの成績は徐々に向上するだろうが、すぐに限界利益の減少に直面してしまう。

反対に、追跡すべき次元が少なく、結果の幅も小さく、比較的単純にモデリングできる問題の場合は、ほんのわずかのトレーングされたデータセットで解決できてしまう。

早い話が、問題を効率的に解決するために必要なデータの量は、状況によって変わるということだ。実用的なレベルの精度に達するために必要なトレーニングされたデータの量を、私たちは「成績の閾値」(Performance Threshold)と呼んでいる。

書類処理におけるMAPと成績の閾値の関係 縦軸は精度、横軸はトレーニング用の実例(ドキュメントの数)。 左「成績の閾値=ドキュメント数200」、右「MAP=93%(人間による処理の精度)」

AIを使った契約処理は、成績の閾値が低いアプリケーションのよい例だ。契約書のタイプは何千とあるが、そのほとんどには、契約に関わる人たち、価値を交換するアイテム、期限など、共通する要点がある。住宅ローンやレンタル契約などの書類は、規制に準拠しなければならないため、ほとんど定型化されている。わずか数百種類の例を使ってトレーニングするだけで、実用的な精度に高められる自動文書処理のアルゴリズムを開発したスタートアップを、私たちは数多く見てきた。

起業家にはバランス感覚が必要だ。成績の閾値が高ければ、顧客に使ってもらい、より多くのデータを集めるために、十分なデータを集めなければならないという「ニワトリが先か卵が先か」のような問題に行き当たる。低すぎれば、データモートは築けない。

安定性の閾値

MLモデルは、それが利用されることになる現実の環境から例を集めてトレーニングされる。その環境が少しずつ、または突然に変化したとき、それに伴って変化できなければモデルは陳腐化する。つまり、そのモデルの予測は、もう信頼できないということだ。

たとえば、スタートアップのConstructor.ioは、MLを使って電子商取引サイトの検索結果をランク付けしている。そのシステムは、顧客が検索結果をクリックするかどうかを観察し、そのデータを使って、よりよい検索結果を得るための順番を予測するというものだ。しかし、電子商取引の製品カタログは常に変化している。もしそのモデルが、すべてのクリックのウェイトを同じと考えていたら、または一定の時間のデータセットだけでトレーニングされていたとしたら、古い製品の価値を過大に評価したり、新製品や現在人気の製品をそこから除外してしまったりする恐れが出てくる。

モデルの安定性を保ちたいなら、環境の変化の速度に合わせて最新のトレーニングデータを取り込む必要がある。私たちは、このデータ取得の速度を「安定性の閾値」と呼んでいる。

短命なデータでは強固なデータモートは作れない。一方、安定性の閾値が低い場合、豊富で新鮮なデータへの継続的なアクセスは、大きな参入障壁になってしまう。

長期的な防御力で好機を見極める

MAP、成績の閾値、安定性の閾値は、強固なデータモートを築く際に中核となる要素だ。

新しいカテゴリーに飛び込む先行者には、MAPが低い企業があるが、ひとたびカテゴリーを確立して、そこを牽引するようになれば、後から参入する者たちの敷居は、先行者のときと同じか、それよりも高くなる。

成績の閾値に達するまでに必要なデータと、成績を維持するため(安定性の閾値)に必要なデータの量が少なくて済む分野では、防御が難しい。新規参入者はすでに十分なデータを持っているので、先行者のソリューションに簡単に追いついたり、追い越したりできてしまう。その一方で、成績の閾値(大量のデータを必要としない)と低い安定性の閾値(データが急速に古くなる)と戦っている企業でも、他の企業よりも早く新しいデータを取得できれば、データモートを築ける可能性がある。

強固なデータモートのその他の要素

AI系の投資家は、データセットは「公開データ」と「独自データ」に分けられると熱弁するが、データモートには、それとは別に次の要素がある。

  • アクセスのしやすさ
  • 時間 — どれだけ早くデータを収集してモデルに活かせるか。データには即座にアクセスできるか、または取得や処理に長い時間がかからないか。
  • コスト — そのデータを入手するのに、いくらかかるのか。データを使用するユーザーがライセンス権のために金を払う必要があるのか。または、データのラベリングのために人件費を払う必要があるのか。
  • 独自性 — 同じ結果を導き出すモデルが構築できる同等のデータが広く公開されていないか。そのような、いわゆる独自データは、「日用データ」(Commodity Data)と呼ぶべきだろう。たとえば、求人情報や、広く普及している形式の書類(機密保持契約書やローンの申請書など)や、人の顔の画像のようなものがそれにあたる。
  • 次元性 — データセットの中に、種類の異なる属性がどれほど含まれているか。その多くが、問題解決に役立つものであるか。
  • 幅 ― 属性の価値がどれほど多岐に渡っているか。そのデータセットに、極端な事例や稀な例外的事例が含まれているか。データまたは学習が、たった一人の顧客から得たものではなく、幅広い顧客層から収拾され蓄えられているか。
  • 寿命 ― そのデータは、長期にわたって幅広く利用できるものであるか。そのデータでトレーニングされたモデルは、長期間使えるか。または、定期的な更新が必要か。
  • 好循環 ― 性能のフィードバックや予測の精度といった結果を、アルゴリズムの改良のためのインプットとして使えるか。時を経るごとに性能が磨かれてゆくか。

今やソフトウェアは日用品だ。長期間にわたって競争での優位性を保ちたいと考える企業にとって、データモートの構築はますます重要になる。技術系の巨大企業がクラウド・コンピューティングの顧客を獲得するためにAIツールキットを無料公開する世の中では、データセットは、差別化のための非常に重要な決め手となる。本当に防衛力の高いデータモートは、データを大量に集めるだけでは実現しない。最良のデータモートは、特定の問題分野と強く結びついている。そこでは、顧客の問題を解決するごとに、他所にはない新鮮なデータが価値を生み出すようになる。

画像:Artem_Egorov / Getty Images

[原文へ]

(翻訳: Tetsuo Kanai)

企業内でのデータコラボレーションを提供するData.world

大きな組織内のデータのための、一種のFacebookのようなツールを想像して欲しい。そこではデータを扱うプロジェクトやチームを結成したり、データセットをアップロードして共有したり、生のデータや分析結果をコミュニティ環境の中で同僚たちと議論することができる。それこそが、オースティンのスタートアップであるData.worldが、本日(米国時間3月6日)発表したものだ。

データは大部分の現代的組織にとっての生命線であり、Data.worldはそこで、データをソーシャルネットワークと組み合わせるツールを構築しようとしている。それは、さまざまなレベルの能力と理解度を持つユーザーたちのコミュニティが、データセットとモデル上で共同して作業できる場所を提供する。

「私たちが解決しようとしているのは、ネットワーク時代に住んでいるのにもかかわらず、データ同士が極端に断絶している状況です。世界の多くのデータは孤立した状況にあり、たとえ見つけても理解しにくいものなのです」とTechCrunchに語るのは、Data.worldのCEOで共同創業者のBrett Hurtである。Hurtと彼の共同創業者は、ツールチェーンから切り離されたデータを見て、それが生産性の大幅な低下を引き起こしていると考えたのだ。

同社はもともと、オープンコミュニティとしてData.worldを構築していいたが、同時にデータサイエンティストとデータアナリストがしばしばお互いに分離されている、大規模な組織内でのプライベートコミュニティの必要性も認識した。「私たちは、今がエンタープライズ版を提供するのに良いタイミングだと感じました。私たちは、ユーザの皆さまがソーシャルスタイルで作業し、データに対する皆の力を結集できる、最高のデータコラボレーション機能を構築しました」と彼は語る。

  1. banners_and_alerts_and_sales_leads_analysis_-_project_by_far-west-inc___data_world.jpg

  2. far-west-inc_sales-revenue-analysis___discussion___data_world.jpg

  3. library___data_world.jpg

彼らが構築したエンタープライズ向けプロダクトは、データに関心があり、それらに対してデータギークたちが使う一般的なツールを適用する方法を必要としている人びと同士をつなぐものだ。その目的を果すために、Data.worldのエンタープライズエディションは、Tableau、Microsoft Excel、そしてPower BI、IBM SPSS、MicroStrategy、Google Data Studio、そしてR、Python、果てはIFTTTとも接続を行う。

エンタープライズプラットフォームを利用している顧客の1つがAP通信だ、同社はData.worldを使って、データを様々なニュースルームのメンバー組織たちと共有し、レポーターたちが記事の品質を向上させるためにより効率的に使えるようにしている。

同社はまた、オバマ政権時代に米国政府のチーフ・データ・サイエンティストを務めたDJ Patilが、同社の取締役会に加わることを発表した。Data.worldは2015年に創立され、2度のラウンドで約3300万ドルの資金調達が行われた。最も多額だったラウンドは2017年に1870万ドルを調達したシリーズBである

[原文へ]
(翻訳:sako)

FEATURED IMAGE: APING VISION / STS/GETTY IMAGES

データ分析のAlteryxが上場 ― 株価は約11%上昇

米国時間24日、データ分析のAlteryxがニューヨーク証券取引所に上場した。アメリカでは、これが今年3番目のIPOとなる。IPO時の公募価格は14ドルだったが、金曜日の株式市場では10.7%高の15.50ドルの終値をつけている。

Alteryxの顧客はAmazon、Ford、Coca-Colaなどの企業だ。同社はこれらの顧客にデータ分析ツールを提供し、プロダクトの改善やマーケットに存在する非効率性の発見の手助けをしている。CEOのDean Stoecker氏のによれば、同ツールのリテンション率は高く、それにより高い精度で収益を予測することが可能だという。

Stoeckher氏によれば、Alteryxは「インストールと使い方の学習が簡単なプラットフォーム」だ。また、彼らは「セールスオペレーションやマーケティング、HR分析」まで幅広い業種のさまざまな部署を顧客として獲得している。

昨年度のAlteryxの収益は8580万ドルで、当期純損失は2430万ドルだった。2015年度の収益は5380万ドル、最終損益は2150万ドルの損失となった。

2010年の創業以来、これまでに同社は少なくとも1億6300万ドルを調達している。出資比率はInsight Venturesが27%、Thomson Reutersが13.1%、Sapphire Venturesが13%となっている。その他にもToba CapitalやICONIQなども出資に加わっている。

カルフォルニア州アーバインを拠点とするAlteryxは、急成長を遂げているカリフォルニア南部のテックシーンの一翼を担う企業だ。先日上場したSnapの本拠地もカリフォルニア南部に位置するVeniceであり、今年上場した企業の2/3は南カリフォルニア出身の企業だということになる。

Alteryxに続き、ニューヨークのYextとサンフランシスコのOktaもすでに上場申請済みだ。彼らの株式市場デビュー戦の日は今後数週間の内に訪れるだろう。昨年は不調だったテック企業のIPOだが、今年は「上場の窓」が開いていることを多くの企業が望んでいるところだ。

Meritech Capitalでマネージングディレクターを務めるRob Ward氏によれば、同社がAlteryxへの出資を決めたのは、「データの消費と保管のあいだには巨大なチャンスが眠っていると考えたから」だという。彼らはAlteryxが「複雑なデータ・エコシステムへの解決策を求める何百万のデータドリブンな企業に向けて、セルフ分析ツールを提供するリーダー的企業となる」ことを望んでいる。

Stoecker氏によれば、同社は今回のIPOによってビジネスの国際展開を加速する構えだ。また、他社の買収も視野に入れているという。

「IPOはこれから始まる物語の序章でしかありません」と彼は語る。

[原文]

(翻訳: 木村拓哉 /Website /Facebook /Twitter

Googleが機械学習のためのデータ可視化ツールEmbedding Projectorをオープンソース化

main-qimg-5f48d8daf87ff55bd5d230b42939cc7c

今朝、GoogleはデータビジュアライゼーションツールEmbedding Projectorをオープンソース化すると発表した。このツールは機械学習の研究者がTensorFlowをインストールして走らせなくとも、データを可視化するためのツールだ。

次元やベクトルといった概念は、誰もが簡単に理解できるものではないだろう。問題は私たちが3次元の世界に生きていることだ。私たちは縦、横、高さがあると知っているため、4次元、5次元、6次元がどのようなものか想像するのが難しい。クリストファー・ノーランのインターステラーに登場した多次元の世界が奇妙に思えるのはそのためだ。

次元を私たちがいる世界のことと考えるのではなく、データだけについて考えてみよう。例えば、2つの家を比べると場合を考えてみてほしい。比較するために、それぞれの家の異なる点のリストを作成するだろう。リストには色、広さ、屋根の種類、庭の形の項目があるとする。このデータは4次元モデルで表すことができる。

データを表にすることができるが、絵で表すこともできる。それにはベクトルが必要だ。2つの家を比較するシンプルな4次元モデルなら、PowerPointのX軸Y軸とバブルの大きさ、色を使って作成することができるだろう。

ただ何千と次元のある複雑なモデルでは、既存のツールで描くのは難しい。そこでGoogleのEmbedding Projectorの出番となる。

embedding-mnist

SpotifyのDiscover Weekly機能を使ったことがあるなら、気づかずにEmbeddingsを体験している。高度な機械学習では、曲の属性をベクトルの地図で表すことができる。すべての楽曲を地図化し、個別リスナーの好みと照らし合わせることで、個人に合わせて正確な楽曲のレコメンドができるのだ。これはさすがにPowerPointではできない。

[原文へ]

(翻訳:Nozomi Okuma /Website

APIの台頭

canstockphoto1697923

編集部注:本稿はMatt MurphyとSteve Sloaneにより執筆された。Steve SloaneはMenlo Venturesに勤務する。

ソフトウェアが世界を支配する」と耳にするようになってから5年ほど経った。SaaSアプリケーションの数が爆発的に伸び、ソフトウェアに重要な結合組織と機能を提供するAPIの分野にイノベーションの波が押し寄せている。サードパーティAPI企業の数も急増し、それらの企業がソフトウェアの作成および流通のあり方を根本から変えつつある。

マイクロソフトのWindowsのような特定のプラットフォーム向けのソフトウェアを開発する方法として、アプリケーション・プログラミング・インターフェイス(API)は何十年間も重要な役割を担ってきた。最近では、SalesforceやFacebook、Googleといった新しいプラットフォーム・プロバイダーたちがAPIをソフトウェア開発者に提供するようになった。そうすることにより、彼らのプラットフォームへの依存性をつくり出すことに成功したのだ。

そして今、新種のサードパーティAPI企業がソフトウェア開発者たちに特定のプラットフォームへの依存から脱却する方法を提供し、彼らはアプリケーションをより効果的に流通させることが可能となったのだ。

過去数十年間においてビジネスの世界で活躍してきたのは、全体が1つのアプリケーションで構成されたインフラストラクチャーやアプリケーションだった。しかし、それらに代わって台頭しはじめたのがモジュール型のアプリケーションだ。モジュール型のアプリケーションは、小型かつ独立した再利用可能のマイクロ・サービスによって構成されており、それらのマイクロ・サービスを組み合わせることで、より複雑なアプリケーションを作成することができる。結果として、ソフトウェア開発者はユニークな機能の開発に専念し、外部のスペシャリストが開発したプログラムでその周りを補強すればよい。そして、そのプログラムにアクセスする方法がAPIなのだ。

速い、安い、スマート

アプリケーションに必要な機能のほとんどは、既に他の企業が苦労して開発したものと同じものだ。そのことに気づいた開発者たちは、車輪の再発明に貴重な資源を投入することを避け、より大きなプラットフォームが提供するAPIを活用することにした。SalesforceやAmazonがそのプラットフォームの例であり、最近ではAPIに特化した企業も現れた。サードパーティAPIの時代は始まったばかりだ。だが、これまでに開発されたソフトウェアを見れば、StripePlaidの支払いシステムや、Twilioの通話システム、Factualの位置情報データ、Algoliaのサイト検索機能などを、開発者たちがどのように活用できるのかが一目瞭然だ。

まさしく、この分野はブームとなりつつある。私が調べた限りでは、ProgrammableWebは約1万5000ものAPIを提供しており、その数は毎日増え続けている。これらのAPIをソフトウェアに組み込めば、単体で開発した場合より遥かに素早く完成させることが可能だ。

ソフトウェアを低コストかつ素早くマーケットに流通させることは大きなアドバンテージとなる。その一方で、もっと重要な利点もある。コア能力に特化する企業は、他者と差別化する機能、すなわち「秘密のソース」をより早い速度で開発できるのだ。

APIがソフトウェア開発のエコシステムに与える恩恵はとてつもなく大きいのだ。

もう一つの利点は、サードパーティAPIを利用することは総じて優れた方法だということだ。サードパーティAPIは、独自に開発されたAPIよりも柔軟性を持つ。ある機能を構築し、それを維持するには多大な労力を必要とするが、企業はその労力を過小評価する傾向にある。しかもそれらの機能はサードパーティAPIによって代用可能なのにも関わらずだ。そして最後のアドバンテージは、サードパーティAPIの開発者の方がより大きなデータにアクセスすることが可能であり、そのデータがネットワーク・エフェクトを創り出すという点だ。

そのネットワーク・エフェクトは優れた価格やサービス品質に見て取ることができ、AIを使ってそのデータの中から最も良いパターンを抽出することができる。例えば、Menlo傘下の企業であるSignifydは不正アクセスを見つけ出すサービスをAPIとして提供している。同社は100以上の企業から取引データを集めており、個々の企業による独自分析よりも高い精度で不正アクセスを見つけ出すことができる。

新種のソフトウェア企業

APIとしてソフトウェアをリリースすることで、そのソフトウェアが採用される可能性を高めることができる。多くの場合、ソフトウェアを利用する顧客はディベロッパーなのであり、ソフトウェアを特定の業界に対して垂直に売り込んだり、パッケージとして売り出すよりも販売プロセスがスムーズになる。収益モデルは常に反復的であり、利用される頻度が高まれば収益も増えるという、本質的にスケーラブルなビジネスモデルだ。APIベースの企業がもつエコシステムはまだ進化の途中ではあるが、そのような企業の特性が組み合わさることで、最終的にはより資本効率的で利益率の高いビジネスモデルが創り出されると私たちは考えている。

このチャンスは新参者の企業だけに与えられたものではない。既存の開発企業にとっても、独自の機能をAPIとして提供し、製品をアプリケーションからプラットフォームへと進化させる機会となるだろう。傑出した企業の中には、目標以上の成果を生み出すAPIビジネスを構築した者もいる。伝えられるところによれば、Salesforceは収益の50%をAPIから生み出しており、eBayは60%近く、Expediaではなんと90%だ。

このビジネスモデルは起業家や投資家たちを惹きつけている。次なる大流行アプリをゼロから創り出そうとしたり、需要があるのか分からない状態でマーケティングや流通のために多額の資金を投入したりするよりも、特定領域の機能を構築し、他のディベロッパーの武器商人となる方が理にかなっているのかもしれない。

APIモデルは、成功すれば資金効率性を得られ、時間が経つにつれてネットワーク・エフェクトが生まれるという強力な流通方法である。現在、900万人の開発者がプライベートなAPIの開発に取り組んでいる。これらの人材が、「企業より機能」というチャンスに目を向けることがあれば、パブリックなAPI開発にも大きな変化が生まれる可能性がある(パブリックAPI開発者は120万人に留まっている)。

バリュー・チェーンを見直す

これまではデータに最も近い企業や(例:システム・オブ・レコード、SoR)、ソフトウェアを自社のプラットフォームに依存させることが可能な企業こそが「ビックな企業」だった。APIの世界では、ビックな企業とはスマートな方法でデータを集め、それを他者に公開する企業なのかもしれない。

これにより新しいタイプの参入障壁が生まれる。Twilioは圧倒的な通信ボリュームをもつことから、個々の開発者では得られられないような割引を通信キャリアから得たり、多くの開発者が利用する支払いシステムをもつStripesが獲得している大口割引などがその例だ。Usermind(Menlo Venturesの投資先企業の一つ)などの企業は、既存のSaaSアプリケーション間のAPIによるコネクションを単純化するワークフローを創り出すことによって、複数のアプリケーションの運用を可能にしている。

今現在においてもAPIスタートアップのエコシステムは魅力的であるが、私たちはその魅力は増す一方だと考える。これまでの5年間、SaaSやビックデータ、マイクロサービス、AIといった企業志向のテクノロジーに対する世間の関心はとても高かった。この4つの分野が結合した存在こそ、APIなのだ。

企業向けソフトウェア開発の現場においてサードパーティAPIへの注目がさらに高まることで、これから数々の大物企業が生まれるだろう。プロセス間の人手を減らした販売モデル、循環する収益、分散化された顧客基盤をもつAPIのビジネスモデルはとても魅力的だ。それに加えて、アプリの開発者はユニークな機能の開発に専念することができ、特に重要なイニシャル・プロダクトを低コストかつ素早く流通することが可能となる。APIがソフトウェア開発のエコシステムに与える恩恵はとてつもなく大きいのだ。

menloapi

[原文]

(翻訳: 木村 拓哉 /Website /Twitter /Facebook