Apache Sparkの技術を応用するDetermined AIがAI開発を民主化

深層学習では、データサイエンティストは、かなり反復的なプロセスによってモデルを設計し、GPUを利用したシステム上でテストすることになる。そうすることで、はじめて機能するものを手にすることができる。それには、多大な費用と時間がかかる。適切なモデルを仕上げるのに数週間かかることもざらだ。新しいスタートアップDetermined AIは、そこにメスを入れ、そのプロセスをより速く、安く、そして効率的なものにしたいと考えている。そして今日、1100万ドルのシリーズAの資金を得て忽然と表舞台に姿を現した。

今回のラウンドは、GV(かつてのGoogle Ventures)が主導したもので、Amplify Partners、Haystack、さらにSV Angelの協力も取り付けている。同社はすでに2017年、260万ドルのシードラウンドがあったことも発表した。現在までにトータルで1360万ドルを調達したことになる。

Determined AIの共同創立者兼CEOであるEvan Sparks氏によれば、これまでは、Facebook、Google、Apple、Microsoftのような巨大企業だけが、自動運転や音声認識技術など、高度なAIを生み出すためのインフラとシステムを構築することができたのだという。「私たちの考えでは、そうしたことが可能な大きな理由は、それらの大企業はみな社内にソフトウェアのインフラを持っていることにあります。それによって、機械学習のエンジニアとデータサイエンティストのチームは効率的に仕事ができ、素早くアプリケーションを生み出すことができるのです」と、Sparks氏はTechCrunchに語った。

Determined AIのアイデアは、クラスタ計算機のリソース管理からワークフローの自動化まで、すべてを扱えるソフトウェアを作成すること。それにより、大企業と同様の技術を、あらゆる組織の手の届くところに引き寄せることができる。「私たちの使命は、そのソフトウェアを他のみんなのために開発することです」と彼は述べた。ターゲットとする市場は、Fortune 500や、Global 2000に含まれているような企業となる。

同社のソリューションは、カリフォルニア大学バークレー校のAmpLabでの、ここ数年間の研究成果に基づいている。同研究室は、ビッグデータを扱うクラスタ計算機のフレームワーク、Apache Sparkを開発したことでもよく知られている。その研究室で培った知識を使って、顧客のGPUリソースをより有効に活用できるようにするための高度なソリューションを開発したのだ。

「私たちが提供するは、スケジューリングとリソース共有のための一種の基礎レイヤーです。それによって、そうした非常に高価なリソースを扱います。その上に、ワークフローを自動化するための、いろいろなサービスのレイヤーを重ねるのです」と、Sparks氏は説明する。これまでにチームが達成した最先端の成果によれば、現在ほとんどの会社が使っているツールに比べて、5倍から50倍も高速化を実現できるという。

今のところ、このスタートアップは、顧客が現在利用可能な一般的な種類のソリューションから、よりカスタマイズされたアプローチに移行するのを支援しようとしている。そこでは、Determined AIのツールを使って、AIの生産プロセスをスピードアップすることができる。今日のラウンドから得た資金は、成長を促進させ、エンジニアを増強し、ソリューションを開発し続けることを可能にするはずだ。

画像クレジット:Getty Images

原文へ

(翻訳:Fumihiko Shibata)

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IBMのDataWorksはApache Sparkによるビッグデータ分析に人工知能Watsonが企業向け利用インタフェイスをまとわせる

screen-shot-2016-09-27-at-10-53-02-am

マシンインテリジェンスの分野は、研究開発が盛んであるだけでなく、より影響力の強い応用現場でも新しいトレンドが生まれつつある。それを好機としてApache Sparkのようなオープンソースのフレームワークは、データサイエンティストのニーズに応えるだけでなく、企業の事業開発にもデータ分析を持ち込もうとしている。

IBMがこのほど立ち上げたProject DataWorksは、SparkとIBM Watsonを組み合わせて、分析の堅実性を維持しつつそのスピードと使い勝手を向上しようとする。わかりやすく言えばDataWorksは、データ分析のためのGoogle Docsだ。今多くの企業は大量のデータを、いろんなところにばらばらに保存している。IBMのこの新製品は企業のすべてのデータを食べて、それを一箇所のアクセスしやすい場所に置く。

management-console

データに、それを必要とする者が迅速簡単にアクセスできるために、IBMはダッシュボードを提供し、そこにデータのアクセス状態や、利用しているユーザー、カテゴリー関連の各種測度などを収めて表示する。IBMはその技術を、データをカタログに仕分け分類すること、と呼ぶ。検索は自然言語で行い、ユーザーはカタログに整理された情報を、これまでよりもずっと素早く取り出すことができる。また、データの取り入れ速度は、IBMによると、50〜100Gbpsである。

データの視覚化は、PixiedustやBrunelなどのコードを使って、わずか1行のコードで作り出される。視覚化によりもちろん、データ間の関連性や分類がよりわかりやすくなり、ふつうの社員でも、ひと目でインサイトを得ることができる。

大企業も中小企業も、IBMのクラウドプラットホームBluemixからDataWorksツールにアクセスできる。近く料金体系が確立すれば、ユーザー企業はこのシステムを数時間〜数日〜数か月と、長期間(または常時的に)稼働させられる。またIBMの構想では、データ分析を携帯キャリアのデータプランからも提供し、それを定額の月額制にすることもできる。

IBMのデータ分析担当VP Rob Thomasによると、企業はこのツールを活用することによって、人件費を大幅に節約できる。またデータ分析に関して、企業の特定部門の人間を教育訓練する苦労もなくなる。さしあたり、リテールや金融、通信などの分野が主な顧客層になるが、しかしThomasによると、中小企業のうち‘中’の方の企業も今すでにこのシステムに関心を示している。

DataWorksの動力となっているIBM Watsonは、これまでも同社の成長と売上を支えてきた。このたび新しいユースケースが増えることによって、Watsonはますます自分を改良していくだろう。そしてDataWorksの主要部分は、IBMが今年初めに買収したThe Weather Companyの技術を利用している。その買収の目的は不定形データの分析にあったが、今ではお天気情報ばかりでなく、Watsonの助力も得て、企業のデータ分析方面に新たな市場を開拓しつつある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Microsoftはビッグデータ分析とその応用プロダクトでApache Sparkに総賭けの姿勢

microsoft_cloud_logo

Microsoftが今日(米国時間6/6)、オープンソースのクラスターコンピューティングフレームワークApache Sparkに、本格的にコミットしていく、と発表した

昨年、Sparkのエコシステムの浅瀬でちょっと足を濡らしてみたMicrosoftは、本日、いくつかのSpark関連サービスのプレビューを終えてそれらを公式ローンチし、またR Server for Hadoopのオンプレミスバージョンが今後はSparkベースになる、と発表した。R Serverの‘R’は、今人気がますます盛り上がっている、ビッグデータ分析とモデリングのためのオープンソースの言語Rを指す。

spark-logo-trademark

さらにMicrosoftは、R ServerのAzureクラウドバージョンR Server for HDInsightがこの夏の終わりごろプレビューを終えて一般公開される、と発表した。なおSpark for Azure HDInsightは今すでに一般公開されていて、Hortonworksによる管理を伴うSparkサービスがサポートされる。MicrosoftのビジネスインテリジェンスツールPower BIも、今ではSpark Streamingをサポートし、ユーザーはリアルタイムデータをSparkから直接Power BIへプッシュできる。

これらの発表はすべて、Microsoftが“Sparkへの幅広いコミットによってMicrosoftのビッグデータ分析プロダクトを強化する”、と述べる方針の実現(の一環)だ。プロダクトはPower BIやR ServerだけでなくCortana Intelligence Suiteも含まれる。こちらはMicrosoftの複数のビッグデータ分析サービスを併用し、いくつかの機械学習ツールも利用するシステムだ。〔Cortana参考サイト

今週サンフランシスコで行われるSpark SummitでMicrosoftは、Google, Baidu, Amazon, Databricksなどなどと共にスポットライトを浴びる気でいる。その席でMicrosoftは、同社がSparkに今どれだけ入れ込んでいるか、その情報をシェアする、と約束している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Bashoが時系列データ専用NoSQLデータベースRiak TSをオープンソース化してIoTへの浸透をねらう

internetofthings

世界中のありとあらゆるデバイスメーカーが、自分たちの製品をインターネットに接続しようとしているように、思える。ベッド用のマットレスも、洗濯機も、トースターも、そしてジューサーも〔冷蔵庫も〕。大量のデータが空中や線上にあふれ出て、分析されるのを待つ列に並ぶだろう。

そのようなデータは今後増加の一方で、それを送信する能力は、最近1億5000万ドルを調達したSigFoxなどの企業によって徐々に整備されていくが、しかしながら今の分散データベースのアーキテクチャの多くは、市場が求めるそんな帯域にマッチできるほどの、高速なデータ処理と出力の能力を持っていない。

シアトルのBashoは、同社のNoSQLデータベースRiak TSの最新リリースで、そんな問題の一部を解決しようとしている。TSはtime-series(時系列)の頭字語で、データのユニークなキーヴァリューがタイムスタンプであり、それはそのデータが作られた日時を指している。TSシステムはこれまでもBashoのエンタープライズクライアント(Uber, AT&Tなど)にしばらく使われてきたが、今回のオープンソースリリースによって、そんなデータタイプを初めて扱うデベロッパーでも、気軽に利用できるようになった。

MongoDBやDataStaxなどの同業企業と違ってBashoはこれまで、わずか2500万ドルの資金しか調達していない。明らかに同社は、時系列データを扱うという独自性が、NoSQLデータベースの業界で強力な差別化要因になる、と信じている。

今回のニューリリースは、ApacheのクラスターフレームワークSparkを統合し、SparkとRiak TSにおけるインメモリ処理のためのデータの、自動的分散化と対話をサポートしている。

多くの人にとってこれは些細なことと思えるかもしれないが、センサーからの大量の時系列データを扱う者にとっては、大規模な分散化データが、コンピューターの実動時にすら、長いリード/ライト時間の原因となり、分散化による冗長性が効率を殺してしまう。

ソリューションとしては、ハッシュランクを使ってデータのキーをデータクラスター全体にわたって均一に分散するやり方が多い。それによって、大規模なノード集合全域にわたる同じタイムレンジからのデータを効率的に入力するが、一方でレンジへのアクセスが高負荷な操作になる。

BashoのCEO Adam Wrayによると、Riak TSが使っているユニークな分散化システムはユーザーに、タイムスタンプのある、あるいはそのほかの連続的な、データの処理における有利性を与える。

“われわれはデータの配置を最適化し、特定のノードが特定のレンジのデータを得るようにしている”、と彼は語る。つまりこのような配置によって、一定のタイムレンジからのデータのフェッチが、より少ない操作ですむようにしている。

新しいリリースのREST APIによって個々のデベロッパーが利益を得るだけでなく、Bashoがエンタープライズの世界で歓迎される要因は、Riak TSの、既存のSQLデータベースコマンドとの互換性だ、と彼は考えている。

“それは正規のSQLコマンドであり、一部のCQLや、SQLのわれわれ独自の変種ではない”、とBashoのCTO Dave McCroryは述べる。“われわれは、人びとがいちばん多く使いたがる従来的な操作をサポートする”。

たしかに、いちばん多く使われているSQL操作をサポートすればレガシーユーザーやエンタープライズの多くにとって魅力的だが、多くのエンタープライズユーザーはSQLプラットホームの上に内製のカスタムソリューションを乗っけており、それがエンタープライズ世界におけるRiak TSの広範な採用を妨げるかもしれない。

Riakのノードは仮想と物理的、両方のマシンにまたがって分散化でき、またMicrosoftのAzureやAmazon Web Servicesなどのプラットホーム上の、クラウドインスタンスの上でもそれは可能だ。

Bashoの主張によると、時系列データの処理では、Riak TSの方がApacheのNoSQLデータベースCassandraなどよりも50%は速い。本誌TechCrunchはこの主張を検証していないが、今回オープンソース化されたことにより、Rial TSシステムのパフォーマンスゲインは多くのユーザーにとって明らかになるだろう。

このシステムが内包している強力な事故回復力が、エンタープライズユーザーたちのデータベース乗り換えの十分な動機になるか、それはまだ分からない。Riak TSでは各クラスターが同一データのコピーを三つ抱えるので、マルチクラスターのリプリケーションが天文学的な数の操作になることもありえる。しかし十分なスケーラビリティがあれば、これによって高いアップタイムと低い誤り率が保証される。ただしそれに要する費用は、小さな企業が尻込みするほどの額だろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IBMがApache Sparkプロジェクトに3500名を投入、未来に生きる道はオープンソースしかないと悟る

5439493601_dc049b0258_o

IBMが今日(米国時間6/15)、オープンソースのビッグデータプロジェクトApache Sparkに3500名の研究員を割り当てる、と申し出た。また併せて同社は、同社の機械学習ツールIBM SystemMLのオープンソース化を発表して、それをビッグデータと機械学習の最先端の地位に押し上げたいという意図を鮮明にした。

この二つの技術はIBMが最近志向している、クラウドとビッグデータとその分析技術、およびセキュリティを軸とする自己変革戦略の一環だ。今日の発表と並行してIBMは、Sparkを同社の分析プロダクトの核とすることと、企業等のSparkプロジェクトを支援する商用サービスDatabricksとも協働していくことを誓った。

Sparkは、ビッグデータを処理するエンジンとしては世界最速を自称している。

IBMアナリティクス部門の製品開発担当VP、Rob Thomasはこう言う: “Sparkはビッグデータ分析のオペレーティングシステムだ、と考えたい。将来的には、ビッグデータを利用するときには誰もがSparkを使うようになるだろう。Sparkを使うと、データへのユニバーサルなアクセスができるからだ”。

Thomasによると、Sparkはその成長のペースがオープンソースの歴史上最速にはやかったため、IBMも注目せざるをえなかった。これまでの数年間、Sparkを使ってきたが、昨年Apacheのプロジェクトになってから、一層、注目度が高まった。

DatabricksサービスとIBMとの仲は、まだほんの数か月だが、彼らは機械学習がこのApacheプロジェクトの弱点だと聞かされて以降、IBMの機械学習技術に深く関わるようになった。

こういう場合のIBMのやり方として、単に3500名の研究員を投入するだけでなく、もっと全面的な関わりになる。同社は、同社のPaaS Bluemixの顧客に、今ではアプリケーションの重要素材としてSparkを使わせている。

さらに同社の10あまりの研究部門がSpark関連のプロジェクトに取り組んでおり、近くサンフランシスコにSpark Technology Centerというものをオープンしてデータサイエンス振興のためのコミュニティの形成に取り組み、Sparkを利用する各種のアプリケーションを作っていくとともに、Spark本体の開発も加速する。

IBMのプロジェクトには教育の部分があるのがふつうだが、今回もその例外ではない。IBMの発表によれば、同社はAMPLabやDataCamp、MetiStream、Galvanize、MOOCのBig Data Universityなどと協働して、Sparkを使いこなせるデータサイエンティストを最終目標として100万名育成する。立派な目標だけど、今現在データサイエンティストは、世界中からかき集めても最大で25万人ぐらいしかいないという説もあるから、遠大な目標でもある。

IBMはこれら一連の活動を慈善事業として行うわけではなく、ビッグデータが今後の同社のビジネスの重要な核になる、と信じているからだ。それが全面的に活性化できるための、多様な要素からなる基盤を今から築いておきたい。しかもオープンソースのプロジェクトに本気でコミットすることで、オープンソースのツールを使ってビッグデータや機械学習に取り組んでいる多くの企業との良好な関係形成を図れる。それによりIBMには、コンサルティングなど、そのほかのビジネス機会も開ける。

IBMはお金持ちだから、SparkやOpenStackのようなオープンソースプロジェクトにそのリソースを投ずることによって、会社の体質そのものをリフレッシュし、未来の新しいビジネスに向かう道を築きたいのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa