DatabricksのLakehouseはデータウェアハウスとデータレイクの良いとこ取り

Databricksが米国時間2月24日、パートナーたちによるData Ingestion NetworkとそのDatabricks Ingestサービスの立ち上げを発表した。目的は、企業が最高のデータウェアハウスと最高のータレイクを1つのプラットホームに結合することで、Databricksはそのコンセプトを「lakehouse(レイクハウス)」と呼んでいる。

同社のレイクハウスのコアにあるものはDelta Lakeで、これはLinux Foundationが管理するDatabricksのオープンソースのプロジェクトであり、データレイクにストレージの層を導入してユーザーがデータのライフサイクルを管理できるようにする。そして、スキーマの強制やログの記録などでデータのクオリティを確保する。DatabricksのユーザーはこれからはIngestion Networkの最初の5つのパートナーであるFivetranとQlik、Infoworks、StreamSets、Syncsortらと共同で自分たちのデータをDelta Lakeに自動的にロードできる。Databricksの顧客は、トリガーやスケジュールに関して何もセットアップしなくてよい。データが自動的にDelta Lakeに入っていく。

Databricksの共同創業者でCEOのAli Ghodsi(アリ・ゴッシ)氏は、次のように説明する。 「これまで企業は、自分のデータを伝統的な構造化データ(定型データ)やビッグデータに分割することを強いられ、それらを別々にBI(ビジネスインテリジェンス)やML(マシンラーニング)のユースケースに使っていた。これではデータがデータレイクやデータウェアハウスの中でサイロに入れられることになり、処理が遅くなるだけでなく部分的な結果ばかりになり、有効な利用ができないほど遅い、または不完全なデータになっていた。Lakehouseパラダイムへの移行にはさまざまな動機があるが、これもその1つだ。つまり、データウェアハウスの信頼性をデータレイクのスケールと結びつけて、あらゆるユースケースをサポートしたいのだ。このアーキテクチャが有効に働くためには、いろんなタイプのデータの取り入れが容易でなければならない。Databricks Ingestは、それを可能にする重要なステップだ」

Databricksのマーケティング担当副社長Bharath Gowda(バラス・ゴウダ)氏も、これによって企業が自分たちの最新のデータを分析することが容易になり、新しい情報が得られたときの反応性も良くなる、という。彼によると、ユーザーは彼らの定型データや非定型データをもっと上手に利用できるようになり、機械学習の良質なモデルを構築したり、データウェアハウスにある部分的なデータでなくすべてのデータに対する従来的な分析も可能になる。

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

ビッグデータ分析のDatabricksが430億円調達、バリュエーションは6700億円に

Databricksは多くのオープンソースツールを使って作られたSaaSを提供していて、明らかに事業はうまくいっている。実際、同社は企業向けクラウドの会社として最も急速に成長している1社だとうたっている。同社は米国時間10月22日、4億ドル(約430億円)ものシリーズFラウンドでバリュエーションが62億ドル(約6700億円)になったと発表した。今回のラウンドで、累計資金調達額は約9億ドル(約975億円)に達した。

Andreessen Horowitzのレイトステージベンチャーファンドがラウンドをリードし、新規投資家としてBlackRock、T. Rowe Price Associates、Tiger Global Managementが参加した。こうした機関投資家が参加しているのは興味深い。というのも、レートステージスタートアップとしてDatabricksは将来のIPOを見据えているはずで、そうした投資家をすでに引きつけているのは有利なスタートにつながる。

CEOのAli Ghodsi(アリ・ゴッシ)氏はIPOに関しては無口になるが、IPO自体は確かに彼が進めたい方向ではあるようだ。「我々は急速に成長している企業向けクラウドソフトウェア会社の1社だ。今回の資金調達が示しているように、これは我々が資金への多くのアクセスを持っていることを意味する。売上高はかなりの勢いで伸びていて、知名度も高い。だからIPOは我々が最高活用するものではなく、そう遠くない将来に必ず起こるものだ」とゴッシ氏はTechCrunchに対し語った。

同社は第3四半期のランレートが2億ドル(約220億円)だと発表した。同社は4つのプロダクトから成るプラットフォームを展開して、すべてオープンソースをベースに構築されている。4つのプロダクトは、オープンソースデータレイクプロダクトのDelta Lake、データチームが機械学習の操作ができるようにするのをサポートするオープンソースプロジェクトのMLflow、SparkとPandos向けのマシーンフレームワークをつくるKoalas、そしてオープンソース分析エンジンのSparkだ。

これらのツールすべてのオープンソース版は無料でダウンロードできる。しかし使いこなすのは簡単ではない。DatabricksはこうしたツールをSaaSという形で提供することで収益を上げている。こうしたツールの使用に伴う管理上の悩みを彼らが処理し、ユーザーにサブスクリプションとして課金する。

同社は急成長していて、このモデルはうまくいっているようだ。同社は2月に2億5000万ドル(約270億円)を調達し、バリュエーションは27億5000万ドル(約3000億円)になった。明らかに投資家たちはそれ以降の6カ月の間に投資する余地を見出した。今日の62億ドルというバリュエーションがそれを物語っている。

画像クレジット:Matt Anderson Photography / Getty Images

[原文へ]

(翻訳:Mizoguchi)

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Databricksの無料Spark学習コースにオンラインのマイクロインスタンスCommunity Editionが補助教材として加わる…受講者10万超をねらう

shutterstock_230086303

Apache Sparkオープンソースプロジェクトの商用実装をビジネスとするDatabricksが今日(米国時間2/17)、Sparkの使い方を人びとに教えるための、無料のCommunity Editionをリリースした。それは、同社が昨年作った無料のオンラインコースMOOCs〔複数形〕)の教材として利用される。

この無料バージョンは有料のエンタープライズバージョンにある高度な機能はなくて、Sparkによるビッグデータ処理の初歩を、小さな単一のSparkインスタンス(“マイクロインスタンス”)で学んでいく。

同社のMOOCsは驚くほど好評で、これまで50000名が受講、演習やテストを含め全課程を終了した者は20000名に達する。DatabricksのCEOで協同ファウンダーのAli Ghodsiが、そう説明した。

Sparkを学びたいという関心がこれほどまでに大きいことを見た同社は、コースの補助教材としてCommunity Editionを作ることにした。Community EditionとMOOCsを結びつけることによってDatabricksは、地球上のへき地に住む低所得の人たちにも、データサイエンスの初歩とSparkを教えることができる。つまり、コンピュータとインターネット接続と、コースを完了する意志さえあれば、誰でもコースを受講できる。

学習者はDatabricksの基礎的な機能にアクセスして、マイクロクラスタの作り方とか、クラスタ管理ツールの使い方、ノートブックやダッシュボードの作り方を学ぶ。もっと大きなクラスタの作り方や高度な機能を会得したければ、クレジットカードをスワイプして本格的なビジネスコースへ進めばよい。

Databricksに投資しているAndreessen Horowitzの協同ファウンダーでパートナーのBen Horowitzによると、Community Editionによってビッグデータとその分析の敷居が、きわめて低くなり、誰もが気軽に学べるものになった。

“それまでは自分でクラスタを作るか、あるいは大学のコースなどに毎月何千ドルも払って、データサイエンスや高度なデータ分析、機械学習などを本格的に勉強する必要があった”、とHorowitzは声明文の中で言っている。

安上がりをねらった同社は、まず、学習者がクラスタの構築や保存のために使うコンピューティングリソースとして、Amazon Web Servicesを利用している。その高度な共有環境を同社が細心の注意をもって管理することにより、低コスト化に成功している。

“仮想マシンを共有することにより、コストを大幅に下げることができた。同じリソースを複数の学習者が再利用していくから、無駄が生じない。その方法をMOOCの一つで試してみて、意外なほどうまくいったんだ”、とGhodsiは語る。

もちろんこれは、慈善事業ではない。たくさんの人間にSparkと関連ツールの使い方を無料で教えれば、その後、その中の何人かが必ず有料の顧客になる、と同社は確信している。同社はすでに、MOOCsでそんな経験をしている。Community Editionが加われば、それがもっと増えるだろう。

“これはとても優れた見込み客生成プロジェクトだ。うちの企業経営に大きく貢献するだろう”、と彼は語る。

DatabricksのMOOCは、今年もっと増える。そして来年には、受講者数を10万人以上にもっていきたい、という。無料のCommunity Editionが好評なら、それも夢ではないだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

IBMがApache Sparkプロジェクトに3500名を投入、未来に生きる道はオープンソースしかないと悟る

5439493601_dc049b0258_o

IBMが今日(米国時間6/15)、オープンソースのビッグデータプロジェクトApache Sparkに3500名の研究員を割り当てる、と申し出た。また併せて同社は、同社の機械学習ツールIBM SystemMLのオープンソース化を発表して、それをビッグデータと機械学習の最先端の地位に押し上げたいという意図を鮮明にした。

この二つの技術はIBMが最近志向している、クラウドとビッグデータとその分析技術、およびセキュリティを軸とする自己変革戦略の一環だ。今日の発表と並行してIBMは、Sparkを同社の分析プロダクトの核とすることと、企業等のSparkプロジェクトを支援する商用サービスDatabricksとも協働していくことを誓った。

Sparkは、ビッグデータを処理するエンジンとしては世界最速を自称している。

IBMアナリティクス部門の製品開発担当VP、Rob Thomasはこう言う: “Sparkはビッグデータ分析のオペレーティングシステムだ、と考えたい。将来的には、ビッグデータを利用するときには誰もがSparkを使うようになるだろう。Sparkを使うと、データへのユニバーサルなアクセスができるからだ”。

Thomasによると、Sparkはその成長のペースがオープンソースの歴史上最速にはやかったため、IBMも注目せざるをえなかった。これまでの数年間、Sparkを使ってきたが、昨年Apacheのプロジェクトになってから、一層、注目度が高まった。

DatabricksサービスとIBMとの仲は、まだほんの数か月だが、彼らは機械学習がこのApacheプロジェクトの弱点だと聞かされて以降、IBMの機械学習技術に深く関わるようになった。

こういう場合のIBMのやり方として、単に3500名の研究員を投入するだけでなく、もっと全面的な関わりになる。同社は、同社のPaaS Bluemixの顧客に、今ではアプリケーションの重要素材としてSparkを使わせている。

さらに同社の10あまりの研究部門がSpark関連のプロジェクトに取り組んでおり、近くサンフランシスコにSpark Technology Centerというものをオープンしてデータサイエンス振興のためのコミュニティの形成に取り組み、Sparkを利用する各種のアプリケーションを作っていくとともに、Spark本体の開発も加速する。

IBMのプロジェクトには教育の部分があるのがふつうだが、今回もその例外ではない。IBMの発表によれば、同社はAMPLabやDataCamp、MetiStream、Galvanize、MOOCのBig Data Universityなどと協働して、Sparkを使いこなせるデータサイエンティストを最終目標として100万名育成する。立派な目標だけど、今現在データサイエンティストは、世界中からかき集めても最大で25万人ぐらいしかいないという説もあるから、遠大な目標でもある。

IBMはこれら一連の活動を慈善事業として行うわけではなく、ビッグデータが今後の同社のビジネスの重要な核になる、と信じているからだ。それが全面的に活性化できるための、多様な要素からなる基盤を今から築いておきたい。しかもオープンソースのプロジェクトに本気でコミットすることで、オープンソースのツールを使ってビッグデータや機械学習に取り組んでいる多くの企業との良好な関係形成を図れる。それによりIBMには、コンサルティングなど、そのほかのビジネス機会も開ける。

IBMはお金持ちだから、SparkやOpenStackのようなオープンソースプロジェクトにそのリソースを投ずることによって、会社の体質そのものをリフレッシュし、未来の新しいビジネスに向かう道を築きたいのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa