コンテナを利用してビッグデータ分析を誰もが使えるツールにしたPachydermがシード資金$2Mを調達

pachyderm

ビッグデータの分析や加工をDockerなどのコンテナを利用して行うオープンソースのプラットホームPachydermが、200万ドルのシード資金を獲得した。

このシードラウンドに参加した投資家は、Data Collective、Foundation Capital、Blumberg Capital、Susa Ventures、Crunchfund(TechCrunchのファウンダMichael Arringtonが創業したVC)、Caffeinated Capital、Soma Capital、およびAce & Company。またPaul Buchheit、Jonathan Abrams、Avichal Garg、Jay Jamisonらのエンジェル投資家たちも参加した。

同社の立ち上げは、本誌が1月に報じた。Pachydermはオープンソースのツールだが、プログラマがこれを利用して大量のデータ分析を行うときは、Javaのコードを1行も書く必要がなく、MapReduceの動作原理などを知らなくてもよい。そのため、過去の類似のツールに比べてビッグデータ分析の敷居が相当低くなり、多くのデベロッパにとって、自分にも利用できる技術になる。Pachydermのキャッチフレーズは、“MapReduceのパワー -(マイナス) Hadoopの難解さ”、だ。詳しい説明は、上記の記事にある。

Pachydermの協同ファウンダJoe DolinerとJoey Zwickerによると、資金は技術者の増員と、このところ増え続けているユーザからの要望に応じて、新しい機能を加えていくことに使われる。“うちのコンセプトへの関心がとても多いことに、正直びっくりしている。それには、コンテナのパワーも貢献しているだろう”、とDolinerは述べる。企業だけでなく、大学などからの関心も大きいそうだ。今後の数か月で、人びとがもっと容易にデータ分析ジョブを書けて共有できるためのWeb上のハブ、いわば‘ビッグデータ分析のためのGitHub’を作りたい、と彼らは言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

CoreOSとDockerの上でビッグデータ分析の敷居をフロントエンドプログラマ向けに低くするPachyderm

大量のデータを集めてそれを分析するときは、MapReduceと呼ばれる技法を使うのが、最近の定石だ。具体的には、それを実装しているApacheのHadoopというフレームワークを利用する。それはすでに評価が確立している方法だが、簡単ではない。主にJavaで書かれているHadoopは、使い方が難しい、と評価されている

本格的にデータ分析をやろうという気になった企業はHadoopとMapReduceを扱い慣れているエリートプログラマを雇うか、またはそれをしろうとでもできるようにしてくれるClouderaのようなサードパーティのサービスを利用する。しかしどちらも、容易ではないし費用もかかる。そもそも、企業に初めからビッグデータが分かる社員がいて、その仕事を任せられる、というところはあまりない。

Y Combinatorの2015年冬のクラスでローンチしたPachydermは、ビッグデータ分析をもっと単純でとっつきやすいものにすることを、ねらっている。MapReduceのパワーをHadoopの難しさなしで提供する、をキャッチフレーズとするPachydermは、オープンソースのツールとして、プログラマがJavaのコードを書いたり、MapReduceについて詳しく知っていなくても大量のデータを分析できる、と称している。

RethinkDBのスタッフだったJoey ZwickerJoe Dolinerが創業したPachydermは、最近10年ぐらいのインフラの進化に立脚している。中でもとりわけ重要なのが、クラスタの管理に特化したLinuxの実装CoreOSと、Linuxコンテナによる分散化アプリケーション展開システムDockerだ。

ファウンダたちによると、Pachydermは同社のWebサイトやGitHubで入手でき、大量のデータを分析したいプログラマがやるべきことは、Dockerのコンテナの中に収まるhttpサーバを実装するだけだ。同社は曰く、“Dockerのコンテナの中でサーバが動くようになれば、Pachydermがそれを分散化して数ペタバイト以上のデータでも処理できるようにする”。たとえばこのMapReduceジョブは、Pachydermを使ってチェスの対戦の悪手を分析して学習するシステムだ。

Pachydermのとくに嬉しいところは、データ分析がバックエンドやインフラの技術者でない人でも気軽にできることだ。Pachydermの売りは、フロントエンド専門のプログラマやデザイナーでも、自分でMapReduce的なジョブを動かし、結果を把握・理解・報告できることだ。“誰にとってもデータ分析をやることがおもしろくなり、その敷居がぐっと低くなる”、とDolinerは言っている。

まだY Combinatorからの支援があるだけのPachydermは、とても若い企業だ。収益化の方法は、そのほかのオープンソース企業のやり方を見習いたい、という。つまり、自由な無料利用と企業向けの有料サービスの二層構造だ。またデータ分析ジョブを書くプログラマのためのGitHub的なWebプラットホームも作りたい、と言っている。

Hadoop MapReduceに代わるシステムをオープンソースで提供して、ビッグデータ分析の敷居を低くしたい、と考えているのはPachydermだけではない。ApacheのSparkStormもその例だし、またJavaから派生した言語Scalaの周辺でも、Hadoopを使いやすくするための努力が行われている〔例: Java Cascadingから派生したtwitter/scalding〕。

“ビッグデータ”はここ数年、バズワードになっているけど、その実体はソリューションであるよりもむしろ問題そのものだ。しかしPachydermにはYCの支援に加えてデベロッパコミュニティからのサポートもあるから、次世代のデータ処理における重要な選手になるかもしれない。強力な、ソリューションとして。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))