IBMが今日(米国時間6/15)、オープンソースのビッグデータプロジェクトApache Sparkに3500名の研究員を割り当てる、と申し出た。また併せて同社は、同社の機械学習ツールIBM SystemMLのオープンソース化を発表して、それをビッグデータと機械学習の最先端の地位に押し上げたいという意図を鮮明にした。
この二つの技術はIBMが最近志向している、クラウドとビッグデータとその分析技術、およびセキュリティを軸とする自己変革戦略の一環だ。今日の発表と並行してIBMは、Sparkを同社の分析プロダクトの核とすることと、企業等のSparkプロジェクトを支援する商用サービスDatabricksとも協働していくことを誓った。
Sparkは、ビッグデータを処理するエンジンとしては世界最速を自称している。
IBMアナリティクス部門の製品開発担当VP、Rob Thomasはこう言う: “Sparkはビッグデータ分析のオペレーティングシステムだ、と考えたい。将来的には、ビッグデータを利用するときには誰もがSparkを使うようになるだろう。Sparkを使うと、データへのユニバーサルなアクセスができるからだ”。
Thomasによると、Sparkはその成長のペースがオープンソースの歴史上最速にはやかったため、IBMも注目せざるをえなかった。これまでの数年間、Sparkを使ってきたが、昨年Apacheのプロジェクトになってから、一層、注目度が高まった。
DatabricksサービスとIBMとの仲は、まだほんの数か月だが、彼らは機械学習がこのApacheプロジェクトの弱点だと聞かされて以降、IBMの機械学習技術に深く関わるようになった。
こういう場合のIBMのやり方として、単に3500名の研究員を投入するだけでなく、もっと全面的な関わりになる。同社は、同社のPaaS Bluemixの顧客に、今ではアプリケーションの重要素材としてSparkを使わせている。
さらに同社の10あまりの研究部門がSpark関連のプロジェクトに取り組んでおり、近くサンフランシスコにSpark Technology Centerというものをオープンしてデータサイエンス振興のためのコミュニティの形成に取り組み、Sparkを利用する各種のアプリケーションを作っていくとともに、Spark本体の開発も加速する。
IBMのプロジェクトには教育の部分があるのがふつうだが、今回もその例外ではない。IBMの発表によれば、同社はAMPLabやDataCamp、MetiStream、Galvanize、MOOCのBig Data Universityなどと協働して、Sparkを使いこなせるデータサイエンティストを最終目標として100万名育成する。立派な目標だけど、今現在データサイエンティストは、世界中からかき集めても最大で25万人ぐらいしかいないという説もあるから、遠大な目標でもある。
IBMはこれら一連の活動を慈善事業として行うわけではなく、ビッグデータが今後の同社のビジネスの重要な核になる、と信じているからだ。それが全面的に活性化できるための、多様な要素からなる基盤を今から築いておきたい。しかもオープンソースのプロジェクトに本気でコミットすることで、オープンソースのツールを使ってビッグデータや機械学習に取り組んでいる多くの企業との良好な関係形成を図れる。それによりIBMには、コンサルティングなど、そのほかのビジネス機会も開ける。
IBMはお金持ちだから、SparkやOpenStackのようなオープンソースプロジェクトにそのリソースを投ずることによって、会社の体質そのものをリフレッシュし、未来の新しいビジネスに向かう道を築きたいのだ。