データ量の多い科学の再現をサポートし科学者たちのコラボを容易にするCode Ocean

科学のあらゆる分野で、ビッグデータとその分析への依存度が高まっている。そのため、フォーマットやプラットフォームがますます混乱に陥っている。これは不便なだけでなく、査読プロセスや研究の再現に支障をきたす。Code Ocean(コード・オーシャン)は、あらゆるデータセットや手法に対応した柔軟で共有可能なフォーマットとプラットフォームを提供することで、科学者同士のコラボレーションを容易にしたいと考えており、その構築のために総額2100万ドル(約22億8100万円)を調達した。

科学界には確かに「選択肢がどんどん増えていってしまう」といった雰囲気がある(これに関するXKCD漫画もある)。しかしCode Oceanは、Jupyter(ジュピター)やGitLab(ギットラブ)、Docker(ドッカー)のような成功したツールの競合製品を作っているわけではない。Code Oceanが作っているのは、データや分析に必要なすべてのコンポーネントを、どのようなプラットフォーム上であっても簡単に共有できる形式にまとめることができる小規模なコンテナプラットフォームだ。

問題となっているのは、自分がやっていることを他の研究者と共有する必要があるときだ(相手がすぐ側にいても、国内の大学にいても同じ)。再現する時は、他の科学技術と同じように、データ解析をまったく同じ方法で行うことが重要だ。しかし、他の研究者が同じ構造、フォーマット、表記、ラベルなどを使うという保証はない。

仕事を共有するのが不可能なわけではない。しかし、同じ方法を用いているか、同じバージョンのツールを同じ順番で使っているか、同じ設定で使っているかなど、複製や反復を行う人が何度も確認しなければならないため、多くの余計なステップが必要になる。小さな不整合は、将来的に大きな影響を及ぼす可能性がある。

この問題は、多くのクラウドサービスが生み出される過程に似ていることがわかった。ソフトウェアの展開は科学実験のように難しいが、その解決策の1つがコンテナだ。コンテナとは、小さな仮想マシンのようなもので、コンピューティングタスクを実行するために必要なものすべてを、さまざまなセットアップに対応するポータブルなフォーマットで管理する。この方法は、研究の世界にも当然当てはまる。データ、使用したソフトウェア、ある結果を得るために使用した特定の技術やプロセスを、1つのパッケージにまとめておくことができるからだ。Code Oceanは、このプラットフォームと「Compute Capsules(コンピュート・カプセル)」を提案している。

画像クレジット:Code Ocean

あなたは微生物学者で、ある筋肉細胞に対する有望な化合物の効果を調べているとしよう。あなたはUbuntuパソコンのRStudioでRを使用しており、データはin vitro観察で収集したものだ。発表する際にこれらのことをすべて公開しても、すべての人がRStudioが動作するUbuntuのパソコンを持っているとは限らないので、たとえあなたがすべてのコードを提供したとしても、それが無駄になるかもしれない。

しかし、このようにCode Oceanに載せれば、関連するすべてのコードが利用可能となり、クリックするだけで修正されずに検査・実行できたり、ユーザーが特定の部分が気になる場合には、その部分を微調整したりすることができる。Code Oceanは、単一のリンクとウェブアプリ、クロスプラットフォームで動作し、ドキュメントや動画のようにウェブページに埋め込むこともできる。(以下ではその方法を試してみるが、私たちのバックエンドは少し好き嫌いが激しい。カプセル自体はこちらを参照。)

さらに、コンピュート・カプセルは、新しいデータや修正を加えて他の人が再利用することができる。もしかしたら、自分が公開している技術は、適切にフォーマットされたデータを与えれば機能する汎用のRNA配列解析ツールであり、もし他の人が特定のプラットフォームで利用しようとしたら最初からコーディングしなければならなかったものかもしれないのだ。

他の人のカプセルを複製し、自分自身のデータで実行すれば、その人のカプセルを検証するだけでなく、自分の結果の検証もできる。これは、Code Oceanのウェブサイトを介して行うこともできる他、zipファイルをダウンロードして自分のコンピュータで実行することもできる(互換性のあるセットアップが必要)。その他のカプセルの例はこちらを参照。

画像クレジット:Code Ocean

このような研究手法の相互交換は、科学の世界では古くから行われているが、データを多用する現代の実験では、技術的にはコードを入手できても、共有や検証が容易ではないため、サイロ化してしまうことが多い。つまり、他の研究者が研究を先に進めて自分だけの研究を作り、サイロシステムをさらに強化してしまうのだ。

現在、Code Oceanには約2000のパブリックコンピュート・カプセルが存在し、そのほとんどが発表された論文と関連している。ほとんどのものは、他の人が複製したり、新しいことを試したりするために使用されており、中にはかなり特殊なオープンソースのコードライブラリのように、何千人もの人が使用しているものもある。

もちろん、個人情報や医療上の機密データを扱う場合にはセキュリティ上の懸念があるが、企業向け製品であるCode Oceanでは、システム全体をプライベートクラウドのプラットフォーム上で稼働させることができる。これによりCode Oceanを内輪でのツールとして活用でき、大手の研究機関ではそのこと自体が非常に役に立つかもしれない。

Code Oceanは、コードベース、プラットフォーム、コンピューティングサービスなどをできるだけ包括的に提供することで、最先端のコラボレーション環境を実現したいと考えている。

その野望は他の人の共感を呼んでいる。同社はこれまでに2100万ドル(約22億9400万円)を調達しており、そのうち600万ドル(約6億5500万円)は以前は未公開の投資で、1500万ドル(約16億3900万円)は現地時間5月17日に発表されたAラウンドで調達した。Aラウンドは、Battery Ventures(バッテリーベンチャーズ)が主導し、Digitalis Ventures(ジギタリスベンチャーズ)、EBSCO、Vaal Partners(バール・パートナーズ)をはじめとする多数の企業が参加した。

この資金により、同社はプラットフォームの開発、拡張、普及を進めることができるだろう。運が良ければ、必要性があり、深く統合されていて収益性の高い、事情に精通したSaaS業界にすぐに仲間入りできるはずだ。

関連記事
マイクロソフトが今や1日に1億4500万人が利用するTeamsの開発者向け新機能やツールを発表
クラウドを使わずドキュメント共同編集機能を実現するP2Pソフトウェア「Collabio」
簡単にコラボができる画面共有サービスCoScreenが約5億円調達

カテゴリー:ネットサービス
タグ:Code Ocean科学者資金調達コラボレーションビッグデータ

画像クレジット:Code Ocean

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。