ビッグデータ時代の現在、あらゆる場所に存在する非構造化情報に秩序をもたらして理解するということは、最も重要なブレークスルーの1つだろう。ライフサイエンス分野において、この課題に取り組むためのプラットフォームを構築してきた欧州のスタートアップ(同社のプラットフォームは複数の研究所によって新型コロナウイルスの変異株の配列と特定にも活用された)が現地時間9月7日、より多くのユースケースに対応するためのツールを開発し、北米に進出するための資金調達を発表した。
バルセロナを拠点とするSeqera Labs(セケラ・ラブス)。シード資金として550万ドル(約6億円)を調達した同社は、データオーケストレーションやワークフローのカスタムプラットフォームを提供しており、科学者やエンジニアがクラウドベースのゲノムデータから情報を得たり、複数の場所からの複雑なデータを利用するライフサイエンスの応用に取り組んだりするのを支援している。
今回のラウンドはTalis Capital(タリス・キャピタル)とSpeedinvest(スピードインベスト)が共同で主導し、以前からの支援者であるBoxOne Ventures(ボックスワン・ベンチャーズ)も参加している。また、Mark Zuckerberg(マーク・ザッカーバーグ)氏とPriscilla Chan(プリシラ・チャン)博士が科学応用のためのオープンソース・ソフトウェア・プロジェクトを支援するために設立したChan Zuckerberg Initiative(チャン・ザッカーバーグ・イニシアチブ)も助成金を提供している。
Seqeraは「sequence(配列)」と「era(時代)」を組み合わせた造語で、シーケンスデータの時代を意味している。同社はこれまで100万ドル(約1億1000万円)以下の資金しか調達してこなかったものの、現在では世界最大の製薬会社5社の他、バイオテクノロジーやその他のライフサイエンス分野の顧客を持ち、収益を伸ばしている。
Seqeraはバルセロナのバイオメディカル研究センターであるCentre for Genomic Regulation(CGR、ゲノム規制センター)からスピンアウトしたもので、Seqeraの創設者であるEvan Floden(エヴァン・フローデン)氏とPaolo Di Tommaso(パオロ・ディトマソ)氏が、オープンソースのワークフローおよびデータ・オーケストレーション・ソフトウェアであるNextflow(ネクストフロー)の商用アプリケーションとしてCGRで構築したのが始まりだ。
SeqeraのCEOであるフローデン氏はTechCrunchに対し、Nextflowがライフサイエンスのコミュニティで多くの支持を得て、その後さらなるカスタマイズや機能を求める多くのリクエストを繰り返し受けたことが、同氏とディトマソ氏が2018年にSeqeraを創設する動機になったと話している。NextflowとSeqeraはともに多くの利用実績があり、Nextflowのランタイムは200万回以上ダウンロードされ、Seqeraの商用クラウドサービスでは現在50億件以上のタスクを処理しているという。
新型コロナのパンデミックのような深刻な課題は、Seqera(およびその関連としてのNextflow)が科学者コミュニティで解決しようとしていることの典型例である。新型コロナの大流行は世界中で発生しており、研究所で新型コロナの検査が行われる度にウイルスの生きた遺伝子サンプルが採取される。こういった何百万件もの検査結果は新型コロナウイルスがいつ、どこで、どのように変異しているかを示す情報の宝庫であり、さらにまだ解明されていない新しいウイルスにとってもこれは非常に貴重なデータとなる。
つまり問題は、より深い洞察を得るためのデータが存在するかどうかではなく(間違いなく存在するからだ)、既存のツールを使ってそのデータを総合的に見ることがほぼ不可能だということなのである。データはあまりにも多くの場所に存在し、その量はあまりにも多く、日々増加し続けている(そして日々変化し続けている)。データを中央に集めて分析を行うという従来のアプローチは効率的ではなく、実行には莫大なコストがかかってしまう。
そこで登場するのがSeqeraだ。同社のテクノロジーでは異なるクラウド上の各データソースを重要なパイプラインとして扱い、データがすでに存在しているインフラの境界を離れることなく、1つのボディとして統合・分析することができる。ゲノム情報に特化してカスタマイズされているため、科学者らはその情報を照会してより多くの知見を得ることが可能だ。新型コロナウイルスが世界中で猛威を振るう中、Seqeraはアルファ株とデルタ株の両方の変異体の発見に貢献したのである。
同社はいわゆる「プレシジョン・メディシン」の領域など、他のタイプの医療応用でも使用されており、がんなどの複雑な分野では非常に大きな可能性を秘めている。がんは患者自身の遺伝子の違いなど、多くの要因によって変異や行動が異なるため、画一的な治療では効果が出にくいためだ。
機械学習やビッグデータ解析を活用して、個々のがんやそれが異なるグループ間でどのように発症するかを理解してより個別化された治療法を生み出すアプローチが近年増えているが、Seqeraはそのようなデータをシーケンスする方法を提供しようと取り組んでいる。
Seqeraプラットフォームのもう1つの特徴として、データの専門家でなくてもデータを分析する人、つまり研究者や科学者自身が直接利用できるという点が挙げられる。同社にとってこれは優先事項だったとフローデン氏は話しているが、高度に技術的なプロセスを技術者ではない人々が使えるように設計された、今流行の「ノーコード・ローコード」ソフトウェアをこのプラットフォームが意図せずして取り入れているというのは興味深い事実である。
既存の可能性と、将来的にクラウド上に存在することになる他の種類のデータにSeqeraをどのように適用していくかという両点が、この会社を興味深いものにしており、また投資先としても興味深いものとして考えられているのだろう。
Talis CapitalのプリンシパルであるKirill Tasilov(キリル・タシロフ)氏は声明の中で次のように述べている。「機械学習の進歩とデータの量と種類の増加により、ライフサイエンスや生物学におけるコンピューター科学の応用がますます増えています。これは人類にとって非常にエキサイティングなことですが、一方で、コンピューターを駆使した複雑な実験は、コストが非常にかかり、プロジェクトごとに数百万ドル(数億円)になることもあります。Nextflowはすでにこの分野ではユビキタスなソリューションであり、Seqeraはその機能を企業レベルで推進しています。その過程で彼らはライフサイエンス業界全体を近代化しているのです。Seqeraの今後に関わって行けるということに、弊社は胸を躍らせています」。
SpeedinvestのプリンシパルであるArnaud Bakker(アルノー・バッカー)氏は「安価で商業的なDNAシーケンシングによる生物学的データの爆発的な増加にともない、増え続ける複雑なデータを分析する必要性が高まっています。Seqeraのオープンでクラウドファーストなフレームワークがもたらす高度なツールキットにより、組織は複雑なデータ分析の展開を拡大し、データ駆動型のライフサイエンスソリューションを実現することができるでしょう」と話している。
現在のSeqeraにとって、医療やライフサイエンス分野は最もタイムリーで明らかな活用分野ではあるものの、もともと遺伝学や生物学のために設計されたこのフレームワークは他のさまざまな分野にも応用することができる。AIトレーニング、画像解析、天文学の3つが初期のユースケースだとフローデン氏はいうが、天文学には限度がないため非常に適した分野なのではないだろうか。
「私たちは、現在が生物学の世紀であると考えています」とフローデン氏。「生物学は活動の中心であり、またデータ中心になりつつあります。我々はそれに基づいてサービスを構築しているのです」。
Seqeraは今回のラウンドでの評価額を公開していない。
画像クレジット:zhangshuang / Getty Images
[原文へ]
(文:Ingrid Lunden、翻訳:Dragonfly)