欧州原子核研究機構のLHC〔大型ハドロン衝突型加速器〕から得られるデータは驚くべき量だ。科学者は実験から新たな知識を得るためにこのデータを処理しなければならない。しかもLHCの最近のアップグレードによりデータ量はさらに一桁以上増加する見込みだ。このデータの奔流に対し、CERNでは機械学習を利用してデータを処理し、AIモデルによって素粒子物理学の次のブレークスルーを得る助けとしようとしている。
全周27キロの眞空トンネル内に設けられた巨大な検出器が光速近くまで加速された高エネルギー陽子の衝突によって生じる素粒子のシャワーをとらえる。センサーはきわめて寿命が短い多種多様な素粒子を検出しなければならない。2013年から2年がかりで行われた改良工事により、陽子をガイドする磁場がさらに強化された。新システムの調整が進めば、従来10回程度の衝突が期待されたところで数百回もの衝突が可能になるという。
物理学者にとっては朗報だ。しかしもっとひんぱんに衝突が起きるということはそれだけデータ量も増えることを意味する。LHCの場合、データ10倍以上になる。科学者はNatureの記事で「これまでのプロセスでは処理スピードが遅すぎ、データの分類整理が間に合わなくなるおそれが出ていた」と語っている。現代のデータサイエンティストは巨大でノイズの多いデータを処理する場合AIテクノロジーを用いる。CERNの科学者もこの方法を選んだ。
お断りしておくが、私は科学的に厳密な説明をしていない。しかし簡単にいえば、機械学習は人間が巨大なデータからなんであれ意味ある連関を見出そうするプロセスのコンピューター化だ。製薬でも天文学でも人間の心理の操作(Facebookがそれらしい)でも、乱雑なデータを前にして「籾殻と種を選り分ける」必要があるときにきわめて有効な手段を提供している。素粒子物理学も新たな応用の例だ。
新分野を立ち上げる際には健全な競争が役に立つ。そこでCERNはTrackMLといういささか地味なコンテストを開催している。物理学者やデータサイエンティストはギガバイト規模のLHCの実験データをダウンロードし、正しく分類するモデルづくりを行うことができる。われわれも報じたように、CERNでは300TBの実験データを公開しているが、コンテストではもっと手頃なサイズのデータセットが用いられる。
賞金総額もささやかなもので、2万5000ドルに過ぎない。CERNの資金は新たな超電磁石の開発で使い果たされてしまったのかもしれない。
ただしコンテンストには参加料といったものはない。興味があるむきはKaggleのTrackMLコンテストのページを開いてデータをダウンロードすることができる。結果の提出までには十分時間がある。締切は8月13日だ。提出された成果はすべてオープンソースとなるので、CERNがアルゴリズムをぱくって一儲けを企むのではないかなどと心配する必要はない。
[原文へ]
(翻訳:滑川海彦@Facebook Google+)