ディープラーニングは、数百年の時を超えて植物標本の中から新種を発見できるかもしれない

機械学習のテクニックは、大量のデータを掘り下げて行かなければならない状況で、そこそこ十分な品質の仕事を素早く行うことが必要なときに役立つ。この技術が、世界中に保存されている、膨大な植物標本のバックログを扱うために、大変優れている方法であることがわかった。数百万もの標本たちが、デジタル化され識別されるのを待っているのだ。その中にはまだ科学によって同定されていないものも含まれている可能性がある。

世界中にはそのようなコレクションが数千以上も存在していて、上に示したような標本が3億5000万点余り収蔵されている。それらの中には数万もの新種が隠されているのではないかと考えられている、しかしそれらの標本全てを、手作業で入念に調べ上げ、最新の分類へと整理し直ための労働コストは、恐ろしく高額なものになる。

それだけではなく、徐々に消滅しつつある植物の収蔵庫たちにある貴重な情報は、ますますデジタルファースト化されていく科学コミュニティの中で役立てるために、現代化を進める必要がある。

そこでディープラーニングシステムの出番だ。コスタリカ工科大学およびフランス国際開発農業研究センターの研究者たちは、そのテクノロジーを、こうした膨大なデータ集に対して適用すべき時が来たと感じた。

彼らは、植物サンプルの画像25万個を用いて植物同定アルゴリズムを訓練し、それを用いて新しい標本シートの同定を行わせた。それは人間の専門家が選んだ種を、5回のうち4回は正確に同定し、アルゴリズムによる更なる数回の推測で正答率は90%に高まった。

読者がどの分野で仕事をしているかによって、そうした結果は良いものとも悪いものとも解釈できるだろう。しかし、この種の作業は科学であると同時にアートでもあり、対象の種の標本のばらつきはとても大きいため、2人の分類学者が異なる結論に至ることもあり得る。なので、最初の段階でほとんどの場合に正しい結果が得られるならば、それは本当に素晴らしい結果なのだ。そしてもしうまく同定されない場合は、もちろん、未知の種を示すかもしれないため、特に注意を注ぐべき対象だと印をつけておくことができる。

予期していなかったことだが、研究者たちは、アルゴリズムが例えばフランスの植物標本を使って訓練されていた場合でも、ブラジルの標本にも有効に適用できることを発見した。この学習結果の有効な転移は関係者を安心させた、何故なら新しいシスムを初めから作る必要がなく、各コレクション毎あるいは植物標本のスタイルに合わせて調整する必要がないことを意味するからだ。

しかし、このシステムの専門知識は、フィールドで植物を識別するときに使うような生の葉のスキャン写真に対しては適用されなかった。乾燥と固定のプロセスは生の葉とは非常に異なる画像を生み出すので、システムが「学習した」ものは、未乾燥の葉には適用されなかったのだ。とはいえそれは予測されていたことであり、その科学的用途のための有効なシステムは既に別のものが使われている。

そしてご心配なく。これで植物学者が失業するという訳ではない。

「人びとは、この種の技術は、植物の専門知識の価値を低めることになるのでは、と感じています」と共同著者のPierre BonnetはNatureに語った 。「しかしこのアプローチは、人間の専門知識があるからこそ可能になっているだけに過ぎません。人間の専門知識が不要になることはないのです」。

システムの基礎が確立されたので、研究者たちはそれを拡大しようとしている。植物が収集された時期や場所、開花や成長などの段階に関するメタデータなどは、正確性を高め、新たな研究の機会を提供する。例えばある種類の葉のサイズが100年以上の気候変動の中でどのように変わって来たかを体系的に比較するなど。化石や動物標本のための同様のシステムも、このチームの成果を利用することができる。

この研究成果は、今週BMC Evolutionary Biology誌に掲載された。

[ 原文へ ]
(翻訳:Sako)