数千年にわたり損なわれていた古代ギリシャの碑文の完成をAIが支援

古代ギリシャ語の研究者にとって、頼りとする原文が数千年前のものという古さゆえに、修復不可能なほど損傷しているというようなことはよくある。DeepMind(ディープマインド)が開発した機械学習モデル「Ithaca(イサカ)」が、歴史家にとって新しい強力なツールになるかもしれない。失われた単語や文章の位置と書かれた年代を驚くほど正確に推測する。AIの珍しい応用例だが、その有用性が技術分野以外でも発揮されることを証明している。

不完全な古文書は、劣化した物質に関するさまざまな分野の専門家が関わる問題だ。原文は石、粘土、パピルスに刻まれている。アッカド語、古代ギリシャ語、リニアA言語で、食料品店の請求書から英雄の旅まで、あらゆることが書かれている。いずれの文書にも共通するのは、数千年の間に蓄積された損傷だ。

文字が磨り減ったり、ちぎれたりしてできた空白は「欠落」と呼ばれ、短いものでは1文字、長いものでは1章、あるいは1つの物語全体が欠落していることもある。欠落を埋めるのは簡単でも不可能でもないが、その間のどこからか始めなければならない。ここでIthacaの出番となる。

Ithaca(オデュッセウスの故郷の島から名づけられた)は、古代ギリシャの膨大なテキストで訓練されており、不足している単語やフレーズが何であるかだけでなく、それがどのくらい古いものか、どこで書かれたかも推定できる。ただ、それだけで叙事詩の全巻を埋めることはできない。これは、この種のテキストを扱う人たちのためのツールであり、解決策ではない。

「Nature(ネイチャー)」誌に掲載された論文では、ペリクシア時代のアテネの勅令を例にとって、その有効性を実証した。紀元前445年に書かれたと考えられているこの勅令は、Ithacaのテキスト分析によれば、実際には紀元前420年前後のものであり、より新しい証拠と一致している。大したことには聞こえないかもしれないが、もし権利章典が実際には20年後に書かれたとしたらと想像してほしい。

画像クレジット:DeepMind

テキストそのものについては、専門家による1回目の結果は、正解が約25%だった。決して優秀とは言えない。もちろん、テキストの復元は午後のお遊びではなく、長期的なプロジェクトであることは言うまでもない。しかし、人間とIthacaの組み合わせでは、すぐに72%の精度を達成することができた。これは他のケースでもよく見られることだ。究極的には人間の精度の方が高いものの、行き詰まりを素早く排除したり、出発点を示唆したりして、プロセスを加速できる。医療データの場合、AIがすぐに気づくような異常を人間は見落としがちだが、最終的に詳細に気づき、正しい答えを見つけるのは人間の専門知識だ。

Ithacaは、手元に欠落の多い古代ギリシャ語のテキストがあれば、このサイトで簡易版を試せる。また、そこで提示されている複数の例から1つを使って、空白がどのように埋められるのかを見ることもできる。長い文章や、10文字以上欠けている場合は、このColabノートブックで試してみてほしい。コードはGitHubのこのページで公開されている。

古代ギリシャ語はIthacaがはっきりと結果を出せる分野だが、チームはすでに他の言語についても懸命に取り組んでいる。アッカド語、デモティック語、ヘブライ語、マヤ語はすべてリストに載っており、今後さらに増えると期待される。

「Ithacaは、人文科学における自然言語処理と機械学習の貢献の可能性を示しています」と、このプロジェクトに携わったアテネ大学のIon Androutsopoulos(イオン・アンドラウトソプロス)教授は話す。「この可能性をさらに実証するためにIthacaのようなプロジェクトがもっと必要ですが、それだけでなく、人文科学とAI手法の両方をよく理解している将来の研究者を育てる適切なコースや教材も求められます」。

画像クレジット:Image Credits: Wikimedia Commons under a CC BY 2.0 license.

[原文へ]

(文:Devin Coldewey、翻訳:Nariko Mizoguchi

AIが核融合を操る力を獲得した。でも大丈夫、これは朗報だ

とある研究グループが、核融合研究に使用される高出力のプラズマ流を磁気的に扱う方法をAIに教えた……おっと、慌てないで欲しい。慌てて手にした電磁パルス砲やドライバーはしまい込んでも大丈夫だ。これは間違いなく良い成果で、来るべきロボカリプスで人類に対して使用される恐ろしい武器ではない。

このプロジェクトは、Google(グーグル)のDeepMind(ディープマインド)とローザンヌ工科大学(EPFL)の共同プロジェクトであり、数年前に前者のAI研究者と後者の融合研究者がロンドンのハッカソンで出会ったときに始まった。そのときEPFLのFederico Felici(フェデリコ・フェリーシ)氏は、彼の研究室がトカマクのプラズマ維持に関して抱えていた問題について説明した。

何気ない日常的な愚痴に過ぎない。しかし、それがDeepMindの琴線に触れて、両者は仕事を始めた。

核融合の研究にはさまざまな方法があるが、いずれも数億度という非常に高い温度で形成されるプラズマを利用している。危険そうに聞こえるし、実際にもそうなのだが、トカマクはそれを制御し、内部で起こっている核融合活動の詳細な観察を可能にする1つの方法なのだ。トカマクは基本的にはトーラス(ドーナツ)のような形をしていて、その中を加熱したプラズマが円を描くように移動するが、その経路は磁場によって慎重に制限されている。

誤解のないように言っておくと、これはクリーンなエネルギーを無限に供給するという噂の核融合炉ではない。エネルギーを生産するわけでもないし、もし突然起動したら近くにいてはいけない。これは、不安定だが将来性のあるこれらのプロセスがどのように制御でき、有用な目的にどのように利用できるのかを、テストし観察するための研究ツールなのだ。

特に、スイスプラズマセンターの「可変構成型」トカマクは、単にリング状にプラズマを閉じ込めるだけでなく、研究者がその形状や経路を制御することができる。1秒間に磁気パラメータを何千回も調整して、リングの幅を広げたり、薄くしたり、高密度にしたり、希薄化させたりと、リングの品質に影響を与えるあらゆる要素を調整できる。

画像クレジット:DeepMind & SPC/EPFL

機械の磁場の詳細な設定は、当然ながら事前に決めておかなければならない。設定方法を間違った場合には、大きな損害を被る可能性があるからだ。この設定は、チームが長年にわたって改良してきたトカマクとプラズマの強力なシミュレーターを使って行われる。しかし、フェリーシ氏はEPFLのニュースリリースでこう説明している。「制御システムの各変数の正しい値を決定するには、今でも長時間の計算が必要です。それこそが、DeepMindとの共同研究プロジェクトの出番となる場所なのです」。

このチームは、まず機械学習システムに、ある設定がどのようなプラズマパターンを生み出すかを予測するように学習させ、次に望ましいプラズマパターンから逆算して、それを生み出す設定を特定した(と簡単そうに書いたが、このようなAIアプリケーションにありがちなこととして、実際の実現は相当大変だった)。

米国時間2月16日発行のNature(ネイチャー)に掲載された論文によれば、このアプローチは大成功を収めたという。

今回のアーキテクチャは、高いレベルで指定された制御目標を満たすと同時に、物理的および運用上の制約を満たしているのだ。このアプローチは、問題の仕様記述に対してこれまでにない柔軟性と汎用性があり、新しいプラズマ設定を生み出すための設計工数を大幅に削減できるという:私たちはこのTokamak à Configuration Variable(構成可変型トカマク)を使うことで、従来の細長い形状に加えて、負三角(negative triangularity)や「スノーフレーク」(snowflake)などの高度な形状を含む、多様なプラズマ形状の生成と制御に成功している。

以下にこのモデルが作り出せたさまざまな形状や構成の例を紹介する。

トカマクの「ドーナツ」をスライスした、内部とビームの断面図(画像クレジット:DeepMind & SPC/EPFL)

これは重要な研究だ、なぜならこのようなプラズマを使って実験するには、電力が必要なのはもちろん、非常に多く(数百万単位だ考えて欲しい)の微調整が必要であり 、すべてを手動で構成することはできないからだ。例えばある理論が2つのストリームを必要とし、一方が他方より22%大きい場合、それを生成するための理論的な設定を「従来の」手法(ご想像の通り、これもすでに非常に複雑なデジタルシミュレーションだ)を利用して案出するには、数週間または数カ月かかることがある。しかし、AIはそれに比べるとほんのわずかな時間で良い組み合わせを見つけ出し、その場で解決策を生み出したり、人間の監査役に有力な作業の出発点を与えたりすることができる。

また、安全面でも重要な意味を持つ。というのも、人間は1~2秒の間に異常を封じ込められるような設定を、即興では行えないからだ。しかし、AIならばリアルタイムに設定を変更して損傷を防ぐことができるかもしれない。

DeepMindの研究者であるMartin Riedmiller(マーティン・リードミラー)氏は、これが「初期の段階」であることを認めているが、もちろんそれは科学におけるほぼすべてのAIアプリケーション全体に言えることだ。機械学習は、数え切れないほどの学問分野で、強力で汎用性のあるツールであることが証明されつつある。しかし、優れた科学者のように、彼らはすべての成功を鵜呑みにせず、その先のより自信を持てる結果を待ち望んでいるのだ。

画像クレジット:DeepMind & SPC/EPFL

原文へ

(文:Devin Coldewey、翻訳:sako)

DeepMindのAI「AlphaCode」は競技プログラミングレベルのコードを書ける

DeepMind(ディープマインド)は、任意の問題を解決するためにコードを書くことができるAIを開発した。このAIはコーディングチャレンジに参加し、中間あたりの成績を収めたことで実証されている。まだソフトウェアエンジニアの仕事を奪うまでには至っていないが、基本的な作業の自動化に役立つ可能性がある。

Alphabet(アルファベット)の子会社であるDeepMindのチームは、できる限り多くの形で知能を創造することを目指しており、最近ではもちろん、多くの優秀な頭脳が取り組んでいる作業としてコーディングが挙げられる。コードは、言語、論理、問題解決の融合であり、コンピュータの能力に自然に適合すると同時に、難題でもある。

もちろん、このような試みは初めてではない。OpenAIには独自の自然言語コーディングプロジェクト「Codex」があり、GitHub Copilotと、Microsoftが提供する、GPT-3にコードを完成させるテストの両方を支えている。

関連記事:OpenAIが自然言語AIコーダーのCodexをアップグレード、プライベートベータを開始

DeepMindの論文では、競技プログラミングを狙う理由を説明する中で、フレンドリーながらも競争相手を遠回しに侮辱している。

近年の大規模な言語モデルは、コード生成能力に優れており、簡単なプログラミングタスクをこなすことができるようになってきた。しかし、これらのモデルは、単に命令をコードに変換するだけでなく、問題解決能力を必要とする、より複雑で見たことがない問題で評価すると、いまだに性能が低い。

それについてOpenAIは言いたいことがあるかもしれないが(そして、同社の次の論文ではこの点についての反論が期待できるだろう)、研究者たちが指摘するように、競技プログラミングの問題は一般的に、既存のコードAIには見られないレベルの解釈と創意工夫の組み合わせを必要とする。

DeepMindは、この分野に挑戦するために、GitHubの厳選されたライブラリと、コーディング問題とその解決策のコレクションを使って、新しいモデルをトレーニングした。言葉にすると簡単に聞こえるが、些細なことではない。完成したモデルを、この種のコンテストを主催するCodeforcesが最近開催した(言うまでもなく、AIはそれ以前に見ていない)10のコンテストに投入した。

その結果、50パーセンタイルを少し超える中位の成績を収めた。人間であれば中途半端な成績かもしれないが(決して簡単ではない)、機械学習(ML)モデルの最初の試みとしては、かなり注目に値する。

CodeforcesのMike Mirzayanov(マイク・ミルザヤノフ)CEOはこう述べている。「AlphaCodeの成績は、私の期待を超えていたと断言できます。なぜなら、競技プログラミングでは単純な問題であっても、アルゴリズムを実装するだけでなく、それを発明することも求められることが多いので(これが一番難しい)、半信半疑でした。AlphaCodeは、新人の有望なコンペティターと同レベルの性能を発揮してのけました」。

AlphaCodeが解決した課題とそのソリューションの一例は以下の通り。

画像クレジット:DeepMind

(DeepMindへのメモ:SVGはこのような図には厄介なフォーマットだ。)

ご覧のとおり、これは賢いソリューションだが、エンタープライズ向けSaaS級のものではない。心配無用、それはもっと先の話だ。今は、このモデルが複雑に書かれた課題を一度に解析して理解し、ほとんどの場合、首尾一貫した実行可能な回答を生み出すことができると示すだけで十分だ。

DeepMindチームはこう書いている。「コード生成に関する私たちの探求には改善の余地が大きく残されており、将来はプログラマーの生産性を向上させ、現在コードを書いていない人々にもこの分野を開くことができるような、よりエキサイティングなアイデアを示唆しています」。最後の部分は、筆者に当てはまる。もしAlphaCodeがCSSでレスポンシブレイアウトを変更できるなら、私よりもよほど優れている。

こちらのデモサイトでは、AlphaCodeがどのように構築されたのか、また、さまざまな問題に対するAlphaCodeの解決策をより詳しく見ることができる。

画像クレジット:Krisztian Bocsi/Bloomberg / Getty Images

[原文へ]

(文:Devin Coldewey、翻訳:Aya Nakazato)

純粋数学もタンパク質生成も、人工知能におまかせを

人工知能(AI)が興味深い分野である理由の1つに、AIは何が得意なのかを誰も知らない、ということがある。12月2日号の「Nature」に掲載された最先端の研究所による2つの論文では、機械学習(ML)は、タンパク質生成のような技術的に難しい作業、純粋数学のような抽象的な作業のどちらにも対応し得ることが示されている。

最近話題になった、Google(グーグル)が買収したDeepMind(ディープマインド)やワシントン大学David Baker(デビッド・ベイカー)研究室による、タンパク質の物理的構造(フォールディング)の予測に対するAIの利用の実証結果を見れば、タンパク質の話はさほど驚くことではないかもしれない。偶然ではないが、この記事で紹介する論文を発表したのは、そのDeepMindとベイカー研究室である。

関連記事
DeepMindのAlphaFold2に匹敵するより高速で自由に利用できるタンパク質フォールディングモデルを研究者が開発
DeepMindがAlphaFoldで折りたたみを行った人体のすべてのプロテオームをオンライン化

ベイカー研究室の研究によると、タンパク質配列がどのようにフォールディングされるかを調べるために作成したモデルは、本質的に反対(逆)のことをさせることができるという。つまり、特定のパラメータを満たす新しいタンパク質配列を生成し、in vitro(試験管内)のテストで想定通りに機能させることができるというのだ。

タンパク質の構造を予測するために作成されたAIが、逆に新しいタンパク質を作ることもできるという発見は重要である。なぜなら、絵の中のボートを検出するAIがボートを描けないとか、ポーランド語を英語に翻訳するAIが英語をポーランド語に翻訳することができないという例はあっても、逆のことができるかどうかは必ずしも明らかではなかったからだ。

逆方向の可能性の研究は、SalesForce Research(セールスフォースリサーチ)のProGen(プロジェン)など、すでにさまざまなラボで行われている。しかし、ベイカー研究室のRoseTTAFoldとDeepMindのAlphaFoldは、プロテオームの予測の精度という点では圧倒的に優れており、これらのシステムのテクノロジーを創造的な活動に活かせるというのは喜ばしいことだ。

AIの抽象化

一方、Natureの表紙を飾ったDeepMindの論文は、AIが数学者の複雑で抽象的な作業を支援できることを示している。これは数学の世界を覆すものではないが、機械学習モデルが数学をサポートできるということを示す、実に斬新で、これまでになかった成果だ。

この研究は、数学とは主に関係性とパターンの研究である、という事実に基づいている。例えば、あるものが増えれば別のものが減り、多面体の面が増えればその頂点の数も増える。これらの事象はシステマチックなので、数学者はこれらの正確な関係性を推測することができる。

中学校で習う三角関数は、そのシンプルな例だ。三角形の内角の和が180度になることや、直角三角形の斜辺以外の辺の二乗の和が斜辺の二乗になるというのは三角形の基本的な性質である。しかし、8次元空間にある900辺の多面体ではどうだろう。a2 + b2 = c2のような公式を見つけることができるだろうか?

結び目の幾何学的表現と代数的表現という2つの複雑な性質の関係を示す例(画像クレジット:DeepMind)

観察された事象が偶然のものではなく普遍的なものであることを確信するためには、多くの例を調べる必要があるが、数学者による作業には限界がある。DeepMindはここにAIモデルを導入し、省力化を図ることにした。

オックスフォード大学のMarcus du Sautoy(マーカス・デュ・ソートイ)教授(数学)は、DeepMindのニュースリリースの中で「コンピューターは人間が追随できない規模のデータを出力することに長けているが、(今回の場合)異なるのは、人間だけでは検出できなかったであろうデータのパターンを拾い出すAIの能力である」と説明している。

このAIシステムにサポートされて得られた実際の成果は筆者が理解できる範囲をはるかに超えているが、読者の中に数学者がいれば、DeepMindから引用された以下の内容を理解してもらえると思う。

ある有向グラフと多項式の間には関係があるはずだという「組み合わせ不変性予想」は、40年近く進歩を拒んできました。MLの技術を用いて、そのような関係が実際に存在するという確信を得ること、そしてその関係が、破れた二面体の間隔や極値反射などの構造に関連しているのではないか、という仮説を立てることができました。この知識をもとに、Geordie Williamson(ジョーディー・ウィリアムソン)教授は、組み合わせ不変性予想を解決する、驚くべき美しいアルゴリズムを予想することができました。

代数学、幾何学、量子論には(結び目について)独自の理論があります。これらの異なる理論がどのように関係しているかというのは長年の謎でした。例えば、結び目の幾何学は代数学について何を教えてくれるのでしょうか?私たちは、そのようなパターンを発見するためにMLモデルをトレーニングしました。驚くべきことに、これにより、ある特定の代数的な量(表現)が結び目の幾何学と直接関係していることがわかりました。これまで明らかではなく、既存の理論でも示唆されていなかったことです。私たちはMarc Lackenby(マーク・ラッケンビー)教授と協力し、MLの帰属手法を使って、これまで見過ごされていた構造の重要な側面を示唆する、自然な傾きと呼ぶ新しい量を発見しました。

この予想は、何百万、何千万もの例で裏づけられているが、自分の仮説を厳密に検証するよう指示するのにピザやコーヒーをおごる必要がない、というのもコンピューターの利点である。

上述の例は、DeepMindの研究者たちと教授たちが緊密に協力して(MLの)具体的な利用方法を考え出したものなので「(AIは)普遍的に純粋数学のアシスタントである」といえるものではない。しかし、ルール大学ボーフムのChristian Stump(クリスチャン・スタンプ)教授がNatureのSummaryで述べているように、これが機能するということは、そのようなアイデアに向けた重要な一歩である。

スタンプ教授は次のように記す。「どちらの結果も、その分野の研究者にとって必ずしも手の届かなかったものではありませんが、どちらも、これまで研究者が見つけられなかった真の洞察を提供しています。従って、今回の成果は、抽象的な枠組みの概要以上のものです」「このようなアプローチが広く適用できるかどうかはまだわかりませんが、Alex Davies(アレックス・デイビス)等(ら)の論文は、数学研究における創造的プロセスをMLツールにサポートさせる手法の有望性を示しています」。

画像クレジット:DeepMind

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

グーグルの親会社アルファベットがAIを活用して創薬に挑むIsomorphic Labsを設立

創薬の分野はAIの能力によって超高速化が進んでいる。複数の企業がさまざまな方法でAIを応用し、膨大な実際上の課題を、扱いやすい情報の問題に変えている。最近の動きとして、Google(グーグル)の親会社であるAlphabet(アルファベット)が、DeepMind(ディープマインド)のトップであるDemis Hassabis(デミス・ハサビス)氏の下でIsomorphic Labs(アイソモルフィックラボ)を設立し、この有望な新分野に挑戦する。

この会社については、初公開のブログ記事と、それに付随するごく一般的なFAQでは、ほとんど何も明らかにされていない。同社の目的は「生体システムを第一原理から理解し、病気治療の新方法を発見する計算プラットフォームを開発する」ことだ。

もちろん、この設立宣言には、いくつかの前提条件が織り込まれている。その中でも最も重要なのは、創薬に適した方法で生体システムを計算機上でシミュレートすることが可能であるという前提だ。

過去5年ほどの間に、よく似た目標を追求するために、複数の大企業が形成され、何億ドル(何百億円)もの資金が投入されたが、目に見える革命や、これまで治療不可能だった病気の特効薬をAIが発見したというようなことはなかった。その理由について考察することは本稿の範囲を超えているが(近い将来、Isomorphic Labsが取り組むことになるだろう)、AIシステムというものは奇跡の工場ではなく、いまだに膨大な時間・資金・試験管を必要とする長く複雑なプロセスの一部に過ぎないことは明らかだ。

ハサビス氏も馬鹿ではない。同氏は生物学を「情報処理システムです。ただし、非常に複雑で動的な」とやや楽観的に表現しているが(この分野の読者は下にスクロールしてコメント欄に向かっていることだろう)、直後にやや穏やかな言葉に置き換えた。

生物学はあまりにも複雑で混沌としているので、単純な数式では表現できないものです。しかし、物理学を記述する適切な言語は数学だということがわかったように、AIを応用する対象として生物学が最適だということが明らかになるかもしれません。

情報システムと生物システムには共通の構造があるのではないかという考えから「Isomorphic Systems(同型のシステム)」と名づけられた。同型とは、形は似ているが起源が異なるという意味だ。

同氏の説明の背景には、2020年、生物学者の度肝を抜いた、DeepMindのAI搭載タンパク質折り畳み構造解析システム「AlphaFold」が有効だとわかり、非常に複雑な分野で新たな常識を生み出すことに貢献したことがあるのは間違いない。

DeepMindの学習システムが汎用性や知識の伝達に特に親和性があることが明らかになりつつある。さまざまなタスクに再利用できる構造を持つということだ。AlphaFoldの成功が示すように、生物学的システムがこの種のシミュレーションや分析に適しているとすれば、ハサビス氏による検証は同社の幅広い能力を証明することになるかもしれない。

しかし、それが実現するのはしばらく先のことだろう。DeepMindがAI研究でスタートダッシュを見せたとしても、Isomorphicは基本的にこの問題をゼロから始めることになる(今後も両社は別々の会社として存在する見込みだが、研究結果は共有される可能性がある)。Isomorphicは、採用により「世界レベルの学際的なチーム」を構築しており、おそらく1~2年後には、同社の野望から生まれる成果の最初の兆候を目にすることができるだろう。

画像クレジット:Isomorphic Labs

原文へ

(文:Devin Coldewey、翻訳:Nariko Mizoguchi

DeepMindがAlphaFoldで折りたたみを行った人体のすべてのプロテオームをオンライン化

DeepMind(ディープマインド)と数社の研究開発パートナーは、人体を構成するほぼすべてのタンパク質の3次元構造が格納されたデータベースをリリースした。この3次元構造は、2020年実証された画期的なタンパク質フォールディングシステムAlphaFoldを使って、コンピューター上で算出したものだ。無料で利用可能なこのデータベースは、数百の分野や領域に及ぶ科学者たちに大幅な進歩と利便性の向上をもたらし、生物学と医学において新しい段階の礎を形成する可能性が高い。

AlphaFoldタンパク質構造データベースは、DeepMind、欧州バイオインフォマティクス研究所、その他の研究機関が協力して構築したもので、 数十万のタンパク質アミノ酸配列について、その構造をAlphaFoldによって予測した結果が格納されている。最終的には、さらに数百万を追加して「世界のタンパク質年鑑」を作成する計画だ。

「この取り組みは、科学知識を高めるためにこれまでにAIが行った最も重要な貢献であると確信しています。また、AIが社会にもたらすことができる利点のすばらしい一例でもあります」とディープマインドの創業者兼CEOであるDemis Hassabis(デミス・ハサビス)氏はいう。

ゲノムからプロテオームへ

無理もないことだが、プロテオミクス全般について馴染みのない方もいると思うので、簡単に説明しておく。プロテオミクスのイメージを把握するには、別の大きな取り組みであるヒトゲノムの解読作業について考えてみるのが一番良い。ヒトゲノムの解読は、1990年代から2000年代にかけて、世界中の多数の科学者グループや組織が長年に渡って取り組んだ一大作業だ。そして遂にヒトゲノムが解読されたおかげで、数え切れない症状の診断と理解に大いに役立ち、そうした症状の治療薬や治療法の開発が進んだ。

しかし、ヒトゲノムの解読はこの分野における取り組みのほんの始まりに過ぎなかった。喩えていえば、巨大なジグゾーパズルの縁のピースがようやくすべて埋まった段階だ。当時、誰もが注目していた次の大きなプロジェクトは、人のプロテオーム、つまり、人体で使用されており、ゲノムにコード化されるすべてのタンパク質を把握することだった。

プロテオームを把握するときに問題となるのは、ゲノムの解読よりもはるかに複雑であるという点だ。タンパク質はDNAと同様、既知の分子の配列だが、DNAでは、アデニン、グアニンなど、お馴染みの4種類の塩基しか存在しない。しかし、タンパク質では、20のアミノ酸が存在する(各アミノ酸は遺伝子を構成する複数のベースによってコード化される)。これだけでも、DNAに比べてはるかに複雑だが、それは一端に過ぎない。アミノ酸の配列は単なる「コード」ではなく、実際には、編み込まれ、畳み込まれて小さな分子折り紙マシンを形成し、これが人体であらゆる種類のタスクを遂行する。ちょうど、2進コードから、実世界のモノをあらわす複雑な言語に翻訳されるようなものだ。

これは事実上、プロテオームが数百のアミノ酸の2万個の配列で構成されているだけでなく、その各配列に物理的な構造と機能が備わっていることを意味する。プロテオームの最も難解な部分は特定の配列からどのような形状が形成されるのかという点だ。この解析は一般に、X線結晶構造解析などを使用して実験的に行われるが、1つのタンパク質を解析するのに、数カ月またはそれ以上の長く複雑なプロセスを要する。たとえ、最高の実験室と実験技術が使えるとしてもである。タンパク質の構造はコンピューターでも予測できるが、これまでは十分に信頼性の高い予測結果が得られていなかった。が、AlphaFoldの登場でそれが一変したのだ。

関連記事:Alphabet傘下のAI技術企業DeepMindがAIベースのタンパク質構造予測で歴史的なマイルストーン

構造生物学の分野に驚きをもたらす

この記事ではコンピューターによるプロテオミクスの歴史について深く立ち入ることはしないが、基本的には、15年前の分散型の力技方式(Folding@homeを覚えているだろうか)から、この10年間でより洗練されたプロセスへと移行してきた。そこにAIベースのアプローチが登場し、DeepMindのAlphaFoldが世界中の他のシステムを一足飛びに追い抜いて世界を驚かせた。2020年にはさらに大きな前進があり、一部の専門家たちに、任意のアミノ酸配列を3次元構造に変換する問題は解決されたと言わしめるほどの高い精度と信頼性が達成された。

私がこの長い歴史を上記の1段落にまとめたのは、詳細な説明は以前の記事で行ったからだが、今回の前進がいかに突然でなおかつ完全なものだったことは強調しても強調しすぎることはない。数十年に渡って世界中の最高の頭脳を悩ませてきた問題が、1年のうちに「使えるアプローチはあるかもしれないが、極端に遅く、コストが極めて高い」というレベルから「正確で、信頼性が高く、市販のコンピューターで実行できる」というレベルにまで進歩したのだから。

画像クレジット:DeepMind

今回DeepMindが実現したブレイクスルーの詳細とその達成方法については、コンピューターバイオロジーとプロトテオミクスの分野の専門家たちにおまかせすることにする。彼らが、今後数カ月および数年かけて、今回の進歩の内容を分解して繰り返し説明してくれるだろう。我々が今懸念しているのは実際の結果だ。DeepMindは現在、AlphaFold 2(2020年時点のバージョン)の公開以来、彼らが入手できるあらゆるタンパク質のアミノ酸配列について、今回のモデルの微調整だけでなく実行に時間を費やしている。

同社によると、その結果、人体プロテオームの98.5%の「たたみ込み」を完了したという。つまり、AIモデルが充分な信頼性があると判断した(そして何より、我々が充分に信頼できる)予測結果が、現実になったということだ。同社は、人体以外にもイーストやE. colなど、20の有機体についてプロテオームのたたみ込みを完了しており、合計で35万のタンパク質の構造が明らかになった。これはもちろん、これまでのレベルをはるかに凌ぐ、最大かつ最高のタンパク質構造コレクションだ。

これらはすべて無料でブラウジング可能なデータベースとして公開される予定だ。研究者は、アミノ酸配列またはタンパク質名を入力するだけでその3次元構造を即座に表示できる。プロセスとデータベースの詳細については、雑誌ネイチャーに掲載されている論文をお読みいただきたい。

「このデータベースは、見ていただければ分かるとおり、検索バーになっています。タンパク質構造のグーグル検索のようなものと考えてください」とTechCrunchのインタビューでハサビス氏はいう。「3次元構造を3Dビジュアライザーで表示して、各部を拡大縮小したり、遺伝子配列を質問したりできます。EMBL-EBIと連係しているため、EMBL-EBIの他のデータベースともリンクされています。ですから、関連する遺伝子に即座に移動して表示できます。他のすべてのデータベースとリンクされているため、他の有機体の関連する遺伝子、関連する機能を持つ他のタンパク質などを確認できます」。

「私自身科学者として、計り知れない奥深い機能を備えたあるタンパク質の働きに取り組んでいます」とEMBL-EBIのEdith Heard(エディス・ハード)氏はいう(同氏は具体的なタンパク質の名前には触れなかった)。「現時点の、特定のタンパク質の先端部の構造を即座に確認できるのは、本当にすばらしいことです。これまでは何年もかかっていましたから。タンパク質の構造を調べて「なるほど。これが先端部か」と納得して、その先端部が実際に行っている仕事の研究に集中できます。これによって科学の進歩が数年単位で加速されるのではないかと思います。20年ほど前に、遺伝子配列を決定できるようになったときと同じように」。

こういうことが可能になったのは本当に画期的なことなので、この分野の研究全体が一変し、それと並行してこのデータベースも変わっていくのではないか、とハサビス氏はいう。

「構造生物学者たちはまだ、ほんの数秒でタンパク質の構造を調べられるという状況に慣れていません。これまでは、実験で何年もかけて調べていたわけですから」と同氏はいう。「これによって、質問の立て方とか実験のやり方という点で、これまでとはまったく異なる新しいアプローチが生まれるのではないかと思います。そうしたことができることが分かってくると、例えば1万のタンパク質を特定の方法で関連付けるとどうなるのか確認したい、などというセレンディピティ(偶然の発見)的な質問にも答えることができるツールが構築されるようになるかもしれません。今は誰もそんな質問を立てることもありませんから、そんなことをする通常的な方法もありません。ですから、我々は新しいツールの作成を開始する必要があると思います。研究者たちがこのデータベースの使い方に慣れてくれば、そうしたツールの需要はあるでしょう」。

これには、長い開発の歴史の中でオープンソース形式でリリースされてきたソフトウェアの派生バージョンと改善バージョンも含まれる。ワシントン大学のベイカー研究室の研究者によって独立に開発されたシステムRoseTTAFoldもすでに存在している。このシステムは2020年、AlphaFoldのパフォーマンスを上回り、同じような構造をより効率的に作成できるようになった。ただし、DeepMindは最新バージョンで再度トップの座を取り戻したようだ。いずれにしても、こうした秘密兵器が誰でも使えるようになったということだ。

関連記事:DeepMindのAlphaFold2に匹敵するより高速で自由に利用できるタンパク質フォールディングモデルを研究者が開発

現実的なマジック

構造生物情報工学者にとって一番の夢が実現する見込みがあるのはすばらしいことだが、DeepMindとEMBL-EBIが実現したシステムが即座に現実の利点をもたらすことも重要な点だ。その利点が明らかに見てとれるのは、Drugs for Neglected Diseases Institute(DNDI)とのパートナーシップだ。

DNDIは、その名前から想像できるように、稀であるがために、治療法の発見につながる可能性のある大手の製薬会社や医療研究機関からの注目や投資の対象とならない病気に焦点を当てている。

「これは臨床遺伝学の分野では極めて現実的な問題です。この分野では、症状のある子どもに遺伝子配列の異常が疑われる場合、その特定の遺伝的疾患の原因となっている可能性の高い遺伝子を特定する必要があるからです。タンパク質の構造情報が広く利用できるようになれば、そうした作業が大きく改善されることはほぼ間違いありません」と、DNDIのEwan Birney(イワン・バーニー)氏は今回のリリースに先立って報道陣に語った。

特定の問題の根本原因であることが疑われるタンパク質を調べる作業は通常、大変な費用と時間を要する。ましてや実際の患者が少ない病気の場合、癌や認知症といったより一般的な患者数の多い症状が優先され、お金と時間はますます不足する。しかし、10の正常のタンパク質と10の配列異常のあるタンパク質の構造を簡単に比較できれば、これまでのように何年にも渡って綿密な実験作業を行わなくても、ものの数秒で原因が明らかになるかもしれない(治療薬の発見と臨床試験には数年かかるが、それでも、たとえばシャーガス病の原因究明を、2025年からではなく明日からすぐに始めることもできるのだ)。

RNAポリメラーゼII(タンパク質)がイースト内で機能しているところ(画像クレジット:Getty Images / JUAN GAERTNER/SCIENCE PHOTO LIBRARY)

実験的に結果が確認されていない構造について、コンピューターの予測に頼りすぎているのではないかと思われるといけないので、まったく別のケースを紹介しよう。このケースでは厄介な実験による確認作業の一部をすでに終えていた。ポーツマス大学のJohn McGeehan(ジョン・マクギーハン)氏(別の潜在的な使用事例でDeepMindと連携した)は、同氏のチームのプラスチック分解の取り組みにどのような影響があったかを説明してくれた。

「最初我々はDeepMindに7つのアミノ酸配列を送りました。そのうちの2つは実は、実験による構造解析をすでに終えていたのです。ですから、結果が返ってきたときにその2つについてはテストできました。そのときは正直、身の毛がよだつような興奮を覚えました」とマクギーハン氏はいう。「DeepMindが作成した構造は、我々が実験で確認した結晶構造と完全に一致していたのです。いえ、場合によっては、結晶構造から分かるよりも詳細な情報が含まれていました。我々はその情報を使って、より高速に作用するプラスチック分解酵素を直接開発することができました。その酵素の実験は、すでに始まっています。ですから、我々のプロジェクトは数年分前進したと言えるでしょう」。

DeepMindの計画は、今後1、2年の間に、あらゆる既知の配列済みタンパク質の3次元構造を予測することだ。その数は1億近くにもなる。その大部分について(数は少ないがこのアプローチでは対応できない構造もある。それについては、まもなく公開されるようだ)生物学者たちは予測結果を信頼できるはずだ。

3次元の分子構造を調べるのは数十年前から可能だったが、そもそもその構造を見つけること自体難しい(画像クレジット:DeepMind)

AlphaFoldが構造の予測に使っているプロセスは、ある意味、実験的な方法よりも優れている。AIモデルがその予測結果に達する過程については不明確な部分も数多くあるものの、ハサビス氏にとって、これは単なるブラックボックスではないことは明白だった。

「このケースの場合、説明可能性は、プラスチックの分解というその用途の重要性を考えると、機械学習に対してよく言われるように、『あればいい』というものではなく、『なくてはならない』ものだったと思います」と同氏はいう。「ですから、このケースについては、説明可能性が確保されるように、特定のシステムに対してできることはすべてやったと思います。アルゴリズムの粒度という意味での説明可能性、出力、予測結果、構造という観点からの説明可能性、そしてそれらの信頼性、予測された領域のうち信頼可能な部分という意味での説明可能性があります」。

にもかかわらず、同氏はシステムの説明に「奇跡的」という言葉を使っていたため、私の見出し語に対する特殊感覚が引きつけられた。ハサビス氏によると、このプロセス自体には奇跡的な部分は何もないが、その処理によって作成されるものがあまりにパワフルなので少し驚いたのだという。

「これまでで最も困難なプロジェクトでした」と同氏はいう。「コードの動作方法、システムの動作方法については詳細部分まで明確であり、すべての出力も確認できるのですが、システムが行っていること、つまり、この1次元のアミノ酸の鎖を取り込んで美しい3次元構造を作成するのを見ると奇跡的という言葉を使いたくなるのです。しかもその構造の多くは審美的にも信じられないくらい美しく、科学的および機能的にも価値のあるものでしたから。ですから、あれはある種の感嘆の言葉だったと思います」。

大量のたたみ込みの実行

AlphaFoldとプロテオームデータベースがもたらしたインパクトはすぐに広く伝わらなかったものの、初期のパートナーが証言しているように、これが短期的にも長期的にも重大なブレイクスルーになることはほぼ間違いない。しかし、だからといってプロテオームの神秘が完全に解決されたわけではない。それどころか、解決にはまだほど遠い。

前述のとおり、基本的なレベルでのプロテオームの複雑さに比べれば、ゲノムの複雑さなど何でもないが、このDeepMindがもたらした大きな進歩を以ってしても、プロテオームの上っ面をなでただけに過ぎない。AlphaFoldは、非常に限定的だが、非常に重要な問題を解決する。すなわち、アミノ酸の配列を受け取って、その配列が実際に実現する3次元形状を予測する。しかし、タンパク質は真空中に存在するわけではない。構造を変え、破壊と再生を繰り返し、さまざまな条件、および要素や他のタンパク質の存在に反応し、それらに応じて自身も形を変える複雑でダイナミックなシステムの一部だ。

実際、人体を構成する多くのタンパク質の中には、AlphaFoldがその予測結果に中くらいの信頼性しか与えられなかったものが大量にある。こうしたタンパク質は、基本的に「無秩序な」タンパク質であり、あまりに可変的であるため静的なタンパク質のように特定することができない可能性がある(静的なタンパク質の場合、AlphaFoldは非常に精度の高い予測システムであると評価されることになる)。このように、解決しなければならい問題はまだまだ山積みの状態だ。

「新しい課題に目を向けるときがきています」とハサビス氏はいう。「もちろん、まだ課題は山積みです。それでも、先程触れたタンパク質の相互作用、複雑さ、リガンド結合といったさまざまな問題に我々は取り組んでおり、こうした課題を解決する極めて初期段階のプロジェクトも立ち上げています。しかし、今回の大きな前進は少し時間を取って取り上げる価値はあると思います。それはコンピューターを使った生物学のコミュニティで20年から30年にも渡って取り組みを続けてきた問題であり、今回ようやくその最重要部分が解決されたと考えています」。

画像クレジット:DeepMind

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

DeepMindのAlphaFold2に匹敵するより高速で自由に利用できるタンパク質フォールディングモデルを研究者が開発

2020年末、DeepMind(ディープマインド)は、同社のAIモデルAlphaFold2(アルファフォールド2)がタンパク質の構造を正確に予測(一般的で非常に難しい問題だ)することで生物学界を驚かせた。数十年来の問題を「解決できた」と多くの人が宣言したからだ。今回研究者たちは、このときDeepMindが世界を飛び越えてみせたように、今度はRoseTTAFold(ロゼッタフォールド)でDeepMindを飛び越えたと主張している。RoseTTAFoldは、わずかな計算コストでほぼ同じことを行うシステムだ(しかも無料で使用できる)。

AlphaFold2は、2020年11月に開催されたCASP14(タンパク質を構成するアミノ酸の配列から、その物理的構造[フォールディング]を予測するアルゴリズムを競う仮想イベント)で競合他社を圧倒し、業界の話題となった。DeepMindのモデルは、他のモデルをはるかに凌駕し、非常に高い信頼性のある精度を誇っていたため、この分野の多くの人たちが(半ば真剣に、そしてユーモアを持って)新しい分野への転身を口にしていた。

しかしDeepMindによるこのシステムの計画だけは、誰も満足させていないように思えた。その内容が網羅的かつオープンに記述されていなかったため、(Alphabet / Googleが所有する)DeepMindが、秘密のソースを多かれ少なかれ独り占めしようとしているのではないかと心配する人もいたのだ。もちろんそれは彼らの特権ではあるものの、科学の世界における相互扶助の精神にはやや反するものだと思われた。

【更新】ちょっとしたサプライズだが、DeepMindは米国時間7月15日に、手法に関するより詳細な内容を「Nature」誌に発表した。コードはGitHubで公開されている。このことにより、前述の懸念はかなり軽減されたものの、以下に説明した先進技術の内容にはまだ十分意味がある。記事の最後にはチームからのコメントも付けておいた。

関連記事
Alphabet傘下のAI技術企業DeepMindがAIベースのタンパク質構造予測で歴史的なマイルストーン
新型コロナ治療に道を開くワシントン大ベイカー教授の研究に3.2億円のブレークスルー賞

この懸念は、ワシントン大学のDavid Baker(デビッド・ベイカー)氏とMinkyung Baek(ミンギヨン・ベイ)氏を中心とする研究者が、最新の科学誌『Science』に発表した研究によって、少なくとも部分的には解消されたようだ。ベイカー氏は、ご存知の方もいると思うが、人工的に作られたタンパク質を用いて新型コロナウイルス(COVID-19)に対抗する研究でBreakthrough Prize(ブレイクスルー賞)を受賞したばかりだ。

研究チームが開発した新モデルRoseTTAFold(AlphaFold2の手法を参考にしたとベイカー氏がメールで率直に答えている)は、AlphaFold2に匹敵する精度で予測を行うことができる。

ベイカー氏は「AlphaFold2グループは、CASP14ミーティングでいくつかの新しいハイレベルなコンセプトを発表しました。そうしたアイデアからスタートし、グループの仲間と一緒にブレインストーミングを重ねたことで、ミンギョンはわずかな時間で驚くほどの成果を上げることができました」と語った(「彼女は本当にすごいよ!」と彼は付け加えた)。

予測されたタンパク質の構造とその正解の例。90点以上は非常に良いとされている(画像クレジット:UW/Baek他)

ベイカー氏のグループはCASP14では2位という立派な成績を収めたが、DeepMindの手法が一般的なレベルで説明されたものだとしても、彼らの手法と競合するものであることに気が付いた。彼らは、(1)アミノ酸の配列、(2)残基間の距離、(3)空間上の座標を同時に考慮する「3トラック」ニューラルネットワークを開発した。その実装は非常に複雑で、この記事では紹介しきれないが、結果として、ほぼ同じ精度レベルを達成したモデルとなった。繰り返しになるが、1年前にはまったく存在しなかったレベルだ。

さらにRoseTTAFoldは、このレベルの精度をより速く、つまり、より少ない計算量で達成する。

DeepMindは、個々の予測を行うために複数のGPUを何日もかけて使用したと報告していますが、私たちの予測手法は、サーバーの利用と似たやり方で、ネットワークを介して1回のパスで行われます【略】RoseTTAFoldのエンド・ツー・エンドバージョンでは、400残基未満のタンパク質のバックボーン座標を計算するのに、RTX2080 GPUで10分以内で収まります。

聞こえただろうか?これは何千人もの微生物学者が安堵のため息をつき、スーパーコンピューターの利用を申請するメールの下書きを捨てた音だ。現在、2080を手に入れるのは容易ではないかもしれないが、重要な点はハイエンドのデスクトップGPUがあれば、ハイエンドクラスターを数日間稼働させることなく、数分でこのタスクを実行できるということだ。

RoseTTAFoldは要件が控えめなため、AlphaFold2では考えられなかったような、パブリックなホスティングや分散にも適している。

ベイカー氏は「私たちは、誰もがタンパク質の配列を投稿して、構造を予測できる公開サーバーを用意しています」と語る。「数週間前にサーバーを立ち上げてから、4500件以上の投稿がありました。また、ソースコードも自由に利用できるようにしています」。

これは非常にニッチな問題に見えるかもしれないが、タンパク質の折り畳みは歴史的に見ても生物学で最も困難な問題の1つであり、その解決のために数え切れないほどの時間がハイパフォーマンスコンピューティングに費やされてきた。タンパク質の構造を予測するために、人々が自分のコンピュータサイクルを寄付する分散コンピューティングアプリFolding@Homeが話題になったことを憶えている人もいるだろう。1000台のコンピューターで解決に数日から数週間かかっていたような問題(基本的に力任せに解を作り出し検証する)でも、今ではデスクトップ1台で数分で解決できるようになった。

タンパク質の物理的構造は、生物学の中でも最も大切なものだ。なぜなら、私たちの体の中で大部分の仕事をしているのはタンパク質であり、治療のために変更したり、抑制したり、強化したりしなければならないのもタンパク質だからだ。しかし、そのためにはまずタンパク質を理解する必要があるのだが、2020年の11月まではその理解を計算機を使って確実に行うことはできなかったのだ。CASP14ではそれが計算可能であることが証明され、そして今回それが広く利用できるようになったのだ。

だが残念ながらこれらは、タンパク質フォールディングの問題を解決するための「ソリューション」そのものではない。もちろん今回、中立的な状態で静止しているタンパク質のほとんどの構造を予測することができるようになり、複数の領域に大きな影響を与えるようにはなったものの、タンパク質が「中立的な状態で静止している」ことはほとんどない。他の分子をつかんだり離したり、ゲートを通して他のタンパク質をブロックしたりすり抜けさせたり、とにかくあらゆることをするために、タンパク質自身がひねったりねじったりされるのだ。こうした相互作用は、数が莫大で、複雑で、予測するのが難しく、AlphaFold2もRoseTTAFoldもそれを計算することはできない。

ベイカー氏は「この先、たくさんのエキサイティングなテーマが待ち受けています【略】物語は始まったばかりなのです」という。

DeepMindの論文について、ベイカー氏は大学人の仲間意識から次のようにコメントしている。

読んでみて、すばらしい業績を描いたすてきな論文だと思いました。

このDeepMindの論文は、私たちの論文をきれいに補完するものであり、私たちの研究が彼らの進歩に基づいていることを考えると、私たちの論文より前に発表されたのは適切なことだと思います。

読者のみなさまには、両論文を楽しんでいただけると思います。2つは重複するものではありません。私たちが論文で指摘しているように、彼らの手法は私たちの手法よりも精度が高く、その差の原因が彼らの手法のどのような特徴にあるのかを知ることは、非常に興味深いところです。私たちはすでに、RoseTTAFoldをタンパク質の設計やより体系的なタンパク質複合体の構造予測に使用していますが、DeepMindの論文から得られたアイデアを取り入れることで、従来の一本鎖のモデリングとともに、これらを急速に改善できると期待しています。

もし科学とその潜在的な影響について興味があるならば、CASP14におけるAlphaFold2のパフォーマンスを受けて書かれた、方法とあり得る次のステップについての、より詳細で技術的な説明を読んでみるとよいだろう

カテゴリー:バイオテック
タグ:DeepMindタンパク質RoseTTAFoldワシントン大学

画像クレジット:Ian Haydon, UW Medicine Institute for Protein Design

原文へ

(文:Devin Coldewey、翻訳:sako)

DeepMindのAI「MuZero」はルールを教わらなくても独学でゲームをマスターする

DeepMind(ディープマインド)は、AIがゲームの達人になれることに加え、ルールを教わらなくても強くなれることを証明するという目標を立てていたが、最新のAIエージェントMuZero(ミューゼロ)は、見た目はシンプルながら戦略が複雑な囲碁、チェス、将棋といったゲームで達成しただけでなく、見た目に複雑なAtari(アタリ)のゲームでもそれを実証した。

DeepMindの初期のAIの成功例は、少なくとも、有望な次の一手を示す膨大な決定木の中を、非常に効率的にナビゲートできるという一面が功を奏していた。囲碁やチェスでの決定木は、駒の動かし方や、この手を打つと次に何がどうなるかといった、非常に厳格な法則によって規定されている。

囲碁の世界チャンピオンを下したAIのAlphaGo(アルファゴ)は、ゲームのルールを理解し、しっかり頭に(というかメモリーに)刻みつつ、人同士の対局や人と自身との対局を研究して、最良の手や戦略を編みだしていた。その後継者であるAiphaGo Zero(アルファゴ・ゼロ)は、人間のデータは使わず、自己対局だけでそれをやってのけた。AiphaZero(アルファゼロ)は、2018年にそれと同じことを囲碁、チェス、将棋でも行い、単一でこれらすべてのゲームに熟達したAIモデルとなった。

しかしこれらのケースは、あらかじめAIにゲームの明確で不動のルールを教え込み、ルールに基づくフレームワークを構築して、そこから戦略を組み立てている。こう考えてほしい。ポーンはクイーンに成れることを教わっていれば、最初からそれを想定した計画を立てることができる。しかし、自分でそれを発見しなければならないとなれば、戦略はまったく違ったものになる。

この表から、それぞれのモデルがどのように基礎知識を獲得したかがわかる(画像クレジット:DeepMind)

この最新研究に関する同社のブログ記事にも書かれているが、AIに事前にルールを教えてしまうと、「複雑すぎて単純な法則に落とし込めない現実世界の雑多な問題に対応できなくなる」という。

だが、同社の最新型であるMuZeroは、前述のゲームがプレイできる上に、Atariのいろいろゲームもプレイできる。もちろん、ルールの説明書は一切与えられずにだ。この最新モデルは、Atariのゲームを、ごく基本的なルールすら教わることなく、どれも自分自身の体験(人のデータは使用しない)からプレイ方法を学ぶ。

ルールから最良のシナリオを描き出す代わりに(なぜなら不可能だからだ)、MuZeroはゲーム環境のあらゆる側面を取り上げ、観察して、それが重要か否かを判別する。何百万ものゲームを通して、それはルールの他にも、ポジションの総合的な価値、先へ進む際の基本方針、自身の行動の評価方法などを後から学ぶ。

特に自身の行動の評価能力は、自身の失敗から学ぶようになっている。前に戻り、別のアプローチでやり直してみることで、ポジションや方針の評価能力を磨いていく。

DeepMindが開発したAtariの57本のゲームに優れたモデルAgent57(エージェント57)を覚えておいでだろうか。MuZeroはそのAIの最大の利点を受け継ぎ、AlphaZeroの最も優れた部分と合体させた。MuZeroは、ゲーム環境全体をモデル化せず、意志決定に影響をおよぼす部分にだけ集中するという点で、そしてAlphaGoから受け継いだ、純粋に自身の試行と現場で得た知識だけに依存したルールのモデル化に立脚しているという点で、以前のものとは違っている。

ゲームの世界を理解することで、MuZeroは、Atariのゲームの多くがそうであるように、部分的にランダムで見た目に複雑な世界であったとしても、効率的に行動計画が立てられるようになる。そしてそれがAIを、あらゆる詳細事項を事前に教えられなくとも周囲の世界を理解し、安全に知的に現実世界と関わりが持てる存在へと導く(とはいえ、「人を傷つけてはいけない」などいくつかのルールは厳格に教えておく必要はあるが)。研究者の1人がBBCに語ったところによると、チームは現在、MuZeroがビデオ圧縮を改善できるかを見極める実験に着手しているという。明らかに、「Ms. Pac-Man(ミズ・パックマン)」とはまったく違う課題だ。

MuZeroの詳細は、12月23日にNature誌で発表されている

関連記事:DeepMindのAgent57 AIエージェントがATARIの57本のゲームで人間に勝利

カテゴリー:人工知能・AI
タグ:DeepMindゲームAtari

画像クレジット:DeepMind

原文へ

(翻訳:金井哲夫)

AlphabetのDeepMind、AIベースのタンパク質構造予測で歴史的なマイルストーンを達成

Google(グーグル)の親会社Alphabet(アルファベット)の傘下にあるAI技術企業DeepMind(ディープマインド)は、AIを使ったタンパク質の構造予測で大きなブレイクスルーを達成した。同社は米国時間11月30日、そのAlphaFold(アルファフォールド)システムが、50年前から科学界を悩ませてきた重要課題だったタンパク質のフォールディング(折りたたみ)問題を解決したと発表した。今回のAlphaFoldの進歩は、疾患の理解や将来の創薬、製薬の分野で、大きな飛躍につながる可能性がある。

AlphaFoldが今回合格したテストが示すものは、AIがタンパク質の構造をわずか数日のうちに、非常に高い精度で(実際、原子の幅の範囲内で正確に)把握できるということだ。これは疾病がどのように治療できるかを発見するために重要な、極めて複雑な仕事であるだけでなく、有毒廃棄物のような生態系の中で危険な物質を分解するための、最適な手法を見つけ出すような大きな課題を解決することも可能となる。おそらく「Folding@Home」という言葉を聞いたことがある人もいるかもしれない、これは、タンパク質のフォールディング実験に個人が自分の家庭用コンピュータ(かつてはゲーム機)の処理能力を提供できるプログラムだ。こうした大規模なグローバルクラウドソーシングの取り組みが必要だった理由は、従来の方法では部分的なフォールディングの予測にも何年もかかり、直接コストや計算リソースの面で非常に高価だったからだ。

DeepMindのアプローチは「Attention-based(アテンション・ベースド)ニューラルネットワークシステム」(基本的に、効率を上げるために特定の入力に注目できるニューラルネットワーク)も利用している。システムは、タンパク質のフォールディング履歴に基づいて、可能性のあるタンパク質のフォールディング結果の予測を継続的に洗練させていくことができるため、結果として非常に正確な予測を提供することができる。

タンパク質がどのようにして折りたたまれるのか、つまり、最初に作られたときのランダムなアミノ酸の列から、どのようにして最終的に安定した複雑な形の3D構造になるのか、病気がどのようにして広がっていくのか、そしてアレルギーなどの一般的な状態が、どのように引き起こされるのかを理解するための鍵となる。折りたたみのプロセスを理解していれば、それを変える可能性も生まれ、感染症の進行を途中で止めたり、逆に、神経変性や認知障害につながるフォールディングの間違いを修正したりすることができる。

DeepMindによる技術的な飛躍は、こうしたフォールディングをはるかに短時間かつ省資源の処理で正確に予測することを可能にし、病気や治療法の理解が進むペースを劇的に変える可能性がある。この成果は、私たちが現在苦痛に直面している新型コロナウィルス感染症(COVID-19)同様の、将来起こりうるパンデミックなどの世界的に重大な脅威に対処する役に立つだろう。新型コロナウイルス(SARS-CoV-2)のような脅威が将来新たに出現した際に、初期の段階でウイルスのタンパク質構造を高い精度で予測することで、効果的な治療法やワクチンの開発をスピードアップできるのだ。

カテゴリー:バイオテック
タグ:AlphabetDeepMindタンパク質

画像クレジット:CHRISTOPH BURGSTEDT/SCIENCE PHOTO LIBRARY / Getty Images

原文へ

(翻訳:sako)