ダーウィンの進化論に倣って自動運転車のAIを訓練するWaymoとDeepMind

Alphabet傘下で自動運転とロボタクシーの会社であるWaymoは、自動運転車のソフトウェアを強化するために人工知能を改良し、進化させるための訓練に力を入れている。最近同社は、やはりAlphabet傘下でAIを専門とするDeepMindと協力して、新たな訓練方法を開発した。質の高い訓練を効率的にできるようにすることを目指したもの。

両社が協力して開発した訓練方法は、Population Based Training(PBT、集団に基づく訓練)と呼ばれている。これは、より良い仮想ドライバーを育成するというWaymoの課題に対応するために考えられた方法で、その成果は印象的なものとなった。DeepMindがブログ記事で明らかにしたところによれば、PBTはWaymo車両が搭載する多くのセンサーによって発見された歩行者、自転車、バイクを認識して、それらの周囲に箱を描くニューラルネットワークで、誤認識が24%も減少したという。そのうえ、訓練に必要な時間とリソースの両方を削減することもできた。Waymoがこれまで採用していた標準的な方法に比べて、いずれもほぼ半減することができたという。

ちょっと戻ってPBTとは何かについて見てみよう。これは基本的に、ダーウィンが唱えた進化の仕組みからヒントを得た訓練方法だ。基本的にニューラルネットは、何かを試してみて、その結果を何らかの標準に対して評価し、その試みが期待した成果に比べて、より「正しい」か、より「間違っている」かを確認する。Waymoが使用していた訓練方法では、同じタスクに対して独立して動作する複数のニューラルネットを走らせていた。それらは、いわゆる「学習率」が異なるように設定されていた。言い換えれば1つのタスク、例えば画像の中の物体を認識するようなタスクを試みる際に、毎回アプローチに変化をつけられるようにしていた。学習率が高いほど、結果の質の変化も激しい。かなり良い結果が出ることもあれば、ものすごく悪い結果となることもある。一方、学習率が低いと進歩は緩やかとなる。急激に改善されたりする可能性は低いのだ。

このような比較による訓練は膨大なリソースを必要とし、どれが正しい答えを出したかということを判断するためには、担当エンジニアの直感に頼る必要があった。またエンジニアは、ダメなニューラルネットを「間引き」して、より良い結果を出すニューラルネットに処理能力を割り振るために、関連するコンポーネントを大規模に手動で検索する必要もあり、非常に労力がかかるものだった。

DeepMindとWaymoが、この実験によって試したのは、基本的にその間引きのプロセスを自動化すること。つまり、成果の上がらない訓練を自動的に切り上げて、そのタスクに対して最高の成果を発揮したニューラルネットから派生した、より見込みのあるものに置き換える。そこが、進化の過程に似ているというわけだ。いわば、人工的に「自然淘汰」を起こさせる。それこそが、この方法のキモとなる部分だ。

この方法に潜む落とし穴を回避するために、DeepMindは予備的な研究の後で、やり方を少し修正した。たとえば、モデルの評価を高速化し、15分間隔とした。また、確固とした評価基準とサンプルセットを作成し、テストによって現実の世界でも良好な性能を示すニューラルネットが生成できるようにした。訓練のために与えられた特定のデータに対してだけ、良好なパターン認識エンジンとして機能するようなものではない。

最後に両社は、一種の「孤立集団」によるアプローチも開拓した。限定されたグループの中でだけ、互いに競い合うニューラルネットの亜母集団を作ったのだ。つまり、島に取り残されたりして、大きなグループから切り離された動物の集団のようなものだ。大陸にいる親類と比べて、異なる特徴を発達させ、時にはよりうまく適応した特性を示すこともある。

すでに私たちの日常生活に組み込まれている技術に対して、深層学習と人工知能が実際にどのような影響を与え、さらに人間の生活に食い込んでくるのか。見ているだけでも、極めて興味深い。

原文へ

(翻訳:Fumihiko Shibata)