ロボットは通常、リアルタイムで反応する。何かが起きると、それに応える。カリフォルニア大学バークリー校の研究者たちは、ロボットたちに“自分のアクションの未来を想像させる”システムを研究している。つまり、目の前にまだない「もの」や「こと」に対応できるロボットだ。
その技術は予見視覚(visual foresight)と呼ばれ、ロボットが“自分が一連のある特定の動きをしたらそのあと視界(ロボットのカメラ)に何があるか”を予測できるようにする。
研究者たちの言葉で表現すると:
バークリー校の電気工学科/コンピューターサイエンス学科のSergey Levine助教授はこう語る: “人間が、自分がどう動けば物がどっちへどれだけ動くかを想像できるように、この方法ではロボットが、自分のいろんな行動がまわりの世界に与える影響を視覚化できる。複雑な現実世界の状況で、柔軟性の幅の大きいスキルの、インテリジェントなプランニング(行動計画)ができるようになるだろう”。
このシステムはたたみ込み型再帰ビデオ予測(convolutional recurrent video prediction)という方法で、“画像中の画素がロボットのアクションで次のフレームではどこへ移動するかを予測する”。それにより、物に触ったりそれを動かしたりする前に、次の行動をプランできるのだ。
Levineの研究室の博士課程の学生で、独自のDNAモデルを作ったこともあるChelsea Finnは、こう言う: “これまでは、ロボットによるスキルの学習は、付き添いの人間がフィードバックを提供することによって進行した。この研究がすごいのは、ロボットが物を操作するスキルを、完全に自力で習得することだ”。
そのロボットには、まわりの環境に関する情報も要らないし、特殊なセンサーも要らない。ただ自分の目(カメラ)に映った画像を分析して、正しく行動しようとする。それは、人間がテーブルの上の物を目で見ながら、落ちたり他の物を壊したりしないよう動かすのと同じだ。
“子どもたちは、おもちゃを動かしたり、握ったり、いろいろ遊びながら世界について学習する。この研究の目的は、ロボットにそれと同じことをやらせることだ。自律的な対話を通じて世界の形や構造を学習する”、とLevineは語る。“まだほとんど多芸ではないが、スキルを完全に自動的に学習することがキモだ。事前に観察した対話(“プレイ”)のパターンに基づいて、前に見たことのないオブジェクトでも、それらとのフィジカルで複雑な対話を予見できるようになる”。