Facebookがロボットを学習させるための本物そっくりな仮想の家を提供

AIを搭載したロボットが家の中で人の手伝いをするためには、ロボットは人間の環境で歩き回るための経験を数多く積まなければならない。それにはシミュレーター、つまり本物の家とまったく同じに見えて、同じように機能する視覚的世界が最適な訓練場となる。そこでFacebookは、現在最も先進的と言える、そうしたシステムを開発した。

その名は「Habitat」。Facebookのこのオープンソースのシミュレーターは、数カ月前に軽く紹介されていたが、米国時間6月15日に、CVPR(米電気電子技術者協会コンピュータービジョンおよびパターン認識に関する会議)にシステムに関する論文が提出されたことにともない、完全な内容が公表された。

現実世界を歩き回り単純な作業をさせるだけでも、ロボットを教育するには膨大な時間を要する。そのため、物理的空間で実際のロボットを動かす方法は現実性に欠ける。ある地点から別の地点へもっとも効率的に移動する方法や、引き出しの取っ手を掴んで引っ張り出す方法などを、実際に何度も繰り返し学ばせようとすれば、数百時間、実時間にして何年もかかってしまうだろう。

関連記事:WTFはコンピュータービジョンなのか?(未訳)

そうではなく、ロボットのAIを現実の家に相当する仮想環境に置く方法がある。結果として、基本的に、その3D世界を構築するコンピューターの最大の演算速度でもって超高速に訓練を重ねることができる。つまり、何百何千時間を要する訓練が、コンピューターの高速な処理速度により数分で完了するということだ。

Habitat自体は仮想世界ではなく、むしろシミュレーション環境を構築するプラットフォームだ。既存のシステムや環境(SUNCG、MatterPort3D、Gibsonなど)との互換性があり、利用者が現実世界の何百倍もの速度で効率的に訓練を実行できるよう最適化されている。

しかしFacebookは、仮想世界の最先端をさらに一歩進めたいとも考えている。そして作り出したのが「Replica」だ。これはHabitatのためのデータベースで、キッチン、浴室、ドア、長椅子が置かれたリビングルームなど、家全体を構成するあらゆる部屋の写実的なモデルが保管されている。FacebookのReality Labsが、現実環境の写真撮影と深度マッピングという血の滲むような作業の末に完成させた。

  1. habitat3

  2. replica1

  3. replica2

そこに再現された世界は非常に精細ではあるが、一部にノイズが見られる。とくに天井や手の届かない場所に多い。それはおそらく、AIビジョン・エージェントの動作には関係のない天井や部屋の遠い角などは、細かく再現する必要がないためだろう。椅子やテーブル、廊下を規定する壁などの形状のほうが、ずっと重要だ。

しかし、もっと重要なことは、開発チームが3Dデータに無数の注釈を加えたことだ。3D環境をただキャプチャーすれば済むというものではない。オブジェクトやサーフェイスには、一貫性のある完全なラベルを付ける必要がある。長椅子も、ただの長椅子ではなく、グレーの長椅子で青いクッションが複数置かれている長椅子という具合にだ。エージェントのロジックに応じて、それが「柔らかい」のか、「ラグの上に置かれている」のか「テレビの横」にあるのかなどの情報が必要になったり、ならなかったりする。

HabitatとReplicaは、意味論的ラベルごとにひとつの色で示される。

だが、こうしたラベル付けをしたお陰で、環境の柔軟度が高まり、包括的なAPIと作業言語は、「キッチンへ行きテーブルの上の花瓶の色を教えろ」といった複雑な複数の段階を含む問題をエージェントに与えることが可能になる。

結局のところ、このような支援は、たとえば家の中を自由に歩き回れない障害者を補助するなど、人の助けになることが想定されているが、それにはある程度の機転が利く必要がある。HabitatとReplicaは、そうした機転を養う手助けをするものであり、エージェントに必要な訓練をさせるためのものだ。

以上のような進歩があったとは言え、Habitatは完全に現実的なシミュレーター環境に至るまでの小さな一歩を踏み出したに過ぎない。ひとつには、エージェント自身が現実に即して再現されない点がある。ロボットの身長は高いものもあれば低いものもある。車輪で走行するのか脚で歩くのか、深度カメラを装備しているのかRGBなのか、さまざまだ。不変のロジックはある。たとえば、長椅子からキッチンまでの距離はロボットのサイズが違っても変化しない。しかし、変化するロジックもある。小型のロボットはテーブルの下を潜れるが、テーブルの上に何があるかを見ることができない。

Habitatは、さまざまな仮想ビジョンシステムで物を見る。

さらに、Replicaや、それに類するその他あまたの3D世界では、視覚化されたシーンの中に写実的に環境が描画されるのだが、これらは、物理法則やインタラクティブ性という意味においては、ほぼまったく機能しない。寝室へ行ってタンスの上から2番目の引き出しを見つけるように指示はできるが、引き出しを開けさせることはできない。実際には引き出しは存在しないからだ。そのようにラベル付けされた絵があるだけだ。動かしたり触れたりはできない。

見た目よりも物理法則に力を入れたシミュレーターもある。「THOR」などは、AIに引き出しを開けるといった実作業を教えるためのものだ。これは、一から教えようとすると驚くほど難しい作業になる。私は、THORの開発者2人にHabitatのことを聞いてみた。彼らは、AIが移動や観察を学ぶための非常に写実的な環境を提供するプラットフォームとして、Habitatを口を揃えて称賛した。しかし、とりわけインタラクティブ性が欠如しているために、学べることに限界があるとも指摘していた。

だが、どちらも必要であることは明らかであり、今のところ、それぞれが互いに代わりを務めることはできない。シミュレーターは、物理法則的にリアルになるか、見た目にリアルになるかのいずれかなのだ。両方は無理だ。しかし、Facebookも他のAI研究室も、それを目指して頑張っていることに間違いない。

[原文へ]

(翻訳:金井哲夫)