自動運転車の技術に関する研究で名高いミシガン大学は、歩行者の動作を予想するための進化したアルゴリズムに取り組んできた。それは、歩行者が何をしているかだけでなく、どのように動いているかにも着目するものだ。人間のボディランゲージは、その人が次に何をするのかを予測する際に、非常に重要な意味を持っている。
歩行者に注意を向け、彼らが何をしようとしているのかを予測することは、すべての自動運転車の視覚システムにとって、大きな比重をしめている。人がいることを認識し、それがどこなのかを理解することは、自動車の運転の仕方に、かなり大きな影響を与える。しかし、人がどこそこの領域にいて、あれこれの状態になっているということを認識してラベル付けできる、と宣伝している会社はあっても、歩行者がどのような姿勢で、どう動いているのかを認識できるとしているものはほとんどない。
(参考記事:WTF is computer vision?)
そのような視覚のアルゴリズムは、まず人間を識別し、それが数フレームの間に何ピクセル移動するかを調べて、そこから推定するといったシンプルなものでもよいかもしれない(今はまだそうではないとしても)。とはいえ、当然ながら人間の動きは、それよりはちょっと複雑なものだ。
ミシガン大学の新しいシステムは、ライダー(訳注:レーザー光を使ったレーダー)とステレオカメラを利用して、人の動きの軌跡だけでなく、その人の姿勢と歩き方も評価する。人の姿勢によって、その人が車の方を向いているのか、車から離れようとしているのかを判断できる。また、杖をついているのか、電話するためにかがんでいるのかなど、歩き方によって、その速度だけでなく意図も判別できるのだ。
振り返って後ろを見ている人がいた場合、その人は体の向きを変えようとしているかもしれない。もしかすると、交通の流れに割り込んでくるかもしれない。腕を突き出している人がいれば、おそらく誰かに、もしかすると車に、止まれと合図を送っているのだろう。こうした付加的なデータは、システムが動きを予測するのに役立ち、より完成度の高い、不測の事態を考慮したナビゲーションのプランを作成することを可能にする。
重要なのは、1歩の歩行や腕の一振りを捉える、わずか数フレームを調べるだけうまくいくということ。それだけで、より単純なモデルよりも、かなり優れた予測をすることができる。これは、予測の性能にとって大きな違いを生む。というのも、歩行者が障害物の間にいる際には、数フレーム後にもまだ見えているとは限らないからだ。
現状では、ノイズも多く、まだ研究も進んでいないデータによってできることは限られている。しかし、そうしたデータを観測し、その目録を作ることは、それが自動運転車の視覚システムにとって不可欠な機能となるための第一歩なのだ。この新しいシステムの全容は、IEEE Robotics and Automation Lettersのサイト、またはArxiv(PDF)で読むことができる。
画像クレジット:University of Michigan
[原文へ]
(翻訳:Fumihiko Shibata)