人の動きを撮るだけでなく動きの意味(ボディーランゲージ)を理解するCMUの巨大ドーム型スキャナー

Panoptic Studioは、カーネギーメロン大学(CMU)の研究者たちが作ったボディースキャナーで、現実の状況の中でボディーランゲージを理解するために利用する。このスキャナーは、映画「バック・トゥ・ザ・フューチャー」の中でブラウン博士がマーティに、仲間殺しを防ぐために取り付ける物に似ていて、大きなドームの中で対話したり、お話したり、争ったりしている参加者を撮った何百ものビデオを作る。チームは、体の位置をプログラマーが理解するためのコードまでリリースした

このドームにはVGAカメラが480台、HDカメラが31台、Kinectのセンサーが10ある。それらは、ドームの中の参加者のワイヤフレームモデルを作る。なぜ? 彼らが考えていることを、コンピューターに教えるためだ。

准教授のYaser Sheikhはこう言う: “私たちは、声と同じぐらい、体の動きでコミュニケーションしている。いずれにしても、コンピューターはそのことを知らないけどね”。

下のビデオでは、あるグループが何かについて言い争っているところをスキャンした。コンピューターは手や頭のさまざまな位置と、言葉のコミュニケーションがあればそれも見て、二人が怒っているか、ハッピーであるか、議論しているのか、などを理解し始める。コンピューターに、何かを指さすなどのジェスチャーも理解させると、システムは話の対象…何について話をしているのか…も理解するようになる。

そうやってコンピューターがボディーランゲージを理解するようになると、自閉症や言語障害の人たちのしぐさを、リアルタイムで解読できるようになる。またこのシステムを団体戦のスポーツで使うと、各選手の気持ちや意思などを、彼らがいつどこにいたかも含めて、理解できるようになる。

プレスリリースより:

複数の人間をリアルタイムで追跡することには、とくにお互いがコンタクトしているようなソーシャルな状況では難問がいくつかある。単純に個人の姿勢を追うようなプログラムは、各個人がグループ内にいる状況では使えない。グループが大きいときには、とくにそうだ。Sheikhと彼の同僚たちは、ボトムアップのアプローチを採った。ひとつのシーンの中のすべてのボディーパーツをまずローカライズし(腕、足、顔、などなど)、次にそれらのパーツを特定の個人に結びつけるのだ。

 

このPanopticonはまだ、Super Bowlや、あなたのお近くのDenny’s(デニーズ)で使えるほど完成してはいないが、人びとの四肢やアクションの、さまざまな点雲に基づいて、彼らが今何をしているのかを当てることはできる。今あなたが、だれかをはたいたことも分かるのだ。

“この装置では、1回の撮影で各人の手の500のビューが得られる。また手の位置を自動的に注記する”、と研究者のHanbyul Jooは語る。“手はとても小さなオブジェクトだから注記は難しい。だから今はHDカメラを31しか使ってないが、しかしそれだけでも、大量のデータ集合が作られるのだ”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))