国立研究開発法人であるNEDO(新エネルギー・産業技術総合開発機構)と東京電機大学は、会議などのグループコミュニケーションにおける人の表情、音声、体の動きなどのデータセットを作成し、大学や企業向けに提供開始する。
今回、東京電機大学は同校に所属する学生6人と社会人6人に協力を仰ぎ、それぞれ2セッションのディスカッション(合計100分)を実施した。各ディスカッションでは個人の振る舞いを正面から観察するためのカメラを3台、ディスカッションの様子を俯瞰するカメラを1台、360度のパノラマ画像を撮影するカメラを1台、着座位置・顔の向きを見るためのカメラを天井に1台配置して参加者の表情を撮影。ヘッドセットによって音声を収録し、参加者の頭部、胸部、両腕部にとりつけた加速度・角速度センサーによって体の動きもデータ化している。
同校が提供するデータセットには、発言、ジェスチャー、視線などの行動に対してラベル付がされている。企業や研究機関は、それらの会話データを使って会話分析をしたり、首をかしげるという動作が「困惑」を表しているなどのデータを学習データとして活用して行動認識システムを構築したりなどが可能だ。
このデータセットの優れている点は、参加者の顔が映る表情データも収録していることだ。東京電機大学によれば、「従来のコーパスは、個人情報保護の観点から個人の顔データを含めることが不可能」だったが、同実験では参加者の同意を得ることでその課題を解決した。
それともう1つ重要なのは、同一の収集規格のもとでデータを収集することを目的としたコンソーシアムが設立されたという点だ。東京電機大学が今回公開したデータセットは合計100分ほどのディスカッションを収録したものに過ぎず、データ量としてはまだ十分ではないだろう。しかし、このコンソーシアムによって同一の規格により集められたデータの継続収集と提供が可能になれば、この分野の研究は飛躍的に進む。すでに同コンソーシアムには東京電機大学のほか、東京農工大学、湘南工科大学、豊橋技術科学大学など10大学以上の研究者が賛同している。