ロボットが電子レンジを普通に使えるようになるためIntelが奮闘中

コンピューターやロボットのトレーニングは、オブジェクトを理解して認識する(たとえば、オーブンと食洗機を区別するとか)だけでは終わらない。人が日常行っている比較的簡単な作業ができるレベルにまで、訓練を重ねる必要がある。人工知能に冷蔵庫と薪ストーブの違いを教えることができても、本当に実用的なロボットにするには、それらの器具を操作できなければならない。

IntelのAI研究者たちが、カリフォルニア大学サンディエゴ校とスタンフォード大学と共同で取り組んでいる新たな課題がそれだ。コンピュータービジョンおよびパターン認識のためのカンファレンスで発表された報告書では、各部品に完全な注釈が付けられた非常に精細な3Dオブジェクトの大規模なデータセット「PartNet」を、共同研究チームはがどのように構築したかが詳しく説明されている。

このデータセットは他に類がなく、すでにロボティクス企業の間で需要が高まっている。なぜなら、オブジェクトを現実世界で認識し操作できるようデザインされた、人工知能用の学習モデル生成のための高度なアプリケーションを備えることで、オブジェクトを部品に分割して構造化できるからだ。そのため、たとえば上の画像のように、電子レンジを手で操作して残り物を温め直す作業をロボットにやらせたいときは、ロボットに「ボタン」のことと、ボタンと全体との関係を教えてやればいい。

ロボットはPartNetで訓練を行うのだが、このデータセットの進化は、どこかの道端に放置された「ご自由にお持ちください」とドアに貼り紙されたいかにもCGっぽい電子レンジを操作するだけに留まらない。そこには2万6000種類以上のオブジェクトがあり、それらは57万個以上の部品で構成されている。そして、カテゴリーの異なるオブジェクトで共通に使われる部品には、すべてが同類であることを示すマーキングがされている。そのため、ある場面で椅子の背を学んだAIは、別の場面でそれを見かけたときに椅子の背と認識できる。

これは、ダイニングの模様替えをしたいが、ロボット家政婦には、お客さんが来たときに、古い椅子でしていたのと同じように、新しい椅子の背も引いて勧めさるようにしたい、なんていうときに便利だ。

たしかに、今私が示した例は、遠い彼方の、まだまだ仮想の未来から引っ張ってきたものだが、世の中には、完成を目の前にした、詳細なオブジェクト認識のためのもっと便利なアプリケーションが山ほどある。しかも、部品特定能力は、汎用オブジェクト認識における判断力を強化してくれるはずだ。それにしても、家庭用ロボティクスにあれこれ思いを巡らせるのは、じつに楽しい。そこに、現在の進歩したロボティクス技術の商品化を目指す数多くの取り組みが集中している。

[原文へ]
(翻訳:金井哲夫)

ロボットが電子レンジを普通に使えるようになるためIntelが奮闘中

コンピューターやロボットのトレーニングは、オブジェクトを理解して認識する(たとえば、オーブンと食洗機を区別するとか)だけでは終わらない。人が日常行っている比較的簡単な作業ができるレベルにまで、訓練を重ねる必要がある。人工知能に冷蔵庫と薪ストーブの違いを教えることができても、本当に実用的なロボットにするには、それらの器具を操作できなければならない。

IntelのAI研究者たちが、カリフォルニア大学サンディエゴ校とスタンフォード大学と共同で取り組んでいる新たな課題がそれだ。コンピュータービジョンおよびパターン認識のためのカンファレンスで発表された報告書では、各部品に完全な注釈が付けられた非常に精細な3Dオブジェクトの大規模なデータセット「PartNet」を、共同研究チームはがどのように構築したかが詳しく説明されている。

このデータセットは他に類がなく、すでにロボティクス企業の間で需要が高まっている。なぜなら、オブジェクトを現実世界で認識し操作できるようデザインされた、人工知能用の学習モデル生成のための高度なアプリケーションを備えることで、オブジェクトを部品に分割して構造化できるからだ。そのため、たとえば上の画像のように、電子レンジを手で操作して残り物を温め直す作業をロボットにやらせたいときは、ロボットに「ボタン」のことと、ボタンと全体との関係を教えてやればいい。

ロボットはPartNetで訓練を行うのだが、このデータセットの進化は、どこかの道端に放置された「ご自由にお持ちください」とドアに貼り紙されたいかにもCGっぽい電子レンジを操作するだけに留まらない。そこには2万6000種類以上のオブジェクトがあり、それらは57万個以上の部品で構成されている。そして、カテゴリーの異なるオブジェクトで共通に使われる部品には、すべてが同類であることを示すマーキングがされている。そのため、ある場面で椅子の背を学んだAIは、別の場面でそれを見かけたときに椅子の背と認識できる。

これは、ダイニングの模様替えをしたいが、ロボット家政婦には、お客さんが来たときに、古い椅子でしていたのと同じように、新しい椅子の背も引いて勧めさるようにしたい、なんていうときに便利だ。

たしかに、今私が示した例は、遠い彼方の、まだまだ仮想の未来から引っ張ってきたものだが、世の中には、完成を目の前にした、詳細なオブジェクト認識のためのもっと便利なアプリケーションが山ほどある。しかも、部品特定能力は、汎用オブジェクト認識における判断力を強化してくれるはずだ。それにしても、家庭用ロボティクスにあれこれ思いを巡らせるのは、じつに楽しい。そこに、現在の進歩したロボティクス技術の商品化を目指す数多くの取り組みが集中している。

[原文へ]
(翻訳:金井哲夫)

Nexarが80ヵ国以上で撮影された5万5000枚の路上写真を、自動運転技術加速のためにリリースした

Nexarは、自動運転技術開発のために、地理的に多様な画像が含まれている、(同社が言うところの)世界最大の写真セットを、その主催するオープンコンペティションのために公開した。さまざまな照明や気象条件の下、80カ国以上で撮影された5万5000枚のタグ付き写真がセットには含まれている。それぞれの写真は、Nexarのコミュニティベースの、iOSならびにAndroid用アプリ、V2V dashcamを使って路上で撮影されたものだ。このリリースの目的は幅広い天候状況や道路や国ごとの違いに対応可能な自動運転知覚モデルを開発を助けることだ。

NEXETと呼ばれるNexarの画像セットのリリースは、同社によって研究者たちに提示された挑戦の一部だ。それは様々な状況下、異なる地理的条件の下で、常に一定のパフォーマンスを発揮できる自動運転車のための知覚システム開発を促す挑戦である。

Nexarは、彼らの目標を、現在の多くの研究が内在する大きなギャップ、すなわち現実世界の非常に限定された領域や、シミュレーションや、実験室環境の映像を訓練のために使用している状況にアプローチすることだと語っている。ソフトウェア開発者なら誰でも、現実の状況に対処するときにのみに遭遇する問題があることを認識している。そしてそれは自動運転車のシステムを訓練する場合でも全く同じだ。いまなお、エッジケースを扱う上で大きなハードルがある。iPhoneアプリなら例外的なユースケースであっても被害はそれほど大きくはない、しかし運転の場合には、生死を分ける違いとなる可能性がある。

Nexarの全体目標は、世界各地の民生機器を介して集められた複数のストリームデータを組み合わせた、Advanced Driver Assistance System(先進的運転支援システム)を構築することだ。そして今回のコンペティションはその試みをさらに押し進めることができるようにデザインされている。しかし、最終的な業界へ価値も明らかだ。そしてこれだけの量と種類のデータセットに普通に出会うことは難しい。

[ 原文へ ]
(翻訳:Sako)