フェイスブックの研究者がロボットに触覚を与える皮膚と指先を開発

Facebook AI Research(フェイスブックAIリサーチ)によると、次世代のロボットは「感じる」性能がより向上するという。ここでいう「感じる」とは、もちろん、感情という意味ではない。感触のことだ。AIとロボット研究においては比較的新しいこの分野を前進させるため、同社とそのパートナーは、安価で耐久性があり、信頼できる基本的な触覚を提供する新しい種類の電子皮膚と指先を、我々の機械の友人たちのために作り上げた。

なぜFacebookがロボットの皮膚を研究しているのかという疑問は、AI責任者のYann LeCun(ヤン・ルカン)氏が新しいプロジェクトを紹介するメディアコールで真っ先に取り上げたことで明らかだろう。

おもしろいことに、ルカン氏は「会社がロボット工学に取り組む理由はないようだ」とZuckerberg(ザッカーバーグ)氏が指摘したことから始まったと振り返った。ルカン氏はこれを挑戦と捉えて、ロボット工学に取り組み始めたらしい。しかし、やがて明確な答えが浮かび上がってきた。Facebookがインテリジェントなエージェントを提供するビジネスを展開するのであれば(自尊心のあるテクノロジー企業であれば、そうするのではないだろうか?)、そのエージェントは、カメラやマイクで捉えられる情報を超えた世界を認識する必要がある。

触覚は、それが猫の絵なのか犬の絵なのか、あるいは部屋の中で誰が話しているのかを判断するのにはあまり役に立たないが、ロボットやAIが現実世界と交流しようとするならば、それ以上のものが必要になる。

「私たちはピクセルや外見を認識することに関しては得意になってきました」と、FAIRの研究員であるRoberto Calandra(ロベルト・カランドラ)氏はいう。「しかし、世界を認識するには、それだけでは不十分です。そのためには物体を物理的に認識できるようになる必要があります」。

カメラやマイクは安価で、そのデータを効率的に処理するツールもたくさんあるが、触覚に関しては同じようなわけにはいかない。高度な圧力センサーは一般消費者向けには普及していないため、有用なものは研究室や業務用に留まっている。

2020年にオープンソースとして公開されたDIGIT(ディジット)は、パッドに向けられた小さなカメラを使って、タッチしているアイテムの詳細な画像を生成する。トップ画像はこの「指先」自体が写っているが、これは非常に敏感で、下の画像で見られるように、さまざまな物に触れて詳細なマップを作成することができる。

画像クレジット:Facebook

この「ReSkin(リスキン)」プロジェクトの起源は2009年にさかのぼる。TechCrunchでは、2014年に「GelSight(ゲルサイト)」と呼ばれるMITのプロジェクトについて紹介し、2020年にも再び記事にした。この会社はスピンアウトし、現在は我々が記事で紹介したこの触覚アプローチにおける製造パートナーとなっている。基本的にその仕組みは、柔らかいゲル表面に磁性粒子を浮遊させ、その下にある磁力計で粒子の変位を感知し、その動きを引き起こしている圧力の正確なフォースマップにこれを変換するというものだ。

GelSightタイプのシステムの利点は、磁力計が組み込まれたチップやロジックボードなどのハードな部分と、磁気粒子を埋め込んだ柔軟なパッドであるソフトな部分が、完全に分離されていることである。つまり、表面は汚れたり傷ついたりしても簡単に交換でき、繊細な部分はその下に安全に隠しておくことができるというわけだ。

ReSkinの場合は、任意の形状にチップを多数接続し、その上に磁性エラストマーの板を敷き、各々の信号を統合することで、全体から触覚情報を得ることができるというものだ。較正が必要なので、それほど単純というわけではないが、数平方インチというスケールを超えて動作を可能にする他の人工皮膚システムに比べれば、はるかに単純とも言える。

下の画像のように、小さな犬用の靴に組み込むこともできる。

足に圧力を感知するパッドを付けた犬と、そこら読み取った数値のアニメーション画像(画像クレジット:Facebook)

このような感圧面を備えていれば、ロボットなどの機器は、物体や障害物の存在をより簡単に感知することができる。その際、例えば、その方向に力を加える関節の摩擦の増加に頼る必要はない。これによって介護ロボットは、より優しく敏感に触覚を検知できるようになる可能性がある。介護ロボットが普及していない理由の1つは、触覚を検知できないため、人やモノを押しつぶすことが絶対にないと信頼できないからだ。

この分野におけるFacebookの仕事は、新しいアイデアではなく、効果的なアプローチをより使いやすく、手頃な価格で提供することである。ソフトウェアのフレームワークは公開されており、デバイスもかなり安価に購入できるものばかりなので、他の研究者もこの分野に参入しやすくなるだろう。

画像クレジット:Facebook

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)

フェイスクブックの研究者がAIの訓練のために何千時間もの一人称視点の動画を収集

テック企業の多くが目指しているように、ARメガネやその他のウェアラブルに搭載されたAIが人間の目を介して物事を見るようになるのであれば、未来のAIは人間の視点をきちんと理解できるようになる必要がある。自身の視点というのは当然、我々にとっては自然なものだが、意外なことに日常的な作業を映した1人称視点のビデオ映像はほとんど存在しない。そこでFacebookは、数千時間に及ぶ映像を新たなデータセットとして公開するため収集した

Facebookが取り組んだのは、現在最も優れた物体・シーン認識モデルであっても、そのほとんどが三人称視点でのみ学習されているという課題だ。つまりキッチンに立っている場面を見れば、料理をしている人として認識することができても、料理をしている人の視点から見た場合では認識する事ができない。自転車を認識するにしても、自転車が映し出されれば認識できるが、自転車に乗っている人の視点では理解ができないわけだ。我々人間にとっては当たり前のことで、これまで見過ごされてきたことだが、コンピューターにとってはまだ難しい課題なのである。

機械学習の問題を解決するには通常、データを増やすかより優れたデータを得るかのどちらかが必要になる。今回の場合は両方あっても損はないだろう。Facebookは世界中の研究パートナーに協力を依頼し、料理や買い物、靴ひもを結ぶ様子から仲間と遊んでいる様子まで、一般的な行動の1人称映像を集めた。

13のパートナー大学が9カ国700人以上の参加者から何千時間ものビデオを収集。参加者はみんなボランティアで、自身の関与やアイデンティティのレベルをコントロールすることができた。これら数千時間にもわたる映像は、研究チームによって3000時間にまで縮小され、研究チームが映像を見て編集し、手書きで注釈を加え、さらに現実世界では撮影できなかった環境を演出した独自の映像も追加された。この研究論文にそのすべてが記されている

映像はメガネ型カメラ、GoPro、その他のデバイスなどさまざまな方法で撮影されている。研究者の中には、活動している環境を同時に収録した人もいれば、視線の方向やその他の指標を追跡した人もいる。これらのデータはすべてEgo4Dと呼ばれるFacebookのデータセットにまとめられ、研究コミュニティに広く提供される予定だ。

コンピュータービジョンが物体の識別に成功しているものと、1人称映像での識別に失敗しているもの(画像クレジット:Facebook)

「AIシステムが人間と同じように環境と関わり合うためには、AI分野が1人称視点の知覚というまったく新しいパラダイムに進化する必要があります。そのためには人間の目を通したリアルタイムの動き、関わり合い、多感覚の観察の中で、AIに日常生活の動作を理解することを教えなければなりません」と、主任研究員のKristen Grauman(クリステン・グラウマン)氏はFacebookのブログ中で話している。

Facebookは1人称視点での理解力があらゆる分野でますます重要になっていると考えてはいるものの、何とも信じ難いことにこの研究とRay-Ban Storiesのスマートシェードはまったく無関係とのこと(この3Dスキャンは同社のハビタットAIトレーニングシミュレーターに使用されるかもしれないが)。

「弊社の研究では、拡張現実やロボット工学への応用を強く意識しています。特にARメガネのようなウェアラブル製品が人々の日常生活や移動に不可欠な要素になるにつれ、将来AIアシストを実現するためには1人称視点の知覚が不可欠です。もし、あなたのデバイスに搭載されているアシスト機能が、あなたの目を通して世界を理解し、生活から認知的過負荷を取り除くことができたらどれほど有益か想像してみてください」とグラウマン氏はTechCrunchに話している。

世界中から映像を集めたというのは意図的な戦略である。1つの国や文化の映像だけを集めるようでは近視眼的だ。米国のキッチンはフランスのキッチン、ルワンダのキッチン、日本のキッチンとはまるで別物であり、また同じ食材を使って同じ料理を作ったり、同じ作業(掃除や運動)をしたりしても、個人間はさることながら、文化間となれば大きく異なるのは当然である。つまりFacebookの投稿にあるように「既存のデータセットと比較して、Ego4Dのデータセットは、シーン、人、アクティビティの多様性が高く、背景、民族、職業、年齢を問わずさまざまな人に向けてトレーニングされているため、モデルの適用性が高い」のである。

Facebookの1人称視点のビデオとその環境の例(画像クレジット:Facebook)

Facebookが公開しているのはデータベースだけではない。データ収集においてこのような飛躍的な進歩がある場合、あるモデルがどれだけこの情報を活用できているかをテストしたベンチマークを公開するのが一般的になっている。例えば犬と猫の画像があったとして、どちらがどちらかを見分けるというモデルの有効性をテストした標準的なベンチマークが知りたい場合もあるだろう。

しかし今回のような場合はもう少し複雑になる。1人称視点で物体を識別するというのはそれほど難しいことではなく、目新しさや便利さもない。「これはトマトですよ」と教えてくれるARメガネなど誰が必要だろう。他のツールと同様に、ARデバイスは私たちが知らないことを教えてくれるものでなければならないのだ。そのためにARデバイスは、意図、文脈、連動したアクションなどをより深く理解する必要がある。

そこで研究者らは、1人称視点の映像を分析することで理論的に達成可能な5つのタスクを考えた。

  • エピソード記憶:物体や概念を時間と空間の中で追跡し「私の鍵はどこにあるか」といった任意の質問に答えられるようにする。
  • 予測:一連の出来事を理解することで「レシピの次の手順は何か」といった質問に答えたり「車の鍵を家に忘れた」といったことを事前に指摘したりすることができる。
  • 手と物体のインタラクション:人がどのように物を掴み、操作しているのか、またその際に何が起こっているのかを把握することで、エピソード記憶やそれを模倣したロボットの動作に反映させることができる。
  • オーディオ・ビジュアル・ダイアライゼーション:音をイベントやオブジェクトに関連付けることで、音声や音楽をインテリジェントに追跡し「カフェでかかっていた曲は何だったのか」「会議の最後に上司は何と言ったか」といった質問のソリューションに適用する(「ダイアライゼーション」が「言葉」である)。
  • 社会的相互作用:誰が誰に向かって話しているのか、何が語られているのかを理解し、他のプロセスに情報を提供する目的と、複数の人がいる騒がしい部屋で字幕を表示するなどの瞬間的な使用の両方に対応する。

当然、このような活用法やベンチマークに限られているわけではなく、上記の例はAIモデルが1人称視点のビデオで何が起きているかを実際に理解しているかどうかをテストするための初期アイデアに過ぎない。論文に記載されている通り、Facebookの研究者らはそれぞれのタスクについてベースレベルの実行を行い、それを出発点としている。さらにこの研究をまとめた動画には、それぞれのタスクが成功した場合を想定した、非現実的とも言えるような例が挙げられている。

現在公開されているデータは、25万人の研究者が手作業で丹念に注釈を加えたという3000時間ものデータ数にははるか及ばないものの、まだ成長の余地があるとグラウマン氏は指摘する。今後もデータセットを増やしていく予定であり、パートナーも積極的に増やしていくという。

このデータの活用に興味がある読者は、Facebook AI Researchのブログをチェックして論文に掲載されている莫大な数の人々の1人に連絡を取ってみるといい。コンソーシアムが正確な方法を確定した後、数カ月以内に発表される予定だ。

画像クレジット:Facebook

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

より安価な義手を求めて

Alt-Bionicsは、2019年の終わりにテキサス大学サンアントニオ校(UTSA)の技術シンポジウムに出場したまったく新しいスタートアップ企業で、波紋を呼んだ。同社は3BMの赤外線塗装硬化システムに次いで2位に終わったが、有望な技術とすばらしいストーリーを武器に国内外の話題をさらった。

同校のサイトに掲載された記事では、700ドル(約7万6000円)という義手の価格は、標準的なシステムにかかるコストの一部に過ぎないと紹介されていた。残りの記事のほとんどは、良いアイデアから市場性のある製品を生み出すまでの道のりに焦点を当てている。同社のCEO兼共同設立者であるUSTAエンジニアリング学科卒業のRyan Saavedra(ライアン・サーベドラ)氏は、この種の製品の価格は1万ドル(約109万円)から15万ドル(約1600万円)になるという。同社では3500ドル(約38万円)程度の価格設定を目指している。

この間、Alt-Bionicsのチームは製品開発の様子をSNSで公開してきた。今回は本格的な取材の前に、この3年間の歩みと今後の展望についてサーベドラ氏に聞いてみたい。そしておまけに、未公開のレンダリング画像をいくつ紹介する。これはAltは「最終製品を示すものではなく、特許の完成を発表するためにチームで作成したお祝いのレンダリング画像」という。

画像クレジット:Alt-Bionics

 

TC:なぜ義肢装具は法外に高価なのですか?

最初に言っておきたいのは、製造にかかる費用はそれほど高額ではないため、ユーザーにとっても高価になる理由はこれっぽっちもないということです。質問に対する答えは1つだけではないのですが、筋電義手(バイオニック・ハンド)を取り巻く法外な価格の背景にある複数の理由を、私なりにまとめてみたいと思います。義肢装具の最終的な価格 / コストには2つの部分があることがわかりました。そして第3の(しかし第2の)理由についても説明します。

まず、メーカー。メーカーはこれらの義肢装具を開発・作成し、義肢装具クリニック(これらのデバイスのフィッティングや購入ができる数少ない場所)に販売しています。義肢装具クリニックに販売されている最も手頃な筋電義手は、約1万ドル(約109万円)から始まり、上は数十万ドル(約数千万円)にもなります。奇妙なことに、この価格は義肢装具の機能や性能を必ずしも反映しているわけではありません。デバイスの価格は、最終的にはメーカーが決定します。大手のメーカーは、価格を下げられない最大の理由として、間接費を挙げています。

義肢装具クリニック。具体的にはまだ勉強中なのですが、これらのクリニックは医療保険面での対応をします。つまり、医療保険会社にLCode(メーカーが提案する筋電義手の保険コード)を提出し、保険金の支払いを受けます。これらのLCodeには、義肢装具士が選択できる償還額の下限と上限があります。償還額は一般的に義手の購入時に支払う金額よりも高く、クリニックや臨床医が調達、フィッティング、テスト、組み立て、患者のケアに費やした時間と労力をカバーしています。通常は(下限に近い償還額で)妥当なマージンが得られますが、1万ドル(約109万円)の義手に対して償還額が12万4000ドル(約1360万円)を超えたこともあります(2018年の患者の請求書より)。

技術的な停滞。筋電義手の技術は15年近く停滞しており、この分野の競争相手として企業が登場したのはごく最近のことです。この分野の大企業は、経橈骨(肘から下)の筋電義手装具という1つの分野だけでなく、複数の分野に取り組んでいます。つまり、彼らの関心は、義手の開発と手ごろな価格だけではないということです。停滞しているということは、既存の義肢装具やそのメーカーに迫る外部要因や力がないということなんです。つまり、価格を下げる理由がないので、価格が変わらない。これは、最初に申し上げた理由がよりいっそう大きな問題であることを裏付けていると言えます。

TC:より広範な医療コミュニティではどのように受け止められていますか?

すばらしいことにクリニック、臨床医、患者、ユーザーとなり得る人たち、そして他の競合企業、すべてが私たちのミッションを非常によく支持してくれています。このコミュニティや企業は競争相手ではありますが、技術の進歩を利用して人々の生活の質を向上させるという同じ目標を持っています。

3500ドル(約38万円)という低価格を実現していることに、最初は懐疑的な見方をされることもありますが、当社の技術やプロセスについてお話しするとすぐに納得していただけます。現在、義肢装具士のクリニックとの提携を検討しており、患者さんのためだけでなく、義肢装具士の修理やメンテナンスの負担を軽減する機器の開発を目指しています。

TC:プロジェクトはどのくらい進んでいますか?市場参入にあたり、現在のスケジュールを教えてください。

このプロジェクトは初期段階から脱したばかりで、約42%が完了しています。特筆すべき成果は以下の通りです。

  • アーミーレンジャー、ライアン・デイビスとの概念実証に成功。2019年12月
  • Alt-Bionicsを結成。2020年5月
  • D’Assault Systems(ダッソー・システムズ)から42,000ドル(約459万円)のSolidWorks助成金を受ける。2020年7月
  • 暫定特許出願。2021年6月
  • サンアントニオ市のSAMMIファンドから5万ドル(約547万円)の出資を受ける。2021年7月

当社のデバイスが市場に参入するまでの現在のスケジュールは、シードラウンドの資金調達が完了してから1年です。現在、目標金額20万ドル(約2189万円)のうち14万2000ドル(約1555万円)を調達しており、9月までに資金調達を完了したいと考えています。

TC:これまでの最大の課題は何でしたか?

FDA規制に従いながら資本を調達することです。FDAの規制プロセスが恐ろしく厄介なものであることは周知の事実です。医療機器を市場に投入しようとしている人たちが、そのプロセスと複雑さを理解できるように支援する専門企業もあるほどです。Alt-Bionicsは最近、テキサス州サンアントニオを拠点とするバイオメディカル・アクセラレータープログラムに受け入れられ、規制当局の専門家と協力して、市場へのスムーズな進出を目指しています。私たちの使命は崇高であり、ビジネスプランは堅実ですが、新型コロナウイルスは投資家に多くの心配や不安を与えました。対面での売り込みができないため、投資家の前に出ることができず、私たちのような会社にとって資金調達が通常よりも少し難しくなっています。

TC:資金調達の状況はどうですか?これまでにいくら調達しましたか、そしてもっと調達する予定ですか?

現在までにAlt-Bionicsは、少数の投資家から合計14万2000ドル(約1500万円)を調達し、サンアントニオ市のSAMMIファンドからは5万ドル(約547万円)の投資を受けています。現在、シードラウンドのために、適格投資家からさらに5万8000ドル(約635万円)の出資を募っています。ここから、市場参入まで1年というスケジュールが始まります(私たちはかなり有利なスタートを切っていますが)。Alt-BionicsはシリーズAに突入し、エンジニアの増員、技術のさらなる開発、国際市場への進出を目指します。

TC:途上国市場は重要なターゲットになるのでしょうか?

発展途上国は、特にNGOを通じたAlt-Bionicsの重要な市場であり、当社の国際展開において重要な役割を果たすでしょう。私たちは、これらの市場に当社の医療機器を提供する機会は大きいと考えています。手頃な価格で医療機器を提供することは、医療機器へのアクセスを提供するという我々の使命にとって極めて重要であり、この拡大は成功すると信じています。

それでは、通常のまとめに戻ろう。

画像クレジット:Berkshire Grey

Berkshire Grey(バークシャーグレイ)が「23億ドル(約2517億3700万円)以上」の食料品ピッキングロボットの契約を発表したとき、私の頭の中には1つの名前が浮かんだことを告白しよう。Walmart(ウォルマート)だ。数週間前にこのパネルでウォルマートのロボットを使った試みについて少し話した後、ウォルマートがこのカテゴリーで大きな新しい試みをしようとしているという噂を聞いていたからだ。

関連記事:ウォルマートが25の配送センターにSymboticのロボットを導入

Symboticとの取引は、必ずしもバークシャーグレイがウォルマートと提携していないことを意味するものではないかもしれないが、巨大小売企業が自動化に多額の費用を投じていることを話題にしたがっていることは注目に値する。少なくとも外から見ていると、これらの取引は、Amazonに対抗する準備ができているように見せるためのPRと、実際にAmazonに対抗するためのPRの両方を目的としていることが多いように思う(Win-Winなのかもしれない)。

画像クレジット:Walmart

この取引により、Walmartの追加の25カ所の配送センターにSymboticの技術が導入されることになり(2社は2017年からパイロットを実施)、Walmartによると「数年」かけて展開される予定だ。私は以前にもこのように推測したことがあるが(そしてこれからも考えは変わらないだろう)、これらのロボットを活用したフルフィルメント企業のうちいくつかはWalmartにとって朝飯前の買収だが、SymboticはTargetのような競合他社との既存のつながりを考えると、おそらく少し厳しいだろう。

関連記事
ピックアンドプレースロボットBerkshire GreyがSPACを通じての上場を発表
ヒートアップする倉庫や仕分けのロボティクス、Zebra TechnologiesがFetchを約324億円買収

一方、バークシャーグレイは公開ルートを継続している。レボリューション・アクセラレーション・アクイジション(RAAC)の株主は、7月20日にSPAC(特別買収目的会社)の取引に関する投票を行う予定だ。一方、新しく買収されるFetchは、サプライチェーン・ロジスティクス企業のKorberと、フォークリフトに代わるように設計された新しいパレタイジングロボットの契約を発表した

画像クレジット:Facebook AI

7月第2週は2つのクールな研究プロジェクトがあった。Devinは、Facebook AI、UC Berkeley(カリフォルニア大学バークレー校)、Carnegie Mellon University(カーネギーメロン大学)のチームが、四足歩行ロボットが不整地に瞬時に適応できる方法であるRapid Motor Adaptationを研究していることについて書いていた。バークレー校の研究者の1人が言ったこの言葉は、問題の核心を突いている。「我々は砂について研究しているのではなく、足が沈むことについて研究しているのだ」。

画像クレジット:MIT CSAIL

一方私は、MITコンピュータ科学・人工知能研究所では、ロボットアームを使って人に服を着るという研究について執筆した。これは、高齢者介護用ロボットの機能性や、移動が困難な人を支援する技術として期待されている。

関連記事
即興で難易度の高い地形にも対応する「転ばないロボット」を研究者たちが開発
見た目以上に難しい、人にジャケットを着せるロボットのプログラミングにMITチームが挑戦

カテゴリー:ロボティクス
タグ:Alt-Bionics義肢Berkshire GreyMITFacebook AIUC Berkeleyカーネギーメロン大学

画像クレジット:Alt-Bionics

原文へ

(文:Brian Heater、翻訳:Dragonfly)

即興で難易度の高い地形にも対応する「転ばないロボット」を研究者たちが開発

ロボットというものは即興が苦手だ。いつもと違う路面や障害物に遭遇すると、突然停止したり、激しく転倒したりする。しかし研究者たちは、どんな地形にもリアルタイムで対応し、砂や岩、階段などで路面が急に変化しても、その場で直ちに歩幅を変えて走り続けることができるロボットの新しい動作モデルを開発した。

ロボットの動きは正確でさまざまな用途に対応でき、段差を登ったり崩れた場所を渡ったりすることを「学習」することができるが、これらの行動は個々の訓練されたスキルに近いもので、ロボットはそれらを切り替えて行っている。また、Boston Dynamics(ボストン・ダイナミクス)が開発した「Spot(スポット)」のようなロボットは、押したり蹴ったりしても跳ね返せることで有名だが、これはシステムが物理的な異常を修正しながら、歩行における変わらない方針を追求しているに過ぎない。対応能力を備えた動作モデルもいくつか開発されているが、非常に特殊なもの(例えば、このモデルは本物の昆虫の動きに基づいている)だったり、対応するまでにかなり時間がかかるものもある(対応力を発揮する前に、確実に倒れてしまうだろう)。

関連記事:歩き方を即興で変えることのできる昆虫ロボットは本物の昆虫そっくりだ

Facebook AI(フェイスブックAI)、UC Berkeley(カリフォルニア大学バークレー校)、Carnegie Mellon University(カーネギーメロン大学)の研究チームは、この新しい動作モデルを「Rapid Motor Adaptation(迅速運動適応)」と呼んでいる。これは、人間や他の動物が、さまざまな状況に合わせて、すばやく、効果的に、無意識のうちに歩き方を変えられることに由来している。

「例えば、歩けるようになってから、初めて砂浜に行ったとします。足が沈み込み、それを引き上げるためには、より大きな力を加えなければなりません。違和感は覚えるでしょうが、数歩歩けば固い地面を歩くのと同じように自然に歩けるようになるでしょう。そこにはどんな秘密があるのでしょうか?」と、Facebook AIとカリフォルニア大学バークレー校に所属する上級研究員のJitendra Malik(ジテンドラ・マリク)氏は問いかける。

確かに、砂浜に行ったことがなかった人でも、人生の後半になってから初めて浜辺に行った人でさえ、すぐに自然に歩くことができる。柔らかい場所を歩くために、特別な「サンドモード」に切り替えているわけではない。動き方を変えることは自動的に行われ、外部環境を完全に理解する必要もない。

シミュレーション環境を視覚化したもの。もちろん、ロボットはこれらを視覚的に認識することはない(画像クレジット:Berkeley AI Research, Facebook AI Research and CMU)

「置かれた状態に違いが生じると、その影響によって身体自体に生じる違いを、身体が感知してそれに反応するのです」と、マリク氏は説明する。RMAシステムも同じように機能する。「歩く場所の環境が変わると、0.5秒以下の非常に短い時間で十分な測定を行い、その環境が何であるかを推定し、歩行の方針を修正します」。

システムはすべて、現実世界をバーチャルで再現したシミュレーションで訓練された。そこでは、ロボットの小さな頭脳(すべてはロボットに搭載されている限られた計算ユニット上でローカルに実行される)が、(仮想)関節や加速度計などの物理的なセンサーから送られてくるデータを、即座に認知して応答し、転倒を回避しながら最小限のエネルギーで最大限の前進を行う歩き方を学習した。

マリク氏はこのロボットが視覚入力を一切使用していないことを指摘し、RMAアプローチの完全な内部性を強調する。しかし、視覚を持たない人間や動物だって普通に歩けるのだから、ロボットにできないことがあるだろうか?歩いている砂や岩の正確な摩擦係数などの「外部性」を推定することは不可能なので、このロボットは自分自身に注意を向けるだけということになる。

「私たちは砂について学ぶのではなく、足が沈むことについて学ぶのです」と、共同研究者であるバークレー校のAshish Kumar(アシシュ・クマール)氏は述べている。

根本的にこのシステムは2つの部分から成り立っている。1つはロボットの歩行を実際に制御する常時稼働のメインアルゴリズム。そしてもう1つは、それと並行して作動し、ロボットの内部情報の変化を監視する対応アルゴリズムだ。顕著な変化が検出されると、それを分析して「足はこうなっているはずだが、こうなっているということは、状況はこうなっているということだ」と、メインモデルに調整方法を指示する。それ以降、ロボットは変化した状況下においても、どのように前進するかということだけを考え、実質的に即興で状況に合わせた歩行を行うようになる。

シミュレーションによるトレーニングを経て、このロボットは以下のようにニュースリリースにあるとおり、現実の世界でも見事に狙いを成功させた。

このロボットは砂、泥、ハイキングコース、背の高い草、土の山など、すべての実験で一度も失敗することなく歩行できました。ハイキングコースでは、70%の成功率で階段を降りることができました。セメントの山や小石の山では、訓練中に初めて出くわす不安定な地面や沈む地面、障害物となる植物、階段などがあったにもかかわらず、80%の成功率で乗り越えることができました。また、体重の100%に相当する12kgの荷物を積載して移動する際にも、高い成功率で身体の高さを維持することができました。

画像クレジット: Berkeley AI Research, Facebook AI Research and CMU

このような多くの状況における歩行の例は、こちらの動画や上の(ごく簡単な)GIFで見ることができる。

マリク氏は、NYU(ニューヨーク大学)のKaren Adolph(カレン・アドルフ)教授の研究を参考にした。同教授の研究では、人間が歩き方を覚えるプロセスが、いかに対応性が高く、自由な形態であるかを示している。どんな状況にも対応できるロボットを作るには、さまざまなモードを用意してそこから選ぶようにするのではなく、はじめから対応力を身につけなければならないというのが、チームの直感だった。

すべての物体や相互作用を網羅的にラベル付けして文書化しても、洗練されたコンピュータビジョンのシステムを構築することはできないのと同じように、砂利道、泥道、瓦礫、濡れた木の上などを歩くために、それぞれ専用のパラメータを10個、100個、さらには数千個も用意しても、多様で複雑な現実の世界にロボットを対応させることはできない。さらに言えば、ただ「前進せよ」という一般的な概念以外のことは何も指定しなくても済むようになるのが理想だ。

「脚の形状やロボットの形態については、あらかじめ一切プログラムしていません」と、クマール氏は述べている。

つまり、このシステムの基本部分は、四足歩行ロボットだけでなく、他の脚を持つロボットや、さらにはまったく別のAIやロボット工学の分野にも応用できる可能性があるということだ。

「ロボットの脚は手の指にも似ています。脚が環境と相互作用するように、指は物体と相互作用します」と、共同執筆者であるCarnegie Mellon University(カーネギーメロン大学)のDeepak Pathak(ディーパック・パターク)氏は指摘する。「基本的な考え方は、どんなロボットにも適用できます」。

さらにマリク氏は、基本アルゴリズムと対応アルゴリズムの組み合わせが、他のインテリジェントなシステムにも応用できることを示唆している。スマートホームや自治体のシステムは、既存のポリシーに依存する傾向があるが、しかし、状況に応じてその場で対応できるようになったらどうだろう?

今のところ、チームは初期の研究成果を「Robotics:Science and Systems(ロボット工学:科学とシステム)」会議で論文として発表しているだけであり、まだ多くのフォローアップ研究が必要であることを認めている。例えば、即興的な動作を「中期的な」記憶として内部にライブラリー化したり、視覚を利用して新しいスタイルの運動を開始する必要性を予測したりすることなどが考えられる。とはいえ、RMAのアプローチは、ロボット工学の永遠の課題に対する将来性の高い新たなアプローチとして期待が持てそうだ。

関連記事
【インタビュー】Fetch RoboticsのCEOが自社の買収と倉庫ロボットの未来について語る
イチゴを傷つけずに収穫するロボットのTrapticが商業展開を開始
ROS対応協働ロボットアーム「myCobot」のラズパイ版「myCobot Pi」、商業向け「myCobot Pro」が発売開始

カテゴリー:ロボティクス
タグ:Facebook AIUC BerkeleyCarnegie Mellon University

画像クレジット:Berkeley AI Research, Facebook AI Research and CMU

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)

いにしえのASCIIアドベンチャーゲーム「NetHack」への挑戦から見えるAIの未来

機械学習モデルはすでにチェスや囲碁Atari(アタリ)ゲームなどをマスターしているが、Facebookの研究者たちは、AIを世界で最も難しいといわれる、無限に複雑な「NetHack(ネットハック)」に挑戦させて、さらにレベルを押し上げようとしている。

Facebook AI ResearchのEdward Grefenstette(エドワード・グレフェンステット)氏は次のように話す。「私たちはこのゲームで、最も利用しやすい「グランドチャレンジ」を構築しようと考えました。AIを解き明かすことはできませんが、より優れたAIを実現するための道筋を示すことができます。ゲームは、機械を賢くする要素、機械をダメにする要素について仮定を導き出す良い方法です」。

NetHackを初めて耳にする読者も多いだろうが、これは古今東西最も影響力のあるゲームの1つだ。あなたはファンタジー世界の冒険者で、毎回異なるダンジョンでどんどん危険な深みにはまっていく。モンスターと戦い、罠や危険を回避しながら、神と良い関係を築く。これは(はるかにシンプルな元祖「ローグ」の後の)最初の「ローグライク」ゲームで、間違いなく今でも最高で、ほぼ間違いなく最も難しい作品だ。

(なお、NetHackは無料で、ほとんどのプラットフォームでダウンロードしてプレイすることができる)

ゴブリンは「g」、プレイヤーは「@」、ダンジョンの構造は線と点で表すなどの、シンプルなASCIIグラフィックとは裏腹に、NetHackは驚くべき複雑さを持つ。というのも、1987年に登場したNetHackでは、その後も開発チームが交代しながら、オブジェクトやクリーチャー、ルール、そしてそれらを取り巻く無数のインタラクションを増やし続け、活発な開発を続けているからだ。

これこそが、NetHackがAIにとって非常に困難で興味深いチャレンジとなる理由の1つである。オープンエンドなNetHackでは、世界が毎回変化するだけでなく、すべてのオブジェクトやクリーチャーとインタラクションすることができる。インタラクションはほとんどが何十年もかけて手作業でコーディングされ、プレイヤーのあらゆる選択肢を可能にしている。

タイルベースのグラフィックにアップデートされたNetHack。今まで同様、すべての情報がテキストベースだ

「Atari、『Dota 2』、『StarCraft 2』などのゲームを進化させるために必要とされたソリューションは非常に興味深いものですが、NetHackには、それとは異なる課題があります。人間としてゲームをプレイするためには、人間の知識が必要です」とグレフェンステット氏は話す。

NetHack以外のゲームでは、勝つための戦略が多かれ少なかれ明らかになっている。もちろん、Dota 2のようなゲームは、Atari 800よりも複雑だが、考え方は同じだ。プレイヤーが操作する駒、環境というゲームボード、目標となる勝利条件がある。NetHackでもそれは同じだが、もっと複雑怪奇だ。まず、ゲームが細部も含め、毎回異なる。

「新しいダンジョン、新しい世界、新しいモンスターやアイテム、セーブポイントがないなど。ミスをして死んでしまったら、生き返ることはできません。現実の世界に似ていますね。失敗から学び、その知識で武装して新しい状況に臨むのです」と、グレフェンステット氏。

腐食性のポーションはもちろん飲むべきではないが、それをモンスターに投げつけたらどうだろうか?武器に塗るのは?宝箱の錠前にかけるのは?水で薄めたらどうだろう?人間はこれらの行為を直感的に理解するが、ゲームをプレイするAIは人間のようには考えない。

NetHackのシステムの深さと複雑さを説明するのは難しいが、その多様性と難しさはAIのチャレンジに相応しいとグレフェンステット氏は話す。

ニューラルネットワークではなく、(ゲームと同じくらい)複雑な決定木を用いたゲームプレイ用のボットは、何年も前から設計されている。Facebook Researchチームは、機械学習を用いたゲームプレイのアルゴリズムをテストできる学習環境を構築することで、新しいアプローチを生み出したいと考えている。

AIが認識している内容がラベルで表示されたNetHack

NetHack学習環境(NetHack Learning Environment、NLE)は2020年完成したが、NetHackチャレンジはまだ始まったばかりである。NLEは専用のコンピューティング環境にゲームを組み込んだもので、AIはテキストコマンド(指示、攻撃やポーションを飲むなどのアクション)でNLEとやり取りする。

野心的なAIデザイナーにとっては魅力的なターゲットだ。StarCraft 2のようなゲームの方が知名度は高いかもしれないが、ゲーム界のレジェンドであるNetHackで、他のゲームに適用されたモデルとはまったく異なる方法でモデルを構築するというのは興味深いチャレンジである。

また、グレフェンステット氏の説明のように、NetHackは過去の多くのゲームと比較して、利用しやすいゲームだ。StarCraft 2用のAIを作ろうと思ったら、ゲーム内の画像で視覚認識エンジンを実行するために、大規模なマシンパワーが必要だろう。しかし、NetHackはゲーム全体がテキストで構成されているため、非常に効率的に作業を行うことができる。ベーシックなコンピューターでも人間の何千倍もの速さでプレイすることができるので、(他の機械学習の手法には欠かせない)高性能なデバイスを持たない個人やグループでも挑戦することが可能だ。

グレフェンステット氏は「私たちは、大規模な学術研究機関に限定せずに、AIコミュニティに多くのチャレンジを提供できる研究環境を構築したいと考えていました」と話す。

今後数カ月間はNLEが公開され、競技者は基本的に自分の好きな手段でボットやAIを作ってテストすることができる。2021年10月15日に本格的な競技が開始されると、特別なアクセスやRAMのテストなどはできず、制御された環境の中で標準的なコマンドを使ってゲームを操作するように制限される。

競技の目標はゲームをクリアすることで、Facebookチームは、一定時間内にエージェントがNetHackの「アセンション」を何回行ったかを記録する。しかし「どのエージェントでもアセンションがゼロになるだろうと想定している」とグレフェンステット氏は認めている。結局のところ、このゲームは史上最も難しいゲームの1つであり、何年もプレイしている人間でも、数回連続で勝利することはおろか、一生に一度でも勝利することが難しいのだ。その他にも、いくつかのカテゴリーで勝者を判定するための採点基準がある。

このチャレンジが、より本質的に人間の思考に近い、新しいAIへのアプローチの種になることを期待している。ショートカット、トライ&エラー、スコアハック、ザーグ戦術(量で圧倒する戦術)はここでは通用しない。エージェントは論理体系を学び、それを柔軟かつ知的に適用する……さもないと、怒り狂ったケンタウルスやオウルベアに殺されることになる。

NetHackチャレンジのルールやその他の詳細については、こちらを参照のこと。結果は年内に開催されるNeurIPS(Neural Information Processing Systems、ニューラル情報処理システム)カンファレンスで発表される予定だ。

関連記事:AI応用のMRIは4分の1の時間で従来と同等の結果を得られることが盲検法で判明

カテゴリー:人工知能・AI
タグ:Facebook AI Research機械学習ゲーム

画像クレジット:Facebook / Nethack

原文へ

(文:Devin Coldewey、翻訳:Dragonfly)

AI応用のMRIは1/4の時間で従来と同等の結果を得られることが盲検法で判明

AI技術を応用したMRI検査が、従来の方法と同等以上の結果をもたらすことが放射線治療専門家による盲検法によってわかった。そのシステムは、通常の半分から1/4の時間で画質を損なうことなく良好なMRIスキャン結果を出すことが可能であり、待ち時間とそれにともなうコストを減らすことが期待できる。

FastMRIは2015年にNYU(ニューヨーク大学)で開始したプロジェクトで、今からちょうど2年前にFacebook AI Research(FAIR、フェイスブックAI研究所)との共同研究になった(未訳記事)。NYUの医療および画像処理の専門知識がFAIRのAI専門技術と合わさった結果、共同研究は大きな成果をあげた。

背景にある考え方は、実は単純だ。MRIの撮像には必要なデータ量や撮影する角度に応じて15分から1時間くらいかかる。これは患者にとって非常につらい時間であり、巨大でうるさい機械の中で身動きせずにいなければならない。もちろんこれは、1台の機械が1日にスキャンできる人数が限られ、コストも待ち時間も多いことを意味している。

関連記事:NYU and Facebook team up to supercharge MRI scans with AI(未訳記事)

FastMRIのチームは測定データの一部が本質的に冗長であり、よく訓練された機械学習システムならもっと少ないデータから情報を補完できるという理論を立てた。この場合の膝のMRIスキャンは非常に秩序正しく、多くの場合に予測が可能であり、かつAIが学習するためのデータが膨大に存在しているために実現できる。

過去2年間、チームは臨床放射線医師が従来のMRI画像と、AIがはるかに(約75%)少ないデータから生成した画像を比較することで研究を行った。どちらがどちらの画像かはもちろん知らされず、1カ月以上間隔があけれらた。

結果は極めて有望なものだった。

研究の結果、放射線医師の評価に有意な差は見られなかった。MRI画像が従来方式によるものかAI生成であるかによらず、医師は同じ異常や病変を見つけた。参加者全員が、AI利用のMRIの方が従来方式より全体的品質が高いと評価した。6人中5人の放射線医師が、どちらの画像がAIを使って生成されたものか正しく判別できなかった。

AI生成画像が全体的に通常画像よりも高く評価されたのは興味深いが、ただ1人の医師だけはどちらがどちらであるか、偶然以上の確率で指摘した。

「AI生成と従来型MRIとの間で『ノイズ』の量とタイプがわずかに異なることを、1人の放射線医師が認識した可能性がある」と論文の共著者の1人であるFAIRのLarry Zitnick(ラリー・ジトニック)氏が語った。私はAIがどうやって「より良い」画像を作るのか興味を持ったところ、ジトニック氏が詳しく説明してくれた。

「AIは以前の膝MRI、すなわち典型的な膝がどう見えるかを学習しているため、ノイズやその他の人工生成物を除去することによってMRIの画質を向上させることができる」とLarry Zitnick氏は語った。「例えば、ホワイトノイズはAIにとってランダムパターンに見えるので再現する方法を学習するのが難しい。しかし、人間の膝はどの患者も似ているので学習で再現するのが容易だ。その結果AIが膝を再現するとき、ノイズ(学習が困難)を減らし、構造(学習済み)が強調される」。

従来のMRI(左)とAIが1/4のデータから生成したMRI(右)。画像クレジット:NYU/Facebook

この研究にはいくつか但し書きがつく。例えば、現時点では膝についてのみ有効であることを示している。しかし、次は脳のスキャンで実験する予定であり、脳やほかの部分でうまく「いかない」と考える理由はない。

またこの研究で使用したデータは、実際に現場で使われているものと厳密には同じではなく、スキャン量の少ないデータというのは、従来方式のスキャン結果からデータを削除したもの(AIバージョンをオリジナルと比較しやすくなるため)であり、初めから少ないデータをスキャンしたものではない。しかし、MRIの性質上、情報を削除することと初めからデータを収集しないことはほとんど同じなので、実際には問題にならないかもしれない。それでも病院としてフルスキャンしないためには、一定の確証が必要だ。なぜなら、その時がMRIを撮る唯一のチャンスかもしれないからだ。

この研究は、実際に急を要する患者がいる医療現場で、この方法を実際に使えるようにするための重要一歩だ。もしこれが可能になれば、患者が機械の中で過ごす時間を著しく短縮できるだけでなく、放射線医師は診断の回転率が高くなり、多くの患者を救えるようになる。

カテゴリー:ヘルステック

タグ:FastMRI ニューヨーク大学 Facebook AI Research Facebook

画像クレジット:Facebook

原文へ
(翻訳:Nob Takahashi / facebook