コンピュータービジョン機能を搭載した多機能ボード、IntelのJouleは各種リアルタイム機器の可能性を広げる

intel-joule-1-2x1

Intelがメイカーたちのために作ったボードJouleは、メイカーが強力なコンピュータービジョン製品を作るためのプラットホームを提供する。今日(米国時間8/16)行われたIntelの今年のデベロッパーカンファレンスでIntelのCEO Brian Krzanichは、“プロトタイプから実寸大のロボットや、マシンビジョン、ドローンなどの製品へシームレスに移行できる”、と説明した。

ひとつの例として、PivotHeadはこのボードを使って、超小型で高性能なシステムモジュールを作っている。そこには、同じくIntelの奥行き追跡カメラシステムRealSenseも載っている。

PivotHeadはJouleを主役とするシステムモジュールを利用して、工場労働者等のための安全眼鏡を作っている。それには高度なコンピュータービジョン能力があり、仕事中のリアルタイムにフィードバックを返すことができる。画像の分析と処理はすべてJouleの上で行われるので、別のモジュール等は不要だ。またWi-Fiやセルラーなどによるクラウド等への接続性も要らない。

このように、PivotHeadの考え方は、労働者が今使っている眼鏡に代えて今すぐ使える、というコンセプトにある。そして航空機などの電圧チェックも、リアルタイムでできる。Intelは、その作業の様子を今日のデモで見せた。

すなわち安全眼鏡をPivotHeadの製品に代えても、ユーザー(現場労働者)には新たな作業が発生しないし、仕事のやり方を変える必要もない。昨日までと同じく、ふつうに仕事を続けるだけだ。そして眼鏡自身が、そのコンピュータービジョンの能力で電圧のミスマッチをモニタでき、不整合があればただちに音声で警報するから、対策もすぐにとれる。これまで、航空機の電圧チェックという作業は、面倒な手作業が多くて時間がかかる仕事だった。

システムがリアルタイムで追跡し、全領域をカバーするから見逃しがない。現場作業員は、警報が鳴るまではほかの作業に専念できる。

以上はユースケースのごく一例にすぎないが、Krzanichによれば、“Jouleはオンボードコンピューティングと大量のメモリと人間的な感知能力を提供する”。試してみたいと思った読者には、オンラインで今日注文すると今日発送される。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

赤ちゃんの睡眠でお悩みなら「Nanit」にお任せ

nanit

もしシンプルなカメラが捉えた映像を機械学習が分析して、フェンスに近づいてくる人物の警戒レベルを教えてくれるとしたらどうだろう。もし同様にして食料品店の売り場で買い物をしている人の行動を分類できるとしたら?例えば、買う気があるのか、決断停止中か、はたまた探しているものをちゃんと見つけられているのか。画像認識と解析速度の向上のおかげで、単に観察するだけではなく、人間の行動を分類できるスマートカメラはモノのインターネットの次のステップなのかもしれない。

Nanitはそう言った市場に進出した最初の企業の1つだ。Dr. Assaf Glazerは、自分自身が父親でもあるが、彼と彼のチームは親にとって最も大変な仕事の内の1つ、つまり赤ちゃんが夜しっかり寝るようにすること、が少しでも楽になるようにすることを目標に掲げている。

Nanit Product

カメラをベビーベッド上に固定するには3オンスのカメラを10.5ポンドのスタンドに取り付ける。アカデミアとコネクションのあるテクノロジー系スタートアップは往々にして、最適なニッチ市場を見つけ出したり一般の消費者にテクノロジーを分かりやすく説明する点で苦労することがある。Glazerは200以上ものデザインを検討し独自性のあるデザインを採用した。睡眠不足の親は装置を充電したり電池を替えたりといったことに煩わされることはない。この低電圧で動く装置に関しては、ただ壁のコンセントに挿すだけで良い。

NanitのアプリはオプションのNanit Insightsを付けることで赤ちゃんの睡眠パターンの分析を行い、直感的に理解出来るカテゴリーに分類し、例えば睡眠中の乳児の動きをヒートマップで表示したりしてくれる。残念ながら、そう言った解析オプションを付けない場合は、Nanitはベビーベッドからの映像のライブストリーミングにしか使えない。Nanit Insightsは4つの主要な睡眠測定値について色別に可愛くラベル付けして表示してくれる。それらは、睡眠パターン、親がベッドに来る回数、寝つき、そして睡眠時間だ。

コンピュータ科学的に言えば、Nanitは機械学習を一般家電に応用した点が謳い文句だ。一般にこのような画像解析では、ほとんどの場合で変数の数が膨大になり、行動解析はほとんど不可能となる。幸運にも、Nanitの開発チームにとって、ベビーベッドのマットレスのサイズはほとんどが似たり寄ったりだ。そのおかげで、カメラの変数が標準化できるのでコンピュータはその空間を小さなサイズに分けることで正確な分析が可能になった。

nanit-thumb2

Nanitのベビーモニターの箱を開けると、まず簡単な機械のキャリブレーションをする必要がある。それが終わって一旦カメラをスタンドに設置するとシステムを調整する必要は二度とない。

加えて、Nanitには便利な夜間灯、ホワイトノイズや様々な自然の音を流してくれる装置、ケーブル管理システムが付属する。睡眠以外にも、赤ちゃんモニターは湿度、温度、音、動きを測定、記録可能だ。

Nanitに投資しているのはUpfront VenturesからMark Susterがリードを務め、その他RRE、645 Ventures、Jacobs Technion-Cornell Institute、Flex、Jerry Yang’s AME Cloud Venturesが参加している。同社はこれまでシードラウンドで660万ドルの資金を調達した。

このスマートベビーモニターの市場は活発な状況が続いている。OwletMimoSproutlingなどの会社は乳児用ウェアラブル機器を製造しているが使える部品やセンサーには制約がある。親の多くは自分の子供の服にトータルでアップルウォッチにも相当するものを埋め込もうとは思っていない。また、Dropcamのような装置は行動分析まではしてくれない。Dropcamでできるのはライブ映像を中継してピクセルの情報として他の機器上で表示することだけだ。Nanitのベビーモニターを使えば、新しいセンサーを増設することなく新たな分析機能を追加することが可能な点がとても強力だ。Glazerのゴールは、Nanit Insightsをさらに改良することで、データに基づきその家庭に最適なペアレンティングのアドバイスを提供することだ。

Screen Shot 2016-06-15 at 9.00.40 AM

ただ、行動科学に興味がある人はNanitのベビーモニターを面白いと感じるかもしれないが、この装置が親に情報を与えるだけでなくその行動にも影響を及ぼし得るという可能性を考えることはとても重要だ。

Nanitが子育てに良いとされている慣行に影響を与えるかもしれないと考えるきっかけになったのは、子供が一度起きてから再びどれだけ自分だけで寝付くことができるかがNanitで測定可能になったことが発端だ。この知識があれば、子供が起きても、特に必要がなければベビーベッドに急行することはないし、逆にベッドに行ってしまえばさらに子供を起こしてしまうことにつながる。

Nanitは本日よりインターネットによる直販での先行販売を開始する。同社は最初の1万5000台を、消費者の手に届くまでの時間を短縮すべくアメリカ国内で製造する予定だ。その後、生産拠点は国外に移転する予定だ。

先行発売は279ドルでNanit Insights1年間のサブスクリプションを50ドルで付けることができる。先行販売期間終了後はベイビーモニターが349ドル、Nanit Insightsは100ドルとなる。Nanit Insightsのオプションの更新にあたっては30日間考慮する期間が与えられる。

[原文へ]

(翻訳:Tsubouchi)

スタンフォード大学のロボット‘Jackrabbot’は歩行者が無意識に守っている説明の難しい複雑なルールを学習中

jackrabbot

人間の大人でも、人混みの中を歩くのが難しいことがある。ましてや、不器用で素朴な脳のロボットはどうだろう? 人にぶつかることを避けるために、“右へ行くべきか左か?”を一瞬々々ぎごちなく考えながら歩く、…スタンフォード大学の研究者たちは、彼らのロボット”Jackrabbot”が、そんな路上のルールを学習できる、と期待している。

同大のComputational Vision and Geometry Lab(コンピューターによる視界とジオメトリ研究所)はこれまですでに、歩行者の動きを追跡して予測するコンピュータービジョンのアルゴリズムを作ってきた。しかしそのルールはきわめて複雑で、群衆や歩道の幅、一日の中の時間帯、自転車やベビーカーの有無、等々大量の変数を含むため、まさしく、そのほかの機械学習のタスクと同じく、有益な結果を得るためには膨大な量のデータを必要とする。

LSTM-probmap

しかも、彼らが開発しているアルゴリズムは、完全に観察データだけを使用し、それをニューラルネットワークが解釈することを意図している。研究者たちが、ヒント(“この状況では人は必ず左へ行く”など)を与えてはいけない。

彼らのこれまでの努力は小論文に記され、今月の終わりごろ出るCVPRに掲載される。彼らが作った動き予測アルゴリズムは、多くの同種アルゴリズムよりも優れており、そのモデルは、人が集団の中で相互作用/反応する場合の複雑微妙ぶりをある程度学習できた。

現在、楽しげにめかしこんだJackrabbot(上図)は、人間が手動でコントロールしながら、研究のモデルをロボットの知覚に実装する方法を模索している。その本体は実はSegway RMP210の改造バージョンで、ステレオカメラとレーザースキャナーとGPSを搭載している。訓練用データは鳥瞰ビューを使用したが、ロボット本人には鳥瞰的視界を持たせずに、さまざまな歩行者の互いの距離と歩行速度から、空間中の各個人の座標を求め、彼らの動きを高い精度で予測させる。

cv_intersection

研究者のAlexandre Alahiは本誌へのメールで、“この夏には、私たちの社会的知覚を持つ予測モデルをロボットに実装したい。リアルタイムのデモは、年末までには行いたい”、と言っている。

人間の空間を無事にナビゲートできるロボットが、まだ万人の目の前ではないけれども、どこかSFにほとんど近いような場所に、出現しようとしている。しかし、われわれが日々、思考を必要とせずに行っていること…回りをスキャンしその場の障害物と運動物を判断し、それに応じて自分の動きを適切に計画すること…は、コンピューターにとってものすごく難しいことなのだ。

このようなプロジェクトの多様な蓄積の中から、最終的には、家の中や都市の中を人間と同じようにはやく安全に、他人に配慮しながら歩けるロボットが生まれるだろう。自動運転車がたぶん都市の道路の様相をすっかり変えてしまうように、自律性のある歩行者ロボットは、それがヒューマノイドであろうとなかろうと、歩道の状況を変えるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

画像や映像に写っている物だけでなく場面全体の状況も認識する人工知能をMITで研究開発中

mit-objectsscenes-1

コンピュータの能力は、一歩々々、人間に近づいていると言われる。今週ご紹介するのはMITのComputer Science and Artificial Intelligence Laboratory(コンピュータ科学と人工知能研究所)の研究プロジェクトで、画像や映像から物を認識し、さらに、その場の状況を認識する。これはコンピュータをさらに賢くするための、重要な機能の一つだ。

人間が画像を見ると、そこで今何が起きているのかをおおむね直観的に判断できる。しかし今のコンピュータビジョンや機械学習システムは、それが苦手(にがて)なため、車の自動運転とか荷物の配達などのインテリジェントなシステムの進歩を阻んでいる。状況認識に取り組んだMITの研究者たちは、これまであったシステムよりも33%高いパフォーマンスを実現したという。

今週彼らが発表した論文によると、その彼らのシステムは、画像を見て、そこで何が行われているかを判断するだけでなく、その状況を構成する個々の物も認識する。つまり、全体の認識だけでなく、個別の認識もできる。

おもしろいのは、研究者たちは自分たちの状況認識技術が約50%の認識精度を達成した理由を、正確に把握していない(なお、人間の状況認識精度は約80%)。とにかくそのシステムは画像中の何らかの視覚的特徴を拾って、それらを返しているのだ。人間もやはり、いくつかの特徴から、状況を判断している。たとえばベッドが写っていれば寝室、長いテーブルと椅子とスピーカーホンがあれば会議室だ、と判断するだろう。

高度な機械学習システムでは物の認識と場面の認識が一体化しているだけでなく、お互いを強め合っている、とチームは考えている。もしそうなら、いまよりもずっと賢いコンピュータの研究開発が一層加速され、言うまでもなく、ユートピアまたは黙示録の世界が訪れてしまうだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleがビジュアル検索をより充実させるために画像判読のJetpacを買収

Googleが今日(米国時間8/15)、画像のセマンティック分析を行うJetpacとそのチームを買収した。その技術はたとえば、Instagramの公開されているデータを調べて、いちばん幸福な都市、いちばん酔っぱらいの多い都市などを判定する。Jetpacは2012年に、iPad上のソーシャルな旅行ガイドとしてスタートしたが、その後方向性を変えて、Instagramのデータを利用するiPhoneアプリ”Jetpac City Guides”を提供している。

GoogleはJetpacの技術を、写真から位置情報を見つける検索技術に利用するものと思われる。Googleはすでに、同社はコンピュータビジョンと機械学習を利用して、夕日のある写真、食べ物の〜、花の〜、などを検索できる、と発表している。JetpacのCTO Pete Wardenはコンピュータビジョンのエキスパートなので、Googleにとって、欲しい人材だったのだ。

Jetpacのシステムは、たとえば髭面(ひげづら)が写っている写真が多い、などの視覚的な手がかりから、そこに写っているファッションの特徴や、その場所にヒッピーが多いことなどを判定する。つまり、その写真が撮られた場所のコンテキスト情報を提供するのだ。たとえば、そのコーヒーショップは、レビューで言われているとおりぬるいコーヒーを出すか、を判定したり、30代の女性に人気があるバーを見つけたりする。それらの情報は、その場所で実際に起きていることに関して、YelpやGoogle Mapsのレビューにある情報などよりも具体性に富んでいる。

またJetpacの技術は、ビデオに写っているオブジェクトをリアルタイムで(スマートフォンのカメラから)同定できる。その技術はGoogle Gogglesの機能拡張に利用できるだろう。

Jetpacは近くアプリをApp Storeから取り下げ、サポートを9月15日で終える。買収の価額など、詳しい情報は現時点で公表されていない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))