コンピュータービジョンで製造作業員の動きのエラーを検知、トヨタも手を組むInvisible AI

「組み立て作業」と聞けば製造プロセスでの単純な過程を思わせるかもしれないが、組み立て式家具を購入したことがある読者なら、これがいかに腹立たしく複雑な作業になり得るかお分かりだろう。Invisible AIはコンピュータービジョンを用いて、明らかな危険を回避し、安全性と効率性を維持するため、組み立て作業を行う人々をモニターすることを目的としたスタートアップだ。同社は360万ドル(約3億8000万円)のシードラウンドを活用してこの目的を達成する予定である。

Invisible AIは、高度に最適化されたコンピュータービジョンアルゴリズムを用いてカメラに映る人々の動きを追跡する、内蔵型のカメラコンピューターユニットを製造している。作業員の動きを模範的な動き(作業が正しく実行されている場合の様子)と比較することにより、システムがミスを監視したり、不足パーツや怪我などワークフローにおける問題を特定したりすることができる。

このシステムは一見どうみても、労働者が絶えず上昇し続ける人工的な基準を満たせない場合、それを逐一罰するコンピューターの皮を被った冷酷な監督のようなもののように感じられる。おそらくAmazonはすでに採用しているだろう。しかし、共同創設者兼CEOのEric Danziger(エリック・ダンジガー)氏は、そういった意図はまったくないと説明する。

「この製品の最も重要なポイントは、これが作業者自身のために作られたものだということです。これらの労働には熟練した技術が必要とされ、彼らは仕事に対して大きな誇りを持っています。最前線で仕事をしているのは彼らであり、ミスを見つけて修正することはとても重要な部分です」。

「こういった組み立て作業は、かなり肉体的でペースの速い労働です。15ステップを記憶し、その後場合によってはまったく異なるバリエーションのタスクへ進まなければなりません。すべての工程を頭に入れていなければならずとても難しい仕事です」とダンジガー氏は続ける。「目標はリアルタイムでその流れの一部になるということです。作業者が次のパーツに移る際に、同製品が再確認をして『ステップ8をとばしていますよ』という具合に伝えることができる。これにより多大な苦労を回避することが可能です。たとえケーブルを差し込むという程度のことでも、そこでミスを防げるというのは偉大です。車両がすでに組み立てられた後でミスを見つけた場合、再度分解する必要があるのですから」。

このような動作追跡システムは、それぞれ異なる目的のためにさまざまな形で存在する。たとえばVeo Roboticsは、深度センサーを使用して作業員とロボットの正確な位置を追跡し、動的に衝突を防止している。

しかし、この産業全体での課題は「人の動きをどう追跡するか」ではなく「人の動きを追跡した結果をどのようにして簡単に展開し適用するか」である。システムの導入に1か月、再プログラムに数日かかっていては意味がないのだ。そのためInvisible AIは、コーディングの必要がなく完全にエッジベースのコンピュータービジョンを使用して、導入と管理の簡素化に重点を置いた。

「可能な限り簡単に展開できるようにするのが目標でした。コンピューティングやすべてが組み込まれたカメラを購入し、それを施設に設置し、プロセスのいくつかの例を示してから注釈を付けるだけです。想像されるよりもずっと簡単です」とダンジガー氏。「1時間足らずで稼働を開始できます」。

カメラと機械学習システムをセットアップしたら、そこからはそれほど難しい問題ではない。人間の動きを追跡する機能は、最近のスマートカメラにとってかなり簡単な作業であり、それらの動きをサンプルセットと比較することも比較的簡単だ。動画のキャプション付けや手話の解釈に特化したAIで見られるような(どちらもまだ研究コミュニティーで開発途中である)、人が何をしているのかを推測したり、ジェスチャーの膨大なライブラリーに一致させたりするなどの「創造性」は必要ない。

プライバシーに対する課題や、カメラに常時映っているという事実に不安を感じるなどの可能性については、このテクノロジーを使用する企業がしっかりと対応する必要がある。ほとんどの新しいテクノロジーと同じく、善となる可能性と同様に悪となる可能性も備えている。

Invisible AIを早い段階でパートナーとした企業の1つはトヨタだ。トヨタはアーリーアダプターではあるが、同時にAIと自動化に関して慎重派である。複数の実験の後に到達した同社の哲学は、専門労働者に力を与える、というものだ。このようなツールは、労働者らがすでに行っていることに基づき、体系的な改善を提供する良い機会である。

非情なまでの最適化のため、労働者が非人間的な割り当てを満たすように強いられるAmazonの倉庫のような場所にこのシステムが導入されるというのは簡単に想像がつく。しかしダンジガー氏によると、すでに同社と協同している企業の話では労働者自身による作業改善を促す結果となっているとのことだ。

何年もの間、来る日も来る日も製品を作り続けている従業員は正しい製造方法について深い専門的知識を持っているが、その知識を正確に伝えるのは難しい場合がある。「ボルトで締める際に自分の肘が邪魔にならないよう、こうやってパーツを持つように」とトレーニングで指示するのは簡単だが、それを身につけるのは一筋縄ではいかない。Invisible AIの姿勢と位置の検出機能は、そういったことに役立てることができる。

「個人の一連の作業に要する時間にフォーカスするのではなく、ステップの合理化や反復ストレスの回避などが見られています」とダンジガー氏。

重要なポイントは、この種の機能が、結果を送信するためのイントラネット以外に接続を必要としないコードフリーのコンパクトなデバイスで提供できるということだ。分析するためにビデオをクラウドにストリーミングする必要はなく、必要に応じてフッテージとメタデータの両方を完全にオンプレミスで保持することが可能だ。

世間の魅力的な新テクノロジーと同様に不正使用される可能性も幾分あるが、Clearview AIのような取り組みとは異なり、同製品は悪用を目的として作られたものではない。

「そこには微妙な境界線があります。同製品を導入する企業の性質を反映するでしょう」とダンジガー氏は言う。「弊社とやり取りする企業は、従業員を本当に大切にしており、彼らができるだけ尊重され、プロセスに関与することを望んでいます。そういった事には大いに役立ちます」。

360万ドル(約3億8000万円)のシードラウンドは8VCが主導し、iRobot Corporation、K9 Ventures、Sierra Ventures、Slow Venturesなどの投資家が参加している。

関連記事:いまさら聞けないコンピュータービジョン入門

Category:人工知能・AI

Tags:コンピュータービジョン 機械学習 Invisible AI

[原文へ]

(翻訳:Dragonfly)

音声AIがスマホカメラに映る映像を解析して質問にズバリ答えられるようにするWorldGaze

音声アシスタントがアホすぎてイラつくのは、誰もが経験すること。音声で機器が操作できるAIは便利この上なしともてはやされているが、実際に使ってみれば、たちまちロボット特有の気の利かなさに泣かされることになる。

命令を実行する前に、もっと情報をくれと聞き返してくる(ときには何度も聞いてくる)スマートスピーカーは、なおさらアホに感じられる。たとえば、自動車修理工場のことを質問したとき、それが今車を停めている目の前にある工場のことだと察してくれなかったり。

カーネギーメロン大学ヒューマン・コンピューター・インタラクション・インスティテュートの研究者たちは、Apple(アップル)の機械学習エンジニアGierad Laput(ジェエラード・ラプット)氏と共同で、音声アシスタント用アドオンのデモソフトを開発した。スマートフォンに内蔵されているAIに手を貸して、というか頭を貸して賢くするというものだ。

このシステムのプロトタイプでは、スマートフォンの前面と背面のカメラを同時に使い、物理空間(具体的には身の回りの環境)のどの位置にユーザーの頭があるかを認識する。それをコンピュータービジョン技術で解析して周囲のものを識別する。

するとユーザーは、自分の頭をポインター代わりにして、何を見て話しているのかをAIにわからせることができる。例えば「あの修理工場」で通じる。言葉で説明することなく、AIの理解の中にできた文脈の切れ間を、研究者たちの言葉を借りれば、より自然に埋めることができるという。

なので、音声アシスタントの利便性を引き出したいとき、こっちがロボットみたいな話し方をする必要はない。もっと、まあ言うなれば、人間的に話せるのだ。こんな聞き方が可能になる。例えば「Siri、そのスタバはいつ閉まる?」とか、買い物では「そのソファ、別の色はないの?」とか、値段の比較も「この椅子と、あっちのやつ」と簡単に質問できる。または、目で見ている照明器具を欲しいものリストに追加させるといったことが可能になるかもしれない。

このシステムでは、家や職場で視界に入っているいろいろな機器の遠隔操作もできる。めちゃくちゃ細かく機器を指定する必要はない。ただスマートTVやエアコンの温度調節器やスピーカーを見て、音量や温度の調整を指示すればいい。

研究チームは、WorldGaze(ワールドゲイズ)と名付けたこのプロトタイプの動作の様子をデモ動画(下)にまとめた。「私たちは、iPhoneの前面カメラで頭を、方向ベクトルとともに、三次元的に追跡しています。前面と背面のカメラの位置関係はわかっているので、頭のベクトルを背面カメラで見えている世界にレイキャスティングすることができます」と彼らは動画の中で解説している。

「これによりユーザーは、その方向に頭を向けて見るだけで、話の対象となるオブジェクトや場所を直感的に指示できます。音声アシスタントがこの文脈情報を採り入れることで、より正確で自然な問い合わせが可能になります」

このプロトタイプを紹介した研究論文では、これは「現在はデバイスを見ながら街を歩いている人たちに象徴されるモバイルAR体験のソーシャル化」にも応用できるとしている。

どのようにこれを拡張するのかと尋ねると、カーネギーメロン大学の研究者であるChris Harrison(クリス・ハリソン)氏は、TechCrunchにこう説明してくれた。「人々は、いつも手元のスマホを覗き込みながら歩いています。それはあまりソーシャルではありません。他の人たちと関わることがなく、周囲の美しい世界を眺めることすらないからです。WorldGazeのようなものがあれば、人々は周囲の世界を見ながら、スマホに目を落とすことなく、レストランの評判を尋ねたり聞いたり、買い物リストにものを追加したリができるようになります。スマホには、それを可能にする能力が備わっています。何か特別なものを買い足す必要はありません」。

彼らの論文には、インタラクティブな目的でユーザーの視線を追跡する研究は息の長いものだと書かれている。しかし、ここでの彼らの主な目的は、「市販されているスマートフォンに備わったハードウェアを使うという制約を課した中での実用的なリアルタイムのプロトタイプ」の開発だった(背面カメラの視界が潜在的な制約になると彼らは話しているが、性能の劣るあらゆるハードウェアを部分的に迂回する提案もされている)。

「WorldGazeは単独のアプリとして発表することもできるが、私たちはWorldGazeをバックグラウンドのサービスとして内蔵し、音声アシスタントを呼び出したときに(例えば「ヘイ、Siri」の呼び掛けで)同時に起動するようにしたいと考えている」と彼らは書いている。「前面と背面のカメラを同時に開きながらコンピュータービジョンの処理を行えば多くの電力が消費されるが、デューティ比(ある期間に占めるその期間で現象が継続される期間)の割合は低く、現代のスマートフォンのバッテリー寿命に大きく影響するほどではない。両方のカメラから画像を1フレーム取り込むだけで済むこともあり、すぐにオフにできる(WorldGazeの起動時間は7秒)。実験装置では、電力消費量はひとつの質問につき最大0.1ミリワット毎時と評価された」。

それでもまだ、人が顔の前にスマホを掲げて、そこに話しかける姿はなんとなく異様に見える。しかし、ソフトウェアは、ARグラスにも簡単に対応するとハリソン氏は強調していた。

「どちらも可能です。スマートフォンを使ったのは、誰でも持っているからです(WorldGazeはソフトウェアのアップデートで実装できる)。ARグラスを持ってる人は(まだ)ほとんどいませんからね。しかし、どこで音声アシスタントをパワーアップしたいかとう前提は、両方に共通しています」とハリソン氏はTechCrunchに話してくれた。

「ARグラスは、センサーを搭載して視線のトラッキングができるようになってきています(例えばMagic Leapは、焦点の調整にそれを採用している)。その場合は、外向きのカメラだけあればよいことになります」と彼は言う。

このようなシステムが、顔認証技術を合体する未来は容易に想像できる。スマートグラスをかけた人間が、ちょっと視線を向けて「あれは誰だ?」と尋ねるような。顔のデータがAIのメモリーバンクに合法的に蓄積されていたと仮定しての話だが。

「連絡先に追加」や「最後に会ったのはいつか」を調べる機能などは、ネットワークの利便性やソーシャル化を高める目的で解放されるかも知れない。だが今の時点では、こうしたシステムを現実世界に解き放つことは、プライバシーの観点からして、工学的技術をつなぎ合わせるよりも、むしろ難しいように思える(たとえば、Appleは規範違反だとしてClearview AIをブロックした事例もある)。

「その方向へ進むには、一定のセキュリティーを保ち、許可を取る必要があります。現時点で私たちが考えていることではありませんが、興味はあります(怖いアイデアですけど)」と、その可能性について尋ねられたハリソン氏は同意した。

研究チームはこの結果をAMCのCHI2020(計算機システムにおけるヒューマンファクターに関する会合)で発表する予定だったが、新型コロナウイルスの影響で会合は中止となった。

[原文へ]

(翻訳:金井哲夫)

コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten

今日この時代になっても、新しい服を探すための最善の方法が、いくつかのチェックボックスをクリックして、果てしなく続く写真をスクロールしていくやり方だというのには驚かされる。どうして「グリーンの模様のスクープネックドレス」と検索して、結果をみることができないのだろうか? Glistenは、まさにこの課題を解決しようとしているスタートアップだ。その技術はコンピュータービジョンを使用してどんな写真からでも、写っている製品の最も重要な属性を理解して抜き出すことができる。

えっ、そんな機能もうあるのではと思ったかもしれない。ある意味それは正しいが、それほど役に立っているとは言えない。共同創業者のSarah Wooders(サラ・ウッダース)氏は、MITに通い自分のファッション検索プロジェクトに取り組んでいる最中に、この問題に遭遇した。

「オンラインショッピングを先延ばしにしていた私は、そのときVネックのクロップシャツを探していたのですが、まず見つかったのは2着だけでした。しかし、ずっとスクロールしていくと、さらに20着ほど見つかりました」と彼女は言う。「そのとき私は商品が極めて一貫性のない方法でタグ付けされていることに気づきました。消費者が見るデータが非常に煩雑な場合、おそらくその裏側はもっと悪い状況になっています」。

明らかになっているように、コンピュータビジョンシステムは、犬種の識別から表情の認識まで、あらゆる種類の画像の特徴を非常に効果的に識別するように訓練されてきている。ファッションやその他の比較的複雑な製品に関しても、似たようなことを行うことができる。画像を見て、信頼レベルを付加された属性のリストを生成することが可能なのだ。

そのため、特定の画像に対して、次のようなタグリストが生成できる。

想像できるとおり、これは実際とても便利だ。しかし、それはまだ多くの望ましい結果を置き去りにしたままなのだ。システムは「maroon」(栗色)や「sleeve」(袖)が、この画像に存在していることは認識しているが、それが実際に何を意味するのかは理解していない。システムにシャツの色をたずねてみても、人間が属性のリストを手作業で整理して、タグのうち2つは色の名前、これらはスタイルの名前、そしてこちらはスタイルのバリエーションのことといった具合に教えてやらない限り、システムはうまく答えることはできないだろう。

1つの画像だけならそうした作業を手で行うのは難しくないものの、衣料品の小売業者は膨大な製品を扱い、それぞれに複数の写真が関連し、毎週新しいものが入荷してくる状況なのだ。そうしたタグをコピー&ペーストで延々と整理し続けるインターンに、あなたはなりたいだろうか? そんなことはまっぴらだろうし、実際誰もやろうとはしないだろう。この点こそが、Glistenが解決しようとしている問題だ。コンピュータービジョンエンジンのコンテキスト認識を大幅に向上させて、その出力をはるかに便利にするのだ。

同じ画像をGlistenのシステムで処理すると、以下のような結果になるだろう。

ずいぶん改善されていないだろうか。

「私たちのAPIのレスポンスは実際に、ネックラインはこれ、色はこれ、パターンはこれという形式で返されるのです」とウッダース氏は説明する。

この種の構造化データは、データベースに容易に挿入することができ、高い信頼性とともに問い合わせを行うことができる。ユーザー(ウッダース氏が後ほど説明したように、必ずしも消費者である必要はない)は、「長袖」(long sleeves)と指定すれば、システムが実際に衣服の「袖」(sleeves)を見て、それが「長い」(long)ものを選ぶことを知っているので、組み合わせてマッチングを行うことができるのだ。

今回のシステムは、成長を続ける約1100万種類の製品イメージと、それに対応した説明文ライブラリでトレーニングされた。システムは自然言語処理を使用してそれらの説明文を解析し、何が何を参照しているかを把握する。こうすることで、学習モデルが「formal」を色のことだと思ったり、「cute」が利用されるシーンのことだと思ったりすることを防ぐための、重要なコンテキスト上の手がかりが与えられる。だが、データを単に投入してモデルにそれを判断させれば良いといえるほど、物事は単純ではないのではと考えるあなたは正しい。

以下に示したのは、説明のために理想化されたバージョンの概要だ。

「ファッション用語には多くのあいまいさがあって、それは間違いなく問題です」とウッダーズ氏は認めるものの、それは克服できない種類のものではない。「顧客に出力を提供するときには、各属性にスコアを付けています。そのため、それがクルーネックなのか、それともスクープネックなのかがあいまいな場合には、正しくアルゴリズムが機能している限り、双方にスコアとして大きな重みを付加します。確信が持てない場合には、信頼性スコアが低くなります。私たちのモデルは、現場の人たちがどのように製品にラベル付けしたか、その結果の集合で訓練されていますので、みんなの意見の平均値を得られることになります」。

当初のモデルは、ファッションと衣類全般を対象としていたが、適切なトレーニングデータを使用すれば、他の多くのカテゴリーに適用することもできる。同じアルゴリズムで、自動車や美容製品などの特徴を見つけることができるのだ。例えばシャンプーボトルを探す場合な、袖(sleeves)の代わりに適用シーン、容量、髪質、そしてパラベン(防腐剤であるパラオキシ安息香酸エステル)含有の有無などを指定できる。

普通の買い物客たちは放っておいてもGlistenの技術のメリットを理解してくれるだろうが、同社は自分たちの顧客が、販売の現場の手前にいることに気がづいた。

「時間が経つにつれて私たちが気づいたのは、私たちにとって理想的な顧客とは、乱雑で信頼性の低い製品データを持っていることに、苦痛を感じているような人たちだということでした」とウッダース氏は説明する。「それは主に、小売業者たちと協力しているハイテク企業なのです。実際、私たちの最初の顧客は価格の最適化を行う会社で、また別の顧客はデジタルマーケティング会社でした。これらは、アプリケーションとして当初私たちが考えていたものよりも、かなり外れた場所にある応用なのです」。

ちょっと考えてみれば、その理由が理解できるだろう。製品についてよく知れば知るほど、消費者の行動や傾向などと関連づける必要があるデータが増えていく。単に夏のドレスの売上が戻ってきていることを知っているよりも、七分袖の青と緑の花柄のデザインの売上が戻ってきていることを知っている方が良い。

Glistenの共同創業者サラ・ウッダース氏(左)とAlice Deng(アリス・デング)氏

競争相手は主に、企業内のタギングチーム(私たちが誰もしたくないような手作業のレビューを行う)や、Glistenが生成するような構造化データの生成を行わない汎用コンピュータービジョンアルゴリズムである。

来週行われるY Combinator のデモデー前にも関わらず、同社はすでに月々5桁(数万ドル、数百万円)の定常収益を得ているが、現時点では彼らの販売プロセスは、彼らが役に立つと思った人々への個別のコンタクトに限定されている。「ここ数週間で、非常に多くの売り上げがありました」とウッダーズ氏は語る。

ほどなくGlistenは多くのオンライン製品検索エンジンに組み込まれることになるだろうが、理想的には利用者がそれに直接気がつくことはないだろう。ただ単に探しものがはるかに見つかりやすくなったように思えるようになるだけだ。

関連記事:いまさら聞けないコンピュータービジョン入門

原文へ
(翻訳:sako)

コーヒーメーカーのように使える全自動マニキュアマシンのCoralが約4.7億円調達

「スマートなオートメーションで、パーソナルケアの世界を簡素化」することを目指すCoral(コーラル)は、その実現のために430万ドル(約4億7000万円)を調達した。最終目標は何なのか。それは爪にマニキュアを塗ってくれる家庭用の完全自動マシンだ。指を突っ込んで押す。数秒間待てば、爪にマニキュアをきれいに塗って乾燥までしてくれる。会話の中で、何度も「キューリグのコーヒーマシンです。ただし爪のね」という表現が出ていた。

会社が設立されて間もない。実際に機能するマシンはあるが、彼らはそれがまだプロトタイプだという。

そのため、細部についてはまだまだ秘密が多い。どんな仕組みなのか、詳しくは話してくれなかった。彼らが教えてくれたのは、一度に塗れるのは1つの指だけで、すべての指を乾燥まで仕上げるのに10分かかるということだ。マニキュアに耐久性を持たせつつ乾燥の短縮できているのは、Coral独自のネイルポリッシュのおかげだ。だから、一般的なネイルポリッシュを機械にセットしても無駄だ。Coralのポリッシュはポッド入りで販売される(だからキューリグに例えられる)。ポッドは個別に買うこともできるが、定期購入もできる。マシンの中にはカメラがあり、独自のコンピュータービジョンのアルゴリズムが機能して、正確にマニキュアを塗ることができる。はみ出した箇所を処置後に自分で拭くといった手間はかからない。

価格もまだ明かされていない、というより、正確に言えばまだ決まっていない。Coralの共同創設者Ramya Venkateswaran(ラムヤ・ベンカテスワラン)氏は、これを「高級品」に位置づけたいと話していたが、価格設定はまだ定まらない状態だ。

私たちは何年も前から自動的にマニキュアを塗る数々のマシンを(今年の初めにCESで見たワイルドなアートを描くものも含め)目にしてきたが、Coralは、利用者が事前にベースコートを塗ったり、後でクリアコートを塗り重ねる必要がない唯一のシステムだと言っている。先に何も塗っていない状態の爪でマニキュアを塗ることができるのだ。

Coralには現在8人が在籍している。そのほとんどが機械工学、化学、ソフトウエアの専門家だ。2人の共同創設者もハードウェア畑の出身。ベンカテスワラン氏は、以前はDolby(ドルビー)の製品戦略マネージャーとして、ドルビーカンファレンスフォンの立ち上げを手伝った。共同創設者のBradley Leong(ブラッドリー・レオン)氏は、2012年にBrydge(iPadに装着するノートパソコン風のキーボードの先駆け的存在)のKickstarterで80万ドル(約8800万円)を調達し、その後、シードステージのベンチャーファンド、Tandem Capital(タンデム・キャピタル)のパートナーになった。「このマシンの元になったイノベーション」を発見したのは、業務用ハードウェアのリサーチをしていたときだったと彼は話してくれた。

ベンカテスワラン氏によれば、CoralはCrossLink Capital(クロスリンク・キャピタル)、Root Ventures(ルート・ベンチャーズ)、タンデム・キャピタル、Y Combinator(Yコンビネーター)から430万ドル(約4億7000万円)を調達した。同社は現在、YコンビネーターWinter2020クラスに参加している。そのため、2020年3月に予定されているデモデーには、もっといろいろな話が聞けそうだ。

今後同社では、プロトタイプを一般消費者向けの製品に仕上げた後、数カ月間の小規模なベータテストを行う予定だ(テストにはここから申し込める)。

[原文へ]
(翻訳:金井哲夫)

業界を混乱から救うため、リサイクルロボット企業が17億円を調達

デンバーに拠点を置くAMP Roboticsによって開発されたリサイクルロボットに、投資家たちが1600万ドル(約17億円)という資金を注ぎ込んだことで、ゴミの山から宝を掘り出す問題は、ハイテクなソリューションを見つけつつあるようだ。

リサイクル業者たちにとって、業界の問題に取り組むロボットの商用化は、これ以上ないというほどのタイミングでやってきた。かつて安定していた彼らのビジネスは、貿易戦争と低い失業率によってその足元をすくわれてきたからだ。

かつてリサイクルビジネスは、(中身の質には関係なく)どんな廃棄物でも中国の買取に任せることができていた。しかし約2年前、中国はもはや世界のゴミ捨て場として振る舞うことはやめることを決定し、他の国から喜んで受け取る原材料の種類に対して、厳しい基準を設けた。その結果は、リサイクル施設のコストを押し上げ、今ではゴミをより効率的に分別する必要に迫られている。

また同時に、低い失業率によって、基本的に人間が廃棄物をリサイクル可能な材料とゴミに手で分別しなければならない施設での、労働力確保が厳しいものになっている。

経済的な現実を目の前にして、リサイクル業者たちはAMPの技術に注目している。これはコンピュータービジョン、機械学習、ロボットによる自動化を組み合わせて、施設の効率を改善する技術だ。

trash cans

写真提供:Flickr / Abulla Al Muhairi

それが、同社の最新ラウンドを主導したSequoia Capitalを引きつけたのだ。国際市場のへの展開を睨み、同社は調達した1600万ドル(約17億円)のシリーズAの資金を、製造能力の向上と成長の加速に注ぐ予定だ。

「テクノロジーでリサイクル産業の経済性を変革するAMPと提携できることに大いに興奮しています」と声明で語るのは、SequoiaのパートナーであるShaun Maguire(ショーン・マグワイア)氏だ。「ここ数年の間、業界は労働力不足と商品価格の低下によって利益幅を圧迫されてきました。その結果、業界は積極的にコスト削減の代替手段を探し、より価値の高いリサイクル可能物を回収することで収益を増やす機会を追加てきました。その中でAMPが主要なソリューションとして浮上しているのです」。

この資金は「今後の守備範囲を広げる」ために使われる、と最高経営責任者のMatanya Horowitz(マタニャ・ホロウィッツ)氏は語る。リサイクル施設がバイヤーに出荷できる材料の、分別コストを削減し品質を改善するだけでなく、同社のコンピュータービジョンテクノロジーは、実際にブランドパッケージを識別し、各企業が自社の製品ライフサイクル管理を改善するために使用するのに役立つ。

「私たちは…それがコカ・コーラ缶なのかペプシ缶なのか、それともスターバックスのコップなのかを識別できます」とホロウィッツ氏は言う。「人々がリサイクルのために製品をデザインすることを手伝うことができるように…私たちはレポート機能を開発していますが、それがお客さまから、高い興味を持っていただいています」。

ホロウィッツ氏によれば、ロボット、コンピュータービジョン、機械学習の組み合わせは、リサイクル業界以外にも潜在的な用途があるという。自動車のスクラップと建設廃棄物は、同社がソフトウェアとハードウェアの組み合わせの適用に関心を寄せているその他の分野だ。

一方、中核事業のリサイクル向けは上向いている。10月には、同社はフロリダのSingle Stream Recyclersで14台のロボットの設置を完了した。リサイクル業界で一度に設置されたロボットとしては最大規模であり、人間に比べてより高度な正確性をもち2倍の速さで分別を行うことかできる。それらが、プラスティック、各種ケース、繊維、そして金属などの選別ラインに投入されたと同社は述べている。

AMPのビジネスには、ロボットサービスの提供と直接販売オプションという2つの独立した収益源があり、カリフォルニア、コロラド、インディアナ、ミネソタ、ニューヨーク、ペンシルベニア、テキサス、バージニア、そしてウィスコンシンの各サイトで導入を行っている。

同社がコア事業で追求しているものは、BV、Closed Loop Partners、Congruent Ventures、そしてSidewalk Infrastructure Partners(新しいインフラストラクチャプロジェクトをサポートするテクノロジーに投資する、Alphabet子会社からのスピンアウト)などの初期投資家たちに有効性を認められている。

Sidewalk Infrastructure Partnersで、自社のAMP Roboticsへの投資を主導したプリンシパルであるマイク・デルシア(Mike DeLucia)氏にとって、この取引は、彼の会社が今後資本を投入する予定の場所を指し示している。

「物理的な資産をより効率的に運用できるようにする技術です」と彼は言う。「私たちの目標は、本当にエキサイティングなインフラストラクチャプロジェクトを可能にするテクノロジーを見つけて、それらを支援し、それらと協力して現実の物理的な世界でプロジェクトを提供することです」。

デルシア氏や、投資会社Congruent VenturesのAbe Yokell(エイブ・ヨーケル)氏などの投資家たちは、リサイクルはまだ始まったばかりだと考えている。AMP Roboticの機械学習およびコンピュータービジョンテクノロジーの用途は、リサイクルセンターをはるかに超えた場所に多数考えることができる。

「テクノロジーが都市環境にどのように関わることができるかを考えたとき、1つの適用分野はマシンビジョンです」とヨーケル氏は言う。「(機械学習)ニューラルネットが実際の環境に適用できるようになって、より安価で簡単に展開できるようになりました」。

[原文へ]

(翻訳:sako)

顔、手振り、服装チェックまでカバーしたFacebookの最新機械学習の

Facebook(フェイスブック)の最も新しい機械学習モデルの研究は、我々からすればなんとも平凡な仕事をさせるものだが、コンピューターにとっては今でもめちゃくちゃ難しい仕事だ。このプロジェクトの目的は、顔の匿名化と、手の動きを即興で作ること、そしておそらくもっとも難しいであろう、適切な服装のアドバイスだ。

この研究は、先日、ICCV(国際コンピュータービジョン会議)にて発表された。フェイスブックからは数十件の論文が公開されたが、同社はAIに関する研究、とりわけ、コンピュータービジョンにかなり重点を置いている。

動画の顔を変更する技術は、“ディープフェイク”などの悪用例を連想してしまうが、フェイスブックの研究チームは、むしろ人道的利用法の可能性があると感じている。

ディープフェイクは、顔の特徴と目標を詳しく調べ、その人の表情や顔の動きを、まったく別の人物の顔にマッピングするというものだ。フェイスブックのチームも同じ特徴や目印を使うが、目的は別の顔と入れ替えることではなく、顔認証エンジンで識別できないまでに顔を変形させることだ。

動画には出たいが、訳あって世間に顔がバレるのは困る人、しかも、お面をつけたり顔を完全に変えるといった格好の悪いこともしたくない人の役に立つだろう。これを使えば、自分の顔に似ているものの、たとえば目の幅がわずかに広かったり、唇が薄かったり、おでこが広い顔になれる。

彼らが制作したシステムは、よくできているように見える。もちろん、製品化するまでにはいくつか洗練させなければならない部分もある。しかし、政治的弾圧を逃れるために、またはもっと平凡なプライバシー対策のためにと、便利な使い道があれこれ思いつく。

仮想空間では、人の識別が大変に難しいことがある。その理由のひとつが、現実の生活では普通に認識している言葉に依らないジェスチャーの欠如だ。そこで次の研究は、そうした身振りをキャプチャーし、カタログ化し、再現しようとしている。少なくとも、人の手の仕草だ。

奇妙なことに、人が話しをするときの手振りを正確にデータ化したものはほとんど存在ない。そこで彼らは、2人の人間が通常の会話中に見せる手振りをたっぷり50時間にわたり録画した。というか、ハイエンドのモーションキャプチャー・ギヤを装着した状態で、できるかぎり自然に会話してもらった。

そうした(比較的)自然な会話と、それに伴う身振りと手振りは機械学習モデルに統合され、たとえば、「以前は」と言うときに自分の背後を指差したり、「そこらじゅう」と言うときに泳ぐような手つきをするといった言葉と動作の関連性をAIに学ばせた。

これがどんな役に立つのだろうか? 仮想空間でのより自然に見える会話もあるだろう。また、アニメーターがキャラクターに現実に根差したリアルな動きをさせたいときに、これがあればわざわざ自分たちでモーションキャプチャーを行わずに済む。結果としてフェイスブックが統合したこのデータベースは、規模の面でもディテールの面でも他に類を見ないものとなった。それ自体に価値のあるものだ。

同様にユニークながら、やや軽薄だと論争になったこのシステムの用途に、服装を向上させるというものがある。スマートミラーが一般化すれば、服装のアドバイスぐらい、して欲しいよね?

Facebookは小売業向けコンピュータービジョンのGrokStyleを買収(未訳)

Fashion++は、身にまとった服(帽子、スカーフ、スカートなど)と全体的なファッション性(当然、主観的な尺度だが)のラベル付けされた画像の膨大なライブラリーを取り込むことで、今の服装をもとに、よりよい服装の提案をするというシステムだ。大幅な変更は提案しないが(そこまで高度ではない)、上着を脱ぐとか、シャツを中に入れるなどの細かい助言をしてくれる。

デジタル・ファッション・アシスタントと呼ぶには程遠いが、実際の人々に服装アドバイスをさせたところ、信頼できる、さらにはいいアイデアかも知れないという反応が得られたという早期の成功が論文には記されている。よくよく考えれば、かなり複雑な課題だとわかる。さらに、“ファッショナブル”という言葉がいかにいい加減に定義されていたかを考え合わせれば、これは感動的なことだ。

ICCVでのフェイスブックの研究発表は、同社とその研究チームが、コンピュータービジョンに何ができるかという疑問に対して、じつに大きな視野を持っていることが示された。写真の顔を素早く正確に認識できたり、室内に置かれた物から位置が特定できれば大変に便利だが、ちょっとしたビジュアル・インテリジェンスによって改善される、まだ知られていない、または意外なデジタルライフの側面がまだまだたくさんある。この他の論文は、こちらから読むことができる

[原文へ]
(翻訳:金井哲夫)

非侵襲性血糖値モニター開発のEasyGlucoseがMicrosoftイベントで賞金10万ドル獲得

米国時間5月8日、Microsoftが毎年開催している学生スタートアップ企業のコンテストであるImagine Cupの今年の優勝者が決まった。非侵襲性でスマートフォンを使って血糖値を測定できる糖尿病患者のための検査法、EasyGlucoseだ。この他にも、同程度に有益な2つのアイデアを持つ企業がファイナリストに選ばれ、本日MicrosoftのBuild開発カンファレンスにてプレゼンテーションを行った。

Imagine Cupは、世界各地で数多く開かれている学生コンテストの優勝者から、公益性の高いもの、そしてもちろんAzureなどのMicrosoftのサービスを利用しているものを集めた大会だ。去年の勝者は、手のひらにカメラが搭載され、掴むものを認識できるスマートな前腕義手だった(今回も彼らは改良型プロトタイプで参加していた)。

3組のファイナリストは、それぞれ英国、インド、米国から選出された企業だが、EasyGlucoseは私の母校であるUCLAに在籍中の一人だけのチームだ。

EasyGlucoseは、雑音の多いデータに含まれる信号の検出に機械学習の利点をうまく生かしている。ここで言う信号とは、虹彩の微小な変化だ。開発者のBryan Chiang氏は、虹彩の「隆起部、窩孔、しわ」に、その人の血糖値を示す小さなヒントが隠されていることを発見したとプレゼンテーションで解説していた。

Imagine Cup決勝大会で行われたEasyGlucoseのプレゼンテーション。

こうした特徴は、眼の中を覗き込んでも肉眼で見られるものではない。そこでChiang氏は、スマートフォンのカメラにマイクロレンズを装着することで、彼が開発したコンピュータービジョンアルゴリズムによる解析に必要な高精細な映像が得られるようにした。

その結果、他の非侵襲性方式よりも格段に優れた血糖値測定が可能になった。しかも、数時間ごとに自分の体に針で穴を開けるという、最も多く行われている方法に取って代われるほどの能力がある。現在EasyGlucoseは、針を使う方法との誤差が7パーセント以内にあり、「臨床的測定精度」に必要な数値を大きく上回っている。Chiang氏は、その差を縮めようと頑張っている。間違いなくこの発明は糖尿病患者に大歓迎されるだろう。なんと言っても低価格だ。レンズアダプターが10ドル、アプリの継続的なサポート料は月間20ドルだ。

これはホームランではない。今すぐ実用化されるものでもない。通常、こうした技術は研究室(彼の場合は大学の寮)から直接世界に広がることはない。まずは米国食品医薬品局の認可が必要だ。ただし、新しい癌治療法や外科手術用器具とは違って、審査期間はそう長くはならないはずだ。EasyGlucoseは、現在特許出願中であるため、書類審査が行われている間は誰も手出しができない。

勝者として、Chiang氏には10万ドル(約1100万円)と、Azureのクレジット5万ドルぶんが贈られた。さらに、誰もが羨むMicrosoftのCEOのSatya Nadella(サティア・ナデラ)氏による1対1のメンタリングが受けられる。

Imagine Cupの決勝に残った他の2チームも、公益性の高いサービスにコンピュータービジョンを中心的に使っている。

Caeliは、慢性呼吸病を患いながら汚染地域で暮らさざるを得ない人々のために高性能な特製マスクを生産し、大気汚染問題に取り組んでいる。安価な市販のマスクでは対処できない深刻な大気汚染に苦しむ地域は少なくない。

これは、スマートフォンのフロントカメラで自分の顔をスキャンし、顔の形にぴったり合うマスクを選んでくれるというもの。どんなに高性能なフィルターが付いていても、脇から汚染粒子が入り込んでは意味がない。

このマスクには、コンパクトな吸入器が組み込まれていて、例えば喘息を患っている人などは、必要に応じて薬を霧状にして吸入できる。薬は、アプリに登録した量や時間に応じて自動的に放出される。また、その場所の汚染状況を調査して、もっとも危険な場所を避けられるようにもしてくれる。

Finderrは、家の中で物を紛失しても自分では探せない視覚障害者のためのユニークな解決策だ。特殊なカメラとコンピュータービジョンアルゴリズムを使うことで、このサービスは家の中を監視し、鍵、バッグ、食料品など、日常的な品物の置き場所を記録する。それらを探すためにはスマートフォンが必要なので、それだけは、なくしてはいけない。

アプリを立ち上げ、探している物を音声で伝えると、スマートフォンのカメラが、現在位置とその物の相対位置を割り出し「正解に近づいているよ」的な音声で、その場所へ導いてくれる。目が見える人のために、画面には大きなインジケーターが表示される。

プレゼンテーションの終了後、私は彼らに今後の課題について質問をした。Imagine Cupに出場する企業はたいていがアーリーステージだからだ。

今現在、EasyGlucoseは善戦しているが、このモデルにはまだまだ大量のデータが必要であり、さまざまな利用者層でテストしなければならないとChiang氏は訴えていた。1万5000人の眼球でトレーニングをしているが、食品医薬品局に提出するデータとしては、まだまだ足りない。

Finderrは、すべての画像を、巨大なImageNetデータベースで認識するが、チームの一員であるFerdinand Loesch氏は、それ以外の画像も簡単に追加でき、100点あればトレーニングできると話していた。英国では、こうした器具を利用する視覚障害者に初期費用として500ポンド(約7万1300円)の助成金が出る。彼らは、家の中をカバーするカメラの台数を減らすために、天井に取り付ける360度カメラを開発した。

Caeliは、本来は医療機器である吸入器も、例えば医療機器製造業者にライセンスすれば、自然に売れて宣伝にもなると考えている。他にもスマートマスクの準備を進めている企業がいくつもあるが、それらに対する彼の評価は低い(競合他社としては当然なことだが、引きずり下ろすべき業界の強力なリーダーは存在しない)。今後彼らが拡大を目指すインド国内のターゲット市場では、こうした製品を保険でカバーするのも、それほど難しくないと彼は指摘している。

彼らはアーリーステージの企業だが、遊びでやっているわけではない。とはいえ、そうした会社創設者の多くは授業の合間に仕事をしているのも事実だ。今後、彼らの話をたくさん耳にするようになり、彼らをはじめ、Imagine Cupから飛び立った他の企業も、来年あたりには資金を調達して従業員を雇うようになったとしても、驚きはしない。

[原文へ]

(翻訳:金井哲夫)

Brodmann17がローエンドCPUにも対応する自律コンピュータービジョン技術で1100万ドルの投資を獲得

自律走行車両と運転支援技術にとって、高効率なコンピュータービジョン・システムは決定的な意味をもつ要素だが、高価でかさばるハードウエアに依存しないコンピュータービジョン技術を提供する方法(ローエンドのCPUでも利用可能な深層学習ソフトウエア)を開発したあるスタートアップが投資ラウンドを確保し、今年末のサービス開始に向けてギアをシフトアップした。

Brodmann17(ヒトの脳の一次視覚野があるブロードマン領野に由来する)は、OurCrowdが主導するシリーズA投資として1100万ドル(約12億3000万円)を調達した。これには、Maniv Mobility、AI Alliance、UL Ventures、Samsung NEXT、Sony Innovation Fundが参加している。

Brodmann17の高速演算を実現する最先端技術は、物、道路、広範な景観を目で見て対処する人工知能を用いた車載機能全般に利用できるようデザインされている。これは、IntelのMobileye、Boschなど他のOEMが開発したサービス、BMWなどの一部の自動車メーカーと競合するものだ。

自動車は、以前にも増してハードウエアとして認識されるようになった。そのため、上記の企業だけでなく自律運転業界すべての企業は、技術界が経験したことのない巨大な課題に取り組んでいる。自律走行システムは高価であるばかりでなく、大量のエネルギーを消費し、自動車の大きな空間を占拠するため、どの企業も、この問題のひとつでも、できればすべてを解決できる道を探っている。さらに、現在のところ、多くの解決策はクラウドで演算を行うため、数テラバイトものバンド幅を消費し、運転シナリオに許容限度を超える遅延を発生させてしまう。

Brodmann17の宣伝文句によれば、その中核製品は、「軽量」にデザインされた、深層学習をベースとするコンピュータービジョン技術だという。ソフトウエアを基本とするソリューションであるため、小型の、ローエンドの車載プロセッサーでも利用でき、システムにどのようなLidar、カメラ、レーダーが実装されていても、完全に対応できるという(ただ、ローエンドのCPUで使えるとは言え、高速なCPUの場合とは比べものにならない)。

高速化の成績。Brodmann17のFPS。

計画では、Brodmann17の技術は、完全な自律走行を支援するものとして展開されることになっているが、自律走行車両が実用化するのはまだ何年も先の話だ。CEOのAdi Pinhas(深層学習とコンピュータービジョンの専門家であり、Ami​​r AlushとAssaf Mushinskyという2人のAI科学者と同社を共同創設した)は、最初の商業展開は、先進運転支援システム(ADAS)の形で行われるだろうと話している。これは現在、人が運転する自動車の前後のカメラで静止体と物体をより正確に認識できるよう、グローバルな大手自動車メーカーが取り入れようとしている技術だ。

だが、これは決して小さな魚ではない。ADASは、すでに多くの新型車で重要な装備となっているばかりか、その普及率と機能性は今後も成長を続ける。サードパティーから、まるごと、または一部が納入されることが多いADASシステムだが、2017年の時点で市場規模は200億ドル(約22兆3300万円)。2025年には920億ドル(約102兆7340億円)に達すると予測されている。

私は、その本社が置かれているテルアビブで、Brodmann17の創設メンバーと初めて会った。あれは2年前、その街で運営されているサムスンNEXTインキュベーターの片隅で、たった4人で活動していたときだ。彼らは、小さなプロセッサーに収まり、一般的な運転シナリオで遭遇する大小の物体のかすかな雰囲気の違いを大量に特定できる技術の最初のバージョンを見せてくれた。

それが今では、70名のスタッフを抱えるまでに成長した。そのほとんどが技術者で、独自技術の開発にあたっている。しかし、初期の開発ステージから一段上がるために、さらに社員を増やしてゆくという。

Pinhasは、ここ2年ほどの間に、技術界と大きな自動車産業が、自律運転車両のコンセプトに迫る方法に面白い変化が見られたと話している。

一方では、みんなが自律運転に関して可能なことを出し合っている。それは新しい試作車を作ってテストするというロードマップを加速させる明らかな助けになっている。もう一方では、そうした研究が増すことで、完全なシステムが出来上がるまでに、この先どれほどの研究開発が必要になるか、自律運転には今後どのような未知の要素が現れるのかという、現実的な見方ができるようになったという。

「今は、市場が一歩後退したかのように私には見えます。自律運転システムの開発を加速したいと誰もが望んでいますが、同時に、今年のCESで気がついたのですが、レベル5の話をする人が一人もいなかったのです」とPinhasは言う。レベル5とは、自律運転サービスにおける自律度の最高レベルのことだ。CESは、1月に開かれる大規模な技術系見本市で、次世代の輝かしい新サービスが初めて披露される場所でもある。「現状では、レベル4の開発に取り組みつつ、考えることが最適だと感じています。みんなでよく考えて、ロボットタクシーが、高度に洗練されたシナリオでどのように走らせることができるのかを確かめるのです」

そこに、Brodmann17はADASを入れ込む考えだ。それにより、現在実用化されているサービスに力を与える。そしてそのコンセプトを提示しつつ、将来の開発とサービスの足場を固める。

もうひとつ、Pinhasが指摘した面白い進展がある。これまでデータを演算し理解するためには、データのトレーニング量が重要だと考えられていたが、より賢いニューラルネットワークの開発に重点がシフトしているという。「これまでは『誰がいちばんたくさんデータを持っているか』でしたが、今はみんなが持っています」と彼は言う。「今は、トレーニングのためのアルゴリズムが重視されます。専門家たちは、(人間のように「思考する」ようデザインされた)ニューラルネットワークがすべてを解決すると、ずっと考えてきました。しかし今はまだ、そのネットワークのトレーニング方法を解明することが鍵となっている段階です。単にそこへデータを投げ込むだけでは解決しません」。まさにそこは、Brodmann17が長い間フォーカスしてきた分野であり、「他の企業も始めようとしている」ものだ。

Pinhasは、今日の自動車用コンピュータービジョン市場でもっとも進歩しているのはMobileyeだと認めている。とは言え、まだまだ世の中は進化の初期段階であるため、たくさんのイノベーションが誕生する余地があり、スタートアップにも大企業にも、インパクトを与えられる機会が十分にある。それこそ、投資家たちがBrodmann17に興味を抱く理由だ。そしてそれが、このスタートアップが次の段階に必要な資本を得るために、すでに次の投資ラウンドに向けて動き出している理由でもある。

「私たちは、Brodmann17が現在最高水準の深層学習AI企業であると確信しました。この会社には、非常に経験豊富な経営チームがあり、AIアルゴリズムの基礎に大きな飛躍をもたらした、卓越した技術の先進性があります」と話すのは、OurCrowdの共同経営者Eli Nirだ。「Brodmann17の技術は、AIの低計算量実装への扉を開きました。コストと複雑性と価格を大幅に低減し、数多くの分野、業界での利用が可能になります。私たちは、このラウンドを主導でき、この会社の未来の成功に貢献できることを大変に嬉しく思っています」

[原文へ]
(翻訳:金井哲夫)

Tesla Model 3の組立ラインの自動化は間違っていなかった

2017年にTesla(テスラ)が、Model 3の驚くほど野心的な毎週5000台の生産目標と「生産地獄」の始まりを発表したときは、アナリストたちは慎重だった。しかしイーロン・マスク氏は、ハイパーオートメーション、すなわちロボット組立ラインが、製造スピードを上げコストを引き下げる秘密兵器だと言いながら、それを上手くやり遂げられると豪語した。そこから1年半経って、今やテスラは2018年第4四半期の時点で9万1000台を出荷している。しかし、その生産台数の増加は、無数の問題の解決や、マスクの当初の「高度に自動化された組立ライン構想」から離れることなしには達成できなかった。

何が起きたのだろう?

自動化への取り組みがうまくいかなかった理由を尋ねられたマスク氏の答えは、終始一つの大きな課題を巡っていた。それはロボットビジョンである、つまり組立ラインのロボットが行動を決めるための対象として何を「見る」のかをコントロールするソフトウェアのことだ。残念なことに、当時の組立ラインのロボットは、ナットやボルトのような物が予期しない方向を向いていることや向き、車のフレームの間での複雑な操作に対処することができなかった。そのような問題が発生するたびに、組立ラインが停止していたのだ。結局、多くの組み立て工程の中で、ロボットを人間に置き換えたことで、はるかに簡単に問題を解決できたのだ。

現在コンピュータビジョン(ロボットビジョンのより包括的な名称)は至るところに存在していて、さまざまな業界を横断するAIテクノロジと画期的なアプリケーションの、次のフロンティアを象徴している。この分野で、現在研究者や企業によって行われている進歩はとても印象的なものであり、イーロン・マスク氏の自動車組立ラインの自動化ビジョンの実現に必要だった要素も現れはじめている。その核となるのは、コンピューターやロボットが、現実の世界で発生する(ナットやボルトの間違いのような)予期せぬ厄介な出来事の大部分を、確実に処理することができるようになるという技術だ。

コンピュータビジョンの転機の瞬間

コンピュータビジョンが転機を迎えたのは、2012年に畳み込みニューラルネットワーク(CNN)を適用したときだった。それ以降、その勢いは本当に増している。2012年以前は、コンピュータビジョンのソリューションは主に手作りのものだった。基本的にアルゴリズムは、手作業で定義されたルールセットを持ち、画像の特徴を比較的効率的に数学を用いて記述することが可能だった。これらは人間によって選択され、そしてコンピュータビジョン研究者によって組み合わされて、自転車や、店頭、または顔のようなオブジェクトを画像の中で特定することに用いられた。

機械学習の台頭と人工ニューラルネットの進歩が、これらの全てを変えてしまった。画像の特徴を自動的に読み解き学習できる、大量のトレーニングデータを使用したアルゴリズムの開発が可能になったのだ。その実際の効果は2つに分けられる。

(1)ソリューションがはるかに堅牢になったこと(たとえば、顔の向きが多少違っていたり、影があっても、変わらず顔として識別できるなど)。

(2)優れたソリューションの作成は、大量の高品質のトレーニングデータに依存するようになったことだ(モデルはトレーニングデータに基づいて特徴を学習するため、トレーニングデータが正確かつ量が十分で、アルゴリズムが後で見る可能性のある、多様な状況を表していることが重要だ)。

現在研究されていることは、GANと教師なし学習、そして合成データ

GAN(Generative Adversarial Networks、敵対的生成ネットワーク)、教師なし学習、および合成グランドトゥルースなどの新しいアプローチにより、高品質のコンピュータビジョンモデルの開発に必要なトレーニングデータの量と、収集に必要な時間と労力を、大幅に削減できる可能性が出てきた。これらのアプローチで、ネットワークは実際に自分自身の学習をブートストラップし、より高い忠実度ではるかに速く、例外的ケースと異常値を識別することができるようになる。その後、人間がそうした例外的ケースを評価して解決策を再考し、高品質のモデルによりすばやく到達することができるようになる。

これらの新しいアプローチは、適用性、堅牢性、および信頼性の観点から、コンピュータビジョンの範囲を急速に拡大している。それらは、マスク氏の生産課題を解決できるだけでなく、無数の重要なアプリケーションでその境界を劇的に広げることになるだろう。そのいくつかの例を以下に挙げてみる。

  • 製造オートメーション:ロボットは、中心から20度ずれた車の座席や左に1インチずれた位置にあるネジのように、ランダムな向きのオブジェクトを扱うことが、ますます得意になって行くだろう。さらに、ロボットは、柔らかくて、折り曲げ可能な透明な物体を確実に識別することができるようになるだろう(例えば、先週Amazonで注文したビニール袋に入った靴下について考えてみよう)。現在バークシャー・グレイのような新しいロボットメーカーたちが、こうした技術の最先端を走っている。
  • 顔面検出:以前は、側面からの顔や、部分的に影が落ちていたり、隠されていたりする顔、そして赤ん坊の顔といった例外的なケースに対しては、顔面検出は堅牢に動作しなかった。現在、研究者たちは、コンピュータビジョンが、顔写真から90%の正確さでまれな遺伝性疾患を識別するのに役立つことを発見している。ある種のアプリケーションは消費者の手に渡るようになっていいる。これは、さまざまな照明条件や、画像キャプチャのコントロールが十分に行えない状況に対して、アルゴリズムがますます堅牢になったために可能になったのだ。
  • 医療用画像処理:進歩により、MRIの評価、皮膚癌の検出、 その他多数の重要なユースケースでの自動化が可能になった。
  • 運転手の支援と自動化:霧のかかっている状況では自律運転システムは機能していなかった。なぜならこれまでは濃い霧と岩を区別することができなかったからだ。現在では、教師なしの学習と(Nvidiaなどが主導する)合成データ作成機能が、数十億マイルに及ぶ路上記録映像でもカバーすることのできない例外的ケースでシステムを訓練するために、利用され始めている。
  • 農業:ジョン・ディアが買収した ブルー・リバー・テクノロジーのような企業は、現在雑草と作物を確実に区別して、選択的に除草剤を自動散布することができる。このことで、商業農業で使用される有害化学物質の量を劇的に減らすことができる。
  • 不動産情報:地理空間画像にコンピュータビジョンを適用することで、企業は洪水、山火事、ハリケーンによる風が、特定の施設に危険を及ぼす可能性がある時期を自動的に特定できる。これにより家の所有者たちは災害が訪れる前により早く行動することができる。

こうした進歩をながめていると、1つのことがすぐに明らかになる:イーロン・マスク氏は間違っていなかったのだ。単に彼のビジョン(ロボットやそれ以外のもの)が、現実から1〜2年先行していただけのことだったのだ。AI、コンピュータビジョン、そしてロボットは皆、正確性、信頼性そして効率性の転換点に近づいている。テスラにとって、「生産地獄」への次の段階(おそらくModel Y)を迎えるフレモント工場と上海工場では、大幅に異なる組立ラインを目にすることになるだろう。それらは、より上手く、ロボットとコンピュータービジョンが組み合わされたものになるのだ。

画像クレジット: Guus Schoonewille/AFP / Getty Images

この著者によるほかの記事:シリコンバレーの企業たちが人工知能の可能性を損なっている

[原文へ]

(翻訳:sako)

ウォルマート傘下のサムズ・クラブがバーコードの代わりにコンピュータービジョンで商品スキャン

昨年10月、Walmart(ウォルマート)傘下のSam’s Club(サムズ・クラブ)がダラスにテスト店舗を設置し、モバイルチェックアウト、Amazon GOライクのカメラシステム、店内ナビゲーション、電子商品棚ラベルなどの新技術の試行を開始した。米国時間3月4日、同社は改訂されたScan & Go サービスのテストを開始したことを発表した。コンピュータービジョンと機械学習を活用して商品のスキャンを簡単、迅速にする。

現在のScan & Goシステムは2年前に導入され、Sam’s Clubの買い物客は購入する商品のバーコードを探して専用モバイルアプリでスキャンする。ショッピングカートに入れるときに商品をスキャンしてアプリで支払うので、レジの行列に並ぶ必要がない。

便利ではあるが、バーコードを探さなくてはならないため、商品を裏返してシールを探すなど苛立つことがある。重い商品ではとくに困難で、ラベルが剥がれてしまっていることもある。

また、スキャン自体に数秒かかるため、まとめ買いするときなど累積する時間はバカにならない。

新しいスキャン技術はバーコードの代わりにコンピュータービジョンと機械学習を利用して商品を識別する。これでスキャンに要する時間が短縮されると会社は言っている。

ビデオデモの中でSam’s Clubは、飲料水のパッケージをスキャンするのに、旧システムだと9.3秒かかるのに対して最新技術を利用すると3.4秒しかかからないことを見せている。

もちろん、かかる時間は客のスキルやスキャンする商品、システムの動作条件などさまざまな要因によって変わる。大きな水のボトルはかなり極端な例だが、システムがうまく働いたときの可能性を表してはいる。

ダラスに新規開店したテスト店舗の目的は、新技術を実世界環境で早期にテストして何がうまくいくかを知ることに加えて、利用者のフィードバックを集めることにある。ダラスが選ばれたのは、IT人材が豊富で採用の可能性があることのほか、アーカンソー州ベントンビルのWalmart本社から近いことも理由のひとつだと以前同社は言っていた

Sam’s Clubはこの新しいスキャン技術に関連する特許を申請したこと、および今春からダラス地域の 「Sam’s Club Now」でテストを開始することを話した。

[原文へ]

(翻訳:Nob Takahashi / facebook

写真スタジオよさらば、colormass仮想写真ツールの登場

IKEAは、デジタルイメージングを使用して製品マーケティングを次のレベルに引き上げるために、限界を押し広げたリーダーの1人だ。IKEAのカタログやそのウェブサイトを見ると、スウェーデンのソファー、コーヒーテーブル、スタイリッシュなランプがいっぱいの部屋を見ていると思うかもしれないが、実際に見ているのは非常にリアルながら、デジタル処理によって生み出された3D複製なのだ。そのような複製は次世代の小売に利用されよとしている:ARアプリだ。このアプリを使えば、何を買うかを検討しているときに、商品を選んで部屋の中に置いてみるといったことが可能だ。

こうしたものは、とてもクールだが、もしあなたが製造業者、小売業者、もしくは手に触れる物を製造したり売ったりしている者だとしたらフラストレーションがたまる代物でもある。誰もがIKEAのような在庫システムを作るだけのリソースを持っているわけではないからだ。但し、これまでは。

ベルリンを拠点とするスタートアップcolormassは、誰もが自分の商売に向けてIKEAスタイル体験を再現することができるようなプラットフォームを開発した。本日(米国時間9月18日)TechCrunch DisruptのBattlefieldでプレゼンテーションが行われた。

家具製造会社(または製造分野の他の事業者)は、企業の製造プロセスの一部として作成される、自身の製造ファイルを提供する。そのファイルはテクスチャ、色、およびその部品に関連するその他の情報を提供するものだ。するとcolormassはコンピュータービジョンアルゴリズムを使って、それらのイメージを本物そっくりの3Dモデルに変換する。これらのモデルは異なるテクスチャや色に変更することが可能で、その後様々な(やはり仮想的な)シーンの中に埋め込まれる。例えばこんなものや:

こんなものだ:

結果として得られるサービスは、IKEAが使っているようなシステムを作成したり、あるいは従来のように様々な物理的プロダクトを実際に製造、配置して写真を撮ったり、というやり方に比べると遥かに安いコストで提供される。

「IKEAのような企業は、これを行うためにとても洗練されたソフトウェアを使用しています」と、共同創業者のBalint Barliは語る。彼はTas SoltiとBenjamin Foldiと共にColormassを設立した。「3Dについて何も知らなくても、誰もがこれを行うことができるようにしたいと考えています。 これまではIKEAがやることをしたいのであれば、 特殊なハードウェア、高価なソフトウェア、そして3Dでの多くの経験と訓練が必要でした。でもそれは、もう必要ありません」。

最近私たちが市場で目にしてきたコンピュータビジョン開発の多くは、はっきり消費者向けアプリに焦点を当ててきた。顔を可愛い動物のようにしてくれるフィルタだったり、新しい髪の色を試せたり、私たちをビデオゲームの中のアクションの中に登場させたりといった具合だ。

実際、ビデオゲームやコンシューマ向けアプリが、最初にcolormassの創業者たちがスタートした場所だった。BarliとSoltiの初期の仕事は3D再現技術の分野のものだった、より詳しく言えば、人間の顔を再現して、ビデオゲームや他のアプリケーション(例えばヘアカラー)で使用できるようにすることだった。

とはいえその市場は、競合で混み合っていると同時に、ある意味、より一般化つつある場所だった。そこで彼らは、同じコンピュータービジョンテクノロジーが適用できる別の場所を考え始めた。

2人はやがて、3Dイメージングの専門知識を持つFoldiと組んだ。「私たちはすぐに、この技術は別の方向に進むことができることに気が付きました。特に、より良くそしてより安く、しかし高品質のマーケティングならびにプロダクトデザインの作成に対しての利用です」とBarliは語った。

Barliによれば、2016年に家具メーカーたちと共同作業を開始し、今では中規模程度の品揃えの顧客たちが1億ドル程度以上の収益をあげているということだ。

彼は顧客たちは(少なくとも今のところは)名前を挙げられたくないと語った。「なにしろ、これらの画像は本物の写真のように見えるので、顧客たちはあたかもそれが、本物の画像だという印象を崩さないようにしたいのです」。

Colormassが、企業市場の中にある明確なギャップに取り組んでいることは興味深い。Barliに言葉を借りるなら「手に触れることができるものなら何でも」デジタル化する手助けをしてくれるのだ。これを拡張していくことも計画されている。例えば3Dルームの中で複数の製品やイメージを操作できるようにすることなどだ。しかし彼はまた、デザインや家庭用品コミュニティ向けのB2Bサービスは「中期目標に過ぎない」とも語る。

「長期的な目標は、すべてのデジタル化された製品を集約して、3Dアセットの最大のリポジトリになることです。製品マーケティングに使用することもできれば、ゲームやその他のVRやARアプリケーションにも利用することのできるライブラリということです」と彼は言う。「3Dコンテンツは大きな問題です。なぜなら単に十分な数がないからです」。同社は既にこれを構築し始めており、顧客との契約を結ぶことで、特定の画像をcolormass自身のデータベースに保存することができるようにしている。

これは同社にとって興味深い機会の扉を開くだろう、この世界のAutodeskやAdobeといった企業だけでなく、Gettysのような大規模フォトエージェンシーにとってもライバル(あるいは不足を補ってくれる格好の買収相手)になることだろう。

  1. tcdisrupt_sf17_colormass-2926.jpg

  2. tcdisrupt_sf17_colormass-2924.jpg

  3. tcdisrupt_sf17_colormass-2932.jpg

  4. tcdisrupt_sf17_colormass-2930.jpg

  5. tcdisrupt_sf17_colormass-2936.jpg

  6. self-driving-car-dashboard.png

  7. tcdisrupt_sf17_colormass-2937.jpg

  8. tcdisrupt_sf17_colormass-2939.jpg

  9. tcdisrupt_sf17_colormass-2944.jpg

[ 原文へ ]
(翻訳:Sako)

Magic Leapがスイスを拠点とするDacudaの3D部門を買収 ― ヨーロッパ進出は同社初

magicleap-shutterstock_344631905

AR分野のスタートアップであるMagic Leapは、これまでに14億ドルを調達しているものの、いまだにプロダクトをリリースしていない。そんな同社は、コンピュータービジョンとディープラーニング事業の拡大とヨーロッパへの進出を狙い、同社2度目となる買収を行ったことが確認された。

Magic Leapは、チューリッヒを拠点とするコンピュータービジョン分野のスタートアップ、Dacudaの3D部門を買収したことが明らかとなった。Dacudaがこれまでに注力してきたのは、コンシューマー向けのカメラで利用する2Dおよび3Dイメージングのアルゴリズムだ(カメラだけではなく、カメラが搭載されたデバイスであればどんな物にも適用可能)。「ビデオを撮るのと同じくらい簡単に3Dコンテンツをつくる」ということだ。

DacudaはWebサイト上の短いプレスリリースで今回の買収を発表している。それによれば、Dacudaの3Dチームは全員Magic Leapに移籍し、創業者のAlexander Ilic氏はMagic Leap Switzerlandを率いることになるという。

「Dacudaは無事、当社の3D部門をMR分野のリーディング企業であるMagic Leapに売却しました。Dacudaの3Dチームは全員Magic Leapに移籍し、同社初となるヨーロッパでのプレゼンスを築いていきます。Magic Leapがチューリッヒにオフィスを持つことで、コンピュータービジョンとディープラーニング分野におけるリーダーシップをさらに強化することができます。そして、これからMagic Leap Switzerlandを指揮するのは当社の創業者、Alexander Ilicです。Peter WeigandとMichael Bornの指揮のもと、DacudaはSunrise、Crealogix、Unisys、SITAなどの顧客とともに、プロダクティビティ分野のソリューションに再度フォーカスしていきます」。

以上をご覧になると分かるように、この2社が具体的にどのように協働していくかという点は言及されていない。だが、この買収が最初に噂された先週(Dacudaのブログに3D部門の売却を示唆するポストが投稿され、LinkedInのプロフィールを「Magic Leap所属」と変更する従業員がいた)、Tom’s Hardwareは、この買収によりDacudaが開発した技術によってMagic Leapが1部屋分のスケールをもった6自由度(6DoF)トラッキングを手掛けるようになると予測した(3D環境におけるイメージキャプチャーセンサーを向上する)。

Magic Leapがヨーロッパに進出するのはこれが初めてのことだ。だが、それよりも重要なのは、同社が拠点とするスイスはコンピュータービジョン分野の研究開発において非常に評価が高い国だということである。

スイスにはAR/VR技術に取り組むスタートアップや学術機関が多く存在する。特に、コンピュータービジョンやディープラーニングの分野ではそれが顕著だ。そのため、Magic Leapがスイスでのプレゼンスを持つことで、同国のAR/VRシーンにダイレクトに入り込むことができる。

(このエコシステムに着目する大企業も多い。2015年にAppleによって買収されたモーションキャプチャーのfaceshiftも、チューリッヒ出身のスタートアップだ)。

今回の買収により、Magic Leapは良いタイミングで、人材強化とスイスのエコシステムへのコネクション作りを達成したと言える。ご存知の読者もいるかもしれないが、つい先日、Magic Leapのプロダクト情報役員の離脱、そして同社のテクノロジーとハードウェアがあまり良い状態ではないとするレポートリークするという事件があった。それにより、少なくとも短いタームでみた場合、Magic Leapは本当に45億ドルのバリュエーションに見合う価値を生み出せるのかという疑問が残ることとなった。

今回、買収金額などの詳細は明らかになっていない。Dacudaの創業は2009年で、CrunchBaseによれば、同社はこれまでに金額非公開の資金調達ラウンドを実施。それに加えて、Kickstarterを利用したクラウドファンディングによって54万2000ドルを調達している。この資金は、同社が2014年に発表した「PocketScan」と呼ばれる手持ちスキャナーの開発費用に充てられている(このプロダクトは過去にTechCrunchでもカバーしている)。

また、この買収について明らかになっていないことがもう1つある。それは、Dacudaの3D部門がこれまでに獲得したパートナーシップの行く末だ。

例えば、同社は昨年10月、スイスを拠点にAR/VRを手掛けるMindMazeとのパートナーシップを締結している。「MMI」と呼ばれる新しいプラットフォームを構築するためだ。MindMazeの説明によれば、このプラットフォームは「モバイルベースの没入型アプリケーションとソーシャルVR向けに開発された、世界初のマルチセンサリング・プラットフォーム」だという。また、同社は今後「位置トラッキングとマルチレイヤー・インタラクションの分野でGoogleのdayDream Viewがカバーしきれていない部分にアプローチするため、全世界のユーザーにテクノロジーを提供していく」としている。TechCrunchは現在、今回の件についてMagic Leapに問い合わせしている最中だ。彼らから何らかのコメントが得られれば、記事をアップデートしていく。

Magic Leapが他社を買収するのは今回で2度目となる。1度目は、同社が2016年に買収したイスラエルのサイバーセキュリティ企業、Northbitだった。

[原文]

(翻訳: 木村 拓哉 /Website /Facebook /Twitter

Dysonがシンガポールに、AIとソフトウェアの研究開発に注力した技術センターをオープン

dyson-stc-fluid-dynamics-lab-01

Dysonはシンガポールでの業務を拡大している。掃除機とスマート家電のメーカーが新しい技術センターを本日(米国時間13日)オープンしたのだ。この英国生まれの会社は新しい施設へ5億6100万ドルを投資する。この施設は会社の成長するビジョンを推し進めるために、研究開発チームが様々なハードウェアとソフトウェアのノウハウを蓄積できるようにするものだ。

もしDysonの仕事にあまり詳しくないならば、どうして掃除機の会社が「人工知能、機械学習、そしてソフトウェア開発への集中」に5億ドルもの投資を行うのかを不思議に思うかも知れない。しかしDysonは、いつでも国内清掃機器マーケットでハイテクエッジであることを強調してきた。それが最近は推し進められているというだけのことだ。そこにはロボット工学、コンピュータービジョンシステム、機械学習を使うDyson 560 Eyeロボット掃除機などが含まれている。

施設内の写真から分かるように、Dysonはその最新のプロダクトであるSupersonicヘアドライヤーに多大なエンジニアリングを投入している最中だ。また、Dysonがその電気モーターやバッテリ技術の知見を自動車の世界に広げるのではという憶測もあったが、その件に関しては会社はまだ何も発表していない。

  1. dyson-stc-reception-day-01.jpg

  2. dyson-stc-reception-night-01.jpg

  3. dyson-stc-supersonic-wall.jpg

  4. dyson-stc-performance-environmental-lab-02.jpg

  5. dyson-stc-project-room-03.jpg

  6. dys_westpark-1.jpg

    crose
  7. dyson-stc-lighting-day.jpg

  8. dyson-stc-low-voltage-lab-01.jpg

  9. dyson-stc-future-lab.jpg

  10. dyson-stc-high-voltage-lab.jpg

  11. dyson-stc-copy-right-gareth-phillips-6.jpg

    Dyson R&D by Gareth Phillips
  12. dyson-stc-fluid-dynamics-lab-01.jpg

  13. dyson-stc-copy-right-gareth-phillips-5.jpg

    Dyson R&D by Gareth Phillips
  14. dyson-stc-copy-right-gareth-phillips-3.jpg

    Dyson R&D by Gareth Phillips
  15. dyson-stc-copy-right-gareth-phillips-4.jpg

    Dyson R&D by Gareth Phillips
  16. dyson-stc-connected-studio-04.jpg

  17. dyson-stc-breakout-area-cafe.jpg

  18. dyson-stc-connected-studio-01.jpg

  19. dyson-stc-acoustic-lab-01.jpg

  20. dyson-stc-breakout-area-05.jpg

  21. dys_westpark-2.jpg

    crose
  22. dys_westpark-3.jpg

    crose
  23. dys_westpark-4.jpg

    crose

Dysonの新施設には、彼らがThe Control Towerと呼ぶ、サプライチェーンと物流のリアルタイムモニタができる設備も置かれる。これを使うことで世界的な生産と出荷がスムースに行われるようになる。そして新しいハイテクセンターはDysonのWest Park 工場の近くに位置している。同社によればこの工場では高度な自動生産ラインのおかげで、2.6秒に1台の割合でモーターが完成しているということだ。

Dysonは既に、ロボット計画のリーダーであるMike Aldredの下でロボットや機械学習に関する多くのことを行うと発表している。そして新しいハイテクセンターはその追求に役立つだろう。既にDysonは次世代ロボット掃除機の開発に取組んでいることを認めている。360 Eyeのために開発されたコンピュータービジョンやその他の技術が、より広い製品に適用されるだろうと語っている。

[ 原文へ ]
(翻訳:Sako)