顔認識システム、百万人の顔データベースに大苦戦

faces

遍在するビデオカメラと高度な顔認識技術によって可能になる恐怖の監視国家を心配している人は多い ― しかし最新の研究によると、最高のアルゴリズムでも、百万人以上の顔を区別するとなると絶対確実からはほど遠いようだ。

ワシントン大学のMegaFace Challengeは、昨年末から行われている顔認識アルゴリズムの公開競技だ。狙いは、画像データベースサイズの桁が増えていった時、システムが人間に勝てるかどうかを見ることにある。

多くのシステムが何百万、何億人の写真を使って顔を学習しているが、実際のテストは「Labeled Faces in the Wild」等のセットで行われ、その数は1万3000枚ほどだ。しかし、実世界の状況はそれとは違う。

「顔認識アルゴリズムのテストは『地球規模』で行われるべきだと推奨するのは、われわれが最初だ、と研究チームのリーダー、Ira Kemelmacher-ShlizermanがTechCrunch宛のメールで言った。「多くの人たちがその重要性に同意すると思う。大きな問題は、公共データベースとベンチマークを作ることだ(同じデータを使って競争できる)。ベンチマークの作成は大変な作業だが、研究に大きく貢献する」

研究者らはまず、既存のラベル付けされた人々の画像から始めた ― 様々な分野の有名人のセットや、幅広い年齢の人々のセット等がある。彼らはそこに、FlickrからCreative Commonsライセンス付きの顔写真を入手し、「不正解ノイズ」として加えた。

彼らは、ノイズを10から最大100万まで増やしてテストをした ― 正解の数は変えずノイズだけを増やした。

megaface_results

テストの結果、少数の驚くほど頑強なアルゴリズムが浮上した。幅広い年齢セットで圧勝したのは、GoogleのFaceNetで、同システムとロシアのN-TechLabが、有名人データベースでは接戦だった(中国四川省のSIAT MMLabには特別賞)。

有名なところで名前がないのはFacebookのDeepFaceで、間違いなく有力な優勝候補のはずだ。しかし、参加は任意であり、Facebookはシステムを公開していないので、MegaFacesでの成績は謎のままだ。

上位2システムのいずれも、ノイズが増えるにつれ数字は確実に下がっているが、有効性はグラフの対数スケールほどには低下しない。GoogleがFaceNetの論文で主張する超高精度の値は、ノイズが1万件を超えると達成されなくなり、100万になると、他には大差をつけているものの、何かの目的に使えるだけの精度は得られなかった。

それでも、100万件のノイズの中から4人中3人を見つけるのはすばらしい ― ただし、その成功率は法廷やセキュリティー製品では通用しない。どうやら監視国家が現実になるのはまだ先のようだ。

研究成果は、一週間後にラスベガスで行われるConference on Computer Vision and Pattern Recognitionで発表される。

[原文へ]

(翻訳:Nob Takahashi / facebook

Apple、iPhoneに顔認識と物体認識を導入

screen-shot-2016-06-13-at-11-15-18

何年か前にレストランで撮ったあの写真を覚えているだろうか?バーで友達に見せたい、あのすてきなデザートは? これまでは何千枚もの写真をスクロールして探さなくてはならなかった。iOS 10の新しい写真アプリで、Appleは高度なコンピュータビジョン技術を駆使して、写真の発見やグループ分けを容易にした。

Appleが使用するコンピュータビジョン技術は、iPhoneまたはiPadの上で動作する。つまり、画像を全部クラウドにアップロードする必要がない。写真の顔を認識して人ごとにグループ分けできるほか、高度な物体認識も行うので、はるか昔の様々な物の写真を見つけることができる。言い換えれば、iPhoneはあなたが撮ったのが食べ物か馬か山かを知っているので、見つけ出すのはずっと簡単になる。

Appleによると、システムは画像にどんな人や物が写っているかを認識するために、1枚当たり110億回計算する。

Screen Shot 2016-06-13 at 11.14.14

ここからコンピュータビジョンと位置情報ベースの画像タグを合わせるのは簡単で、Appleは写真アプリの新しい “Memories” 機能で、友達ごとや位置ごとに写真をグループ分けできるようにした。

AppleはiOS 10を、過去最大の変更だと言い、新OSでは写真に興味のある人にとって数多くの改善が施されている。ロック画面からカメラを呼びだすのは、右から左にスワイプするだけだ。よくできている。

[原文へ]

(翻訳:Nob Takahashi / facebook

Movidius、今度はFathomを発表―どんなデバイスもUSBスティックでニューラルネットワークが利用可能

2016-04-29-fathom-movidius

数週間前にFLIRと提携してBostonスマート・サーマルカメラを発表し、大きな注目を集めたMovidiusが再び重要な製品を発表した。 同社はサーマルカメラでも使われたMyriad 2プロセッサのメーカーだが、新たな応用分野を発見した。Fathom Neural Compute Stickと名付けられたスティックはUSBをサポートするあらゆるデバイスにニューラル・ネットワークによるコンピューティング能力を与える。

ユーザーはFathomを文字通りどんなデバイス(コンピューター、 GoPro、Raspberry Pi、Arduino etc)のUSBポートにも挿してそれらをスマート化できる。Fathomeに内蔵されたMyriad 2プロセッサが画像をニューラルネットワークに読み込む(結局このチップがカギとなる)。

簡単にいえば、Fathomをプラグインとしたデバイスは認識能力を備える。カメラないし他のデバイスからの画像を高度なコンピューター・ビジョンで処理し、プログラムに従って独自の知的判断を下せるようになるという。重要なのは、こうした処理がすべてUSBスティック内で自己完結的に実行可能だという点だ。いちいちクラウド上の資源を呼び出す必要はない。

fathomnew

このUSBスティックに加えて、MovidiusはFathom Deep Learning Software Framework〔Fathom深層学習ソフトウェア・フレームワーク〕と呼ばれるアプリケーション開発プラットフォームも提供する。ユーザーはこのフレームワークを用いてアルゴリズムを最適化し、コンパイルすることができる。生成されたバイナリー・ファイルはきわめて低い消費電力でMyriad 2プロセッサ上で¥各種のコンピューター・ビジョンを実現できる。 Movidiusではフルパワー、ピーク・パフォーマンスは1ワットで、このとき画像16枚を処理できるとしている。Fathomeスティックの利用分野はもちろん画像処理だけにはとどまらない。

Movidiusではテスト用に1000個のスティックを用意しており、一部の企業、研究者、スモール・ビジネスに対しここ数週間のうちに無料で配布する。第4四半期には大量生産の開始が予定されている。価格は100ドル台になるもようだ。

ここまでが発表されたニュースだが、ではこのニューラルネットワークというのはいったいどんな仕組みで、どんな応用が考えられているのだろう?

Fathomは何ができるのか?

ニューラルネットワークの仕組みやFathomデバイスが現実にどのようなケースに応用できるのか理解するのはたいへん難しい。私は何時間も苦闘して(Movidiusには何回も電話した)やっとある程度のイメージをつかむことができた。以下は問題を大幅に簡単にした比喩的な理解だということを承知していただきたい。

コンピューターがある種のに画像をリアルタイムで認識し、プログラムされたとおりに反応することができれば非常に便利だ。たとえばドローンのコンピューターにどのような場所なら着陸に適しているか、広さや平坦さを覚えさせることができたらどうだろう? ドローンは適切な地点を自ら発見して着陸することができる。

こうしたことを実現するためには非常に複雑なコンピューター・システムを構築しなければならない。 GPUも大量に必要とするだろう。またユーザーはTensorFlowのようなオープンソースのライブラリーを用いて機械学習のためのニューラルネットワークを開発することになる。ソフトウェアが完成したら、次に何百、いや何万という画像をシステムに読み込ませ「着陸可能地点」の特徴を学ばせる。しかしドローンの着陸に適した場所としては裏庭、船の甲板、取り付け道路、山頂…あらゆるバリエーションが考えられる。

努力を重ねていけば、やがてシステムは自ら学習を進め、「着陸可能な地点を認識する」という目標に向けてアルゴリズムを改良していくだろう。だがこうしてシステムが完成したとしても、リモートのデバイスからシステムに接続しリアルタイムでの処理を実現するのは難事業だ。クライアント/サーバー・モデルではある程度の遅延は避けられず、情報の欠落も起きる。ドローンを着陸させようとしている場合、こうした遅延や脱落は致命的な問題を引き起こしかねない。

Fathom

Fathom Neural Computeスティックが解決しようとしているのはまさにこの種の問題だ。Fathomはニューラルネットワークに基づいたコンピューティング・パワーを自己完結的に内蔵し、リアルタイムで結果を返すことができる(どのように反応すべきかはFathomソフトウェア・フレームワークで アプリを開発する必要がある)。Fathomスティックを装着したデバイスはあたかも内蔵されたシステムであるかのようにコンピュータ・ビジョンを利用できる。

この例でいえば、ドローンは着陸可能地点を認識するためにクラウドと通信する必要はなく、デバイス内で判断を完結させることができるわけだ。しかも必要な電力は非常に少ない。

ひとことで言って、これはすごい。

さらなる応用

低消費電力で高度な画像認識機能を備えたハードウェアという点を理解すれば、あとは多少の想像力を働かせてFathomが利用できる応用分野をいくつも考えることができる。知的判断ができるドローンはその一例だが、コンテキストを認識するセキュリティー・カメラ、自動走行車、進化したレベルの自然言語認識等々だ。

またUSBスティックという小型軽量で接続にきわめて汎用性が高いフォームファクターはウェラブルデバイスが利用するにも適している。各種のヘッドセットへの応用がまず考えられるだろう(量産レベルとなればUSBスティックが外付けされることはなく、デバイスに内蔵されることになるだろうが)。仮想現実、拡張現実がメインストリームに参入しようとしていることを考えればFathomの影響は非常に大きくなりそうだ。

コンピューター・ビジョン (CV)のアルゴリズムは拡張現実、仮想現実、混合現実を実現するたの大きな柱の一つだ。したがってCVの機能を向上させ、フットプリントを小さくするような改良はどれも大きなインパクトを持つことになる。

ビジネス戦略的に考えても、MovidiusのUSBスティックは潜在的顧客獲得の手段として適切だろう。 拡張/仮想現実の実現を目指す大企業はすでにGoogleその他の大企業と提携している。しかしスタートアップや小規模メーカーは手軽に利用できるCVハードウェアを探している。モジュラー性が高く、安価であり手額に追加できるFathomモジュラーはそうしたメーカーにとって理想的なソリューションになる可能性がある。

画像: Movidius

[原文へ]

(翻訳:滑川海彦@Facebook Google+

このニューラルネットワークは、白黒写真に正しい色の「幻覚」を起こさせる

teaser3

機械が支配する未来は、歴史から白黒写真を排除してしまうかもしれない。必要なのは、バークレーのコンピュータ科学者、Richard Zhangの作ったこのシステムだけだ。魂のないシリコンの感性があらゆるモノクロ写真に色の「幻覚」を起こさせる

このシステムは、畳み込みニューラルネットワーク(CNN)と呼ばれる、画像認識の一種を利用して、人間の脳の下位レベルの視覚システムを模倣することによってパターンを認識し対象を分類する。おそらくGoogleのDeepDreamが、最もよく知られた例の一つだ。数百万枚の ― ありとあらゆる種類の ― 画像を観察することによって訓練されたZhangのCNNシステムは、白黒写真に写った物体を認識し、そうあるべきと考えられる色をつける。

例えは、草地には様々な特徴がある ― 質感、画像間に共通する場所、近くによく見られる特定の物、等。そして、草地は一般に緑色、だろう?そこでシステムはそこが草地であると見なすと、その部分を緑色に塗る。同じことが、ある種の蝶や建築資材、特定の犬種の鼻、等についても行われる。

processcompare

Zhangの着色プロセスを、他のシステムおよび元のカラー写真のいくつか(右)と比較している

システムを説明した論文でZhangは、この認識および色割り当てのプロセスを「幻覚化」と呼んでおり、実際その名の通りだ。本当はそこにないものを見ているのだから。実は人間が何かに色をつけるのと非常によく似たことを行っている。われわれは、見た物の形や模様を以前見た物と比較して、最も適したクレヨン(あるいは16進数)を選び出す。

当然結果はまちまち(AIシステムの結果はそれが多い)であり、アンゼル・アダムスの写真をカラー化するアイデアを私は受けつけないが(トーマス・キンケードやアンリ・カルティエ=ブレッソンも同様にいただけない)、実際、これは成功していると言わざるを得ない。Zhangらはシステムの有効性を検証するために、モノクロ写真のカラー版を2種類見せて選ばせた。元のカラー写真と、ニューラルネットワークの成果だ。20%の人々が後者を選び、それは大きな数字に思えないかもしれないが、これまでのカラー化の取り組みよりも、良い結果だった。

論文には技術情報が満載されているが、システムがいつどうやって失敗したか、最も納得いくもの、いかなかったものは何か、等の興味深い事例が数多く載っている。読んでみて(他の参照文献も)週末にコンピュータービジョン専門家の友達と話す新ネタを仕込むのもいいだろう。

[原文へ]

(翻訳:Nob Takahashi / facebook

GoogleのProject Tangoを支えるMovidiusのビジョンプロセッサ、バージョンアップしてSDKを提供

Movidiusは、まだ見慣れない名前だと思うが、今年の初めにGoogleがProject Tangoのスマートフォンとタブレットを発表したときに同社の名前がちらっと登場している。このプロジェクトは、モバイルデバイスが高度な3Dの知覚を持つと何ができるかを探求するためのGoogleのテストベッドで、Movidiusはそのための特殊なビジョンプロセッサを提供している。

Movidiusが一般にデビューしたのはProject Tangoからだが、しかしそのときすでに同社は、そのチップの次のバージョンに取り組んでいた。そのMyriad 2と呼ばれるチップは、1に比べてエネルギー効率が良くなり、より強力になっている。

MovidiusのCEO Remi El-Ouazzaneによると、新バージョンはアーキテクチャが“ラジカルに改良され”、とくにメモリの新しいアーキテクチャにより、消費電力1ワットあたりの処理能力がMyriad 1の20倍に向上した。その計算能力は約3テラフロップで、消費電力は0.5ワットだ。この28ナノメートルチップには12基のプログラマブルなベクタプロセッサが載り、フルHDの入力を最大で毎秒60フレーム処理できる。

El-Ouazzaneによると、これだけの性能は、Project Tangoから学んだことの効果が大きい。あのプロジェクトの顧客たちは、複数のソースからのデータを同時に処理できることを求めていた。

しかしEl-Ouazzaneも言うように、このチップの真のすばらしさは、それが長期的に提供するユーザ体験にある。Project Tangoの場合は、3Dのセンシングが主な目的だったが、El-Ouazaaneがとくに強調したいのは、スマートフォン上の複数のカメラからの入力を処理してDSLR以上の体験と画質を作り出す、計算機支援による写真技術(computational photography)だ。“これによってついに、モバイルデバイスで完全にプロ級の写真を撮れるようになる”、と彼は言っている。

デバイスがMovidusのプロセッサを搭載すると、たとえばオートフォーカスがはやくなる。また、赤外線センサを搭載して、ひとつのシーンからより多くの情報を取り出し、それらの情報を組み合わせた写真を作ることもできる。今のスマートフォンでそれをやろうとすると計算力が追いつかないと思われるが、Movidiusのチップなら十分にそれが可能だ。

このビデオは、Project Tangoのパートナーの仲間であるMantis Visionがトライした3D技術の一端だ。

しかしMovidusのチップが提供するユースケースは、もっともっと多様だ。El-Ouazzaneの想定によると、今後の1年ぐらいは、モバイルデバイスと、3Dセンシングを使ったゲーム、屋内ナビゲーションなどが、主な応用系になるだろう、と。

スマートフォンのOEMたちも、ここらあたりを考えているものと思われる。AmazonのFire Phoneは市場にそれほどの衝撃をもたらさなかったけど、El-Ouazzaneはちゃんと見ていた。スマートフォンの新製品の発表会でメーカーのCEOがコンピュータビジョンについてこれだけ長時間を費やした例は、過去になかった、と。

Movidiusが長期的に期待しているのは、そのセンサチップが人間の社会的な役を代行するロボットや、自律飛行するドローンなど、あらゆるものに使われていくことだ。

しかし高度な3Dセンシングの多様な応用系の広がりは、OEMだけでなく一般的にいろんな方面のデベロッパが参加するエコシステムが支える。デベロッパコミュニティの重要性を早くから認識している同社は今日(米国時間7/30)、MyriadチップのSDK、Myriad Development Kit(MDK)と、アプリケーション開発のためのツールやフレームワークをリリースした。このキットに含まれているリファレンスボードには、複数のカメラとセンサがあらかじめ載っている。ただし今のところMDKは、NDA契約を伴う特定のデベロッパにだけ提供されるので、コミュニティの賑やかな盛り上がりはまだ先の話のようだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビデオからベストショットの写真を作るVhotoは写真が下手な人に朗報

写真は、われながらへたくそだ。ぼくは、世界最悪の写真家として有名だ(実際にそういう賞がある)。でもVhotoという新しいiOSアプリは、そんなぼくを救ってくれるかもしれない。

Vhotoは独自の技術を使ってビデオの中の最良の画像を見つけ、それをスチール写真にする。タグをつける、シェアする、ほかの人の写真を見つける、などのソーシャルな機能もある。

ビデオは、Vhotoのカメラアプリを使って撮ってもよいし、あるいは既存のビデオをVhotoにアップロードしてもよい。Vhotoは20種類の測度でビデオを調べる(ぼけ、コントラスト、顔、微笑、ユーザの意図、そして同社CEOのNoah Hellerが“めずら発見器(novelty detector)”と呼ぶもの、などなど)。めずら、とは、珍しいもの、ほかのフレームとは相当に違っている画像のことだ。

Hellerは曰く、“うちには、写真とビデオの違いなんかクソくらえ、という哲学がある。Vhotoはどんなビデオでも調べてグレートなショットを見つけ、それの短いクリップを作る”。

元がビデオだから、すべてが自然で、かまえたり、ポーズを決めたりしなくても、セルフィーもアクションシーンも自然な表情もグループ写真もすべて、簡単にスチールとして捕捉できる。

HellerはMicrosoftでXboxのソーシャル機能の設計とプロマネをやっていたが、その後ActivisionでSVPとして大ヒット作Call of Dutyを担当した。2012年に、陽の光降り注ぐカリフォルニア州サンタモニカからボストンに移って、Atlas Ventureの社員起業家の地位に就いた。

Atlasの起業家社員としてHellerは、その後Vhotoへと成熟するアイデアを温め、AtlasやPolaris Partners、同社の協同ファウンダで会長のHugh Creanらから240万ドルの初期資金を得た。

“プロの写真家が細心の注意をして撮った写真だけが良い写真ではない。むしろ、何千何万もの画像を調べるフォトエディタがあれば、そこから最良の写真を見つけることができる”、とHellerは言う。Vhotoは彼にとって、そんなフォトエディタなのだ。

“ビデオはとても強力なメディアだから、そのうち必ず、支配的なメディアになる。ビデオのパワーをよく知ってることが、うちの強みだ”、と彼は言う。

Vhotoは今、AppleのApp Storeで無料だが、今後はビデオのアーカイビングや画像検索などの機能のあるプロ用バージョンも提供する予定だ。

VhotoのCTO Jay Bartotは声明文の中で次のように述べている、“機械学習のアルゴリズムを利用して、ユーザの好みを知ることができる。Vhotoはコンピュータビジョンと機械学習を結びつけて、すばらしい結果を作り出す。それは、ふつうの単なるスチール写真からは得がたいものだ”。

 

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビデオ: GoogleのProject Tangoで室内を3D撮影するとこうなる

昨日はGoogleの3D感知型スマートフォンProject Tangoについてお伝えし、そこに使われている視像プロセッサや、それが携帯電話の未来にもたらす意味について論じた。

そして今回お見せするのは、実際にTangoのプロトタイプデバイスを使ってMatterportが作った3Dの室内マップだ。Matterportはこれまでにもコンピュータビジョンや知覚コンピューティングの技術を駆使して、室内など3D空間の捕捉や再現を行うソフトウェアを作ってきたので、Tangoのプロトタイプ機をGoogleからもらえる数少ない企業の一つに選ばれたのだ。

MatterportのCEO Bill Brownに、Project Tangoの3Dシーンを再現する能力について聞いてみた。Brownによると、このプロジェクトによってモバイルの3D化が急速に進むだろう、という。3Dの捕捉とマッピングをモバイルデバイスほど迅速簡便に、そして気軽にできるデバイスは、同分野の既存の製品や技術の中にはない。だからモバイルデバイスは事実上、3D技術を今後一般化大衆化していくための唯一の乗り物になる。

Matterportは同社の一連のソフトウェアによって3Dデータを、カラーカメラデータと完全なメッシュデータの両方で一度に捉える。そしてそれらを、正確なモデルへと再構成する。Matterportはそのためのカメラを、価格など一般市販を意識しながら独自に作ってきたが、Brownによると、Tangoデバイスの能力は現状ですでに立派なものだそうだ。

“まだプロトタイプだからメッシュのクォリティは、うちのカメラほど良くないけどね”、とBrownは言う。

このプロトタイプTangoデバイスは、カメラの解像度も低いから画像が粗い。でもカメラの解像度を上げるぐらいのことは簡単にできる、とBrownは言う。

このビデオでもお分かりのように、Tangoの能力は現状でもすでに十分に感銘を与える。やがて、われわれが日常的に持ち歩く携帯が、このように自分の身の回りの環境を感知したり解釈したりできるようになるのだ。

Matterportはバルセロナで行われるMobile World ConferenceでQualcommのキーノートを担当する。その機会に同社は、同社の3D捕捉再現ソフトウェアをモバイルデバイスに載せてデモし、このような3D技術の大衆的普及がもたらすメリットについても語るだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Googleが野心的AIプロジェクト、タンゴを発表―3Dカメラとセンサーでスマートフォンが空間を認識する

今日(米国時間2/20)、Googleのスカンクワークスこと先進テクノロジー・プロジェクト(Advanced Technology and Projects)グループはプロジェクト・タンゴ(Project Tango)と名付けられた画期的3Dセンサーを装備したAndroidベースのスマートフォンのプロトタイプとデベロッパー・キットを発表した。

この3Dセンサーとカメラを組み合わせたシステムはモーショントラッキングと同時に周囲をスキャンして3Dマップをリアルタイムで生成することができる。Googleはこの新センサー、カメラ、高度なコンピュータ・ビジョン・ソフトウェアの組み合わせによって屋内のナビゲーションやVRゲームなど数々のまったく新しい応用への道が開かれると信じている。デベロッパーは今日からGoogleに対し、プロトタイプ・スマートフォンとデベロッパー・キットの入手を申し込むことができる。

ただし、初回はGoogleが審査して特に許可する200チームに限られるという。 申し込みをするデベロッパーはこのデバイスでどのようなプロダクトを開発する計画なのか明確な案を提出しなければならない。200チームの選定は2014年3月14日までに完了する。Googleが想定する分野は屋内ナビゲーション/マッピング、物理的な空間内でプレイする単独/複数プレイヤーのゲーム、センサーからの3Dデータの新しい処理アルゴリズムなどだ。

デベロッパーはアプリをJava、C/C++で開発するものとする。またUnity Game Engineを利用することができる。このスマートフォンに対するAPIは現在開発中だという。

「“プロジェクト・タンゴの最大のインパクトは、スマートフォンが人間の視覚のような動作と空間の認識能力を持つようになることだ」とプロジェクト・タンゴのチームリーダー、Johnny Leeは言う。

Googleはこの3Dセンサー機能を利用して、デベロッパーが3Dビジョンに基づいたまったく新しいジャンルのスマートフォン・アプリケーションを多数開発するようになることを期待している。

このスマートフォンには他のスマートフォン同様、コンパスとジャイロが搭載されているが、Googleが開発した新センサーシステムは周囲をスキャンしてKinectのように動作やジェスチャーを認識し、また周囲をスキャンして3D空間マップを生成する。

ただしプロジェクト・タンゴのシステムはLeap Motionのようなジェスチャー・ベースのUIを開発することを念頭に置いたものではない。逆にスマートフォンが周囲の3D空間を認識し、自分の位置が分かるようになった場合、デベロッパーがどんなアプリを作り出せるのかが興味の焦点だ。

たとえば新しい家具を買おうとするときスマートフォンを構えて家の中を一回りするだけで正確な寸法の測定ができたら便利だろう。 複雑な構造のビルの中でのナビゲーションにも応用できるかもしれない。ショッピング・モールや地下街で迷子にならずにすむだろう。

タンゴのセンサー

Googleはプロジェクト・タンゴにMovidius’ Myriad 1ビジョン・プロセッサー・プラットフォームを利用している。これまでこうした機能をスマートフォンに組み込むのは、非常に高価になってしまうだけでなく、膨大なデータ処理の負荷によってバッテリーがすぐにゼロになってしまうために困難だった。しかし最新のビジョン・プロセッサーは省電力化が大きく進んだ。これがおそらくGoogleがプロジェクトをスタートさせた大きな理由だろう。プロジェクト・タンゴのセンサーに関してはわれわれのこちらのの記事を参照。

プロジェクト・タンゴの技術面のリーダーであるLeeは、2011年の初めにGooogleに加わる前はMicrosoftでKinectの開発に携わっていた。今日の発表はGoogleの謎めいたATAPグループとして最初のハードウェア・プロダクトのリリースだ。この組織はもともとMotorolaの研究部門で、GoogleがMotorolaを売却した際に手元に残した数少ない部門の一つだ。

タンゴ・プロジェクト以外にもATAPは途上国市場向けの低価格のスマートフォンを開発するプロジェクトAraも担当している。 GoogleはATAPをGoogle[x] と並ぶ同社のムーンショット〔アポロ計画のような大胆な先進プロジェクト〕を担うグループと位置づけている。現在ATAPは元DARPA局長で2012.年にGoogleに加わったRegina Duganが責任者を務めている。

[原文へ]

(翻訳:滑川海彦 Facebook Google+