GoogleのProject Tangoを支えるMovidiusのビジョンプロセッサ、バージョンアップしてSDKを提供

Movidiusは、まだ見慣れない名前だと思うが、今年の初めにGoogleがProject Tangoのスマートフォンとタブレットを発表したときに同社の名前がちらっと登場している。このプロジェクトは、モバイルデバイスが高度な3Dの知覚を持つと何ができるかを探求するためのGoogleのテストベッドで、Movidiusはそのための特殊なビジョンプロセッサを提供している。

Movidiusが一般にデビューしたのはProject Tangoからだが、しかしそのときすでに同社は、そのチップの次のバージョンに取り組んでいた。そのMyriad 2と呼ばれるチップは、1に比べてエネルギー効率が良くなり、より強力になっている。

MovidiusのCEO Remi El-Ouazzaneによると、新バージョンはアーキテクチャが“ラジカルに改良され”、とくにメモリの新しいアーキテクチャにより、消費電力1ワットあたりの処理能力がMyriad 1の20倍に向上した。その計算能力は約3テラフロップで、消費電力は0.5ワットだ。この28ナノメートルチップには12基のプログラマブルなベクタプロセッサが載り、フルHDの入力を最大で毎秒60フレーム処理できる。

El-Ouazzaneによると、これだけの性能は、Project Tangoから学んだことの効果が大きい。あのプロジェクトの顧客たちは、複数のソースからのデータを同時に処理できることを求めていた。

しかしEl-Ouazzaneも言うように、このチップの真のすばらしさは、それが長期的に提供するユーザ体験にある。Project Tangoの場合は、3Dのセンシングが主な目的だったが、El-Ouazaaneがとくに強調したいのは、スマートフォン上の複数のカメラからの入力を処理してDSLR以上の体験と画質を作り出す、計算機支援による写真技術(computational photography)だ。“これによってついに、モバイルデバイスで完全にプロ級の写真を撮れるようになる”、と彼は言っている。

デバイスがMovidusのプロセッサを搭載すると、たとえばオートフォーカスがはやくなる。また、赤外線センサを搭載して、ひとつのシーンからより多くの情報を取り出し、それらの情報を組み合わせた写真を作ることもできる。今のスマートフォンでそれをやろうとすると計算力が追いつかないと思われるが、Movidiusのチップなら十分にそれが可能だ。

このビデオは、Project Tangoのパートナーの仲間であるMantis Visionがトライした3D技術の一端だ。

しかしMovidusのチップが提供するユースケースは、もっともっと多様だ。El-Ouazzaneの想定によると、今後の1年ぐらいは、モバイルデバイスと、3Dセンシングを使ったゲーム、屋内ナビゲーションなどが、主な応用系になるだろう、と。

スマートフォンのOEMたちも、ここらあたりを考えているものと思われる。AmazonのFire Phoneは市場にそれほどの衝撃をもたらさなかったけど、El-Ouazzaneはちゃんと見ていた。スマートフォンの新製品の発表会でメーカーのCEOがコンピュータビジョンについてこれだけ長時間を費やした例は、過去になかった、と。

Movidiusが長期的に期待しているのは、そのセンサチップが人間の社会的な役を代行するロボットや、自律飛行するドローンなど、あらゆるものに使われていくことだ。

しかし高度な3Dセンシングの多様な応用系の広がりは、OEMだけでなく一般的にいろんな方面のデベロッパが参加するエコシステムが支える。デベロッパコミュニティの重要性を早くから認識している同社は今日(米国時間7/30)、MyriadチップのSDK、Myriad Development Kit(MDK)と、アプリケーション開発のためのツールやフレームワークをリリースした。このキットに含まれているリファレンスボードには、複数のカメラとセンサがあらかじめ載っている。ただし今のところMDKは、NDA契約を伴う特定のデベロッパにだけ提供されるので、コミュニティの賑やかな盛り上がりはまだ先の話のようだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビデオからベストショットの写真を作るVhotoは写真が下手な人に朗報

写真は、われながらへたくそだ。ぼくは、世界最悪の写真家として有名だ(実際にそういう賞がある)。でもVhotoという新しいiOSアプリは、そんなぼくを救ってくれるかもしれない。

Vhotoは独自の技術を使ってビデオの中の最良の画像を見つけ、それをスチール写真にする。タグをつける、シェアする、ほかの人の写真を見つける、などのソーシャルな機能もある。

ビデオは、Vhotoのカメラアプリを使って撮ってもよいし、あるいは既存のビデオをVhotoにアップロードしてもよい。Vhotoは20種類の測度でビデオを調べる(ぼけ、コントラスト、顔、微笑、ユーザの意図、そして同社CEOのNoah Hellerが“めずら発見器(novelty detector)”と呼ぶもの、などなど)。めずら、とは、珍しいもの、ほかのフレームとは相当に違っている画像のことだ。

Hellerは曰く、“うちには、写真とビデオの違いなんかクソくらえ、という哲学がある。Vhotoはどんなビデオでも調べてグレートなショットを見つけ、それの短いクリップを作る”。

元がビデオだから、すべてが自然で、かまえたり、ポーズを決めたりしなくても、セルフィーもアクションシーンも自然な表情もグループ写真もすべて、簡単にスチールとして捕捉できる。

HellerはMicrosoftでXboxのソーシャル機能の設計とプロマネをやっていたが、その後ActivisionでSVPとして大ヒット作Call of Dutyを担当した。2012年に、陽の光降り注ぐカリフォルニア州サンタモニカからボストンに移って、Atlas Ventureの社員起業家の地位に就いた。

Atlasの起業家社員としてHellerは、その後Vhotoへと成熟するアイデアを温め、AtlasやPolaris Partners、同社の協同ファウンダで会長のHugh Creanらから240万ドルの初期資金を得た。

“プロの写真家が細心の注意をして撮った写真だけが良い写真ではない。むしろ、何千何万もの画像を調べるフォトエディタがあれば、そこから最良の写真を見つけることができる”、とHellerは言う。Vhotoは彼にとって、そんなフォトエディタなのだ。

“ビデオはとても強力なメディアだから、そのうち必ず、支配的なメディアになる。ビデオのパワーをよく知ってることが、うちの強みだ”、と彼は言う。

Vhotoは今、AppleのApp Storeで無料だが、今後はビデオのアーカイビングや画像検索などの機能のあるプロ用バージョンも提供する予定だ。

VhotoのCTO Jay Bartotは声明文の中で次のように述べている、“機械学習のアルゴリズムを利用して、ユーザの好みを知ることができる。Vhotoはコンピュータビジョンと機械学習を結びつけて、すばらしい結果を作り出す。それは、ふつうの単なるスチール写真からは得がたいものだ”。

 

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


ビデオ: GoogleのProject Tangoで室内を3D撮影するとこうなる

昨日はGoogleの3D感知型スマートフォンProject Tangoについてお伝えし、そこに使われている視像プロセッサや、それが携帯電話の未来にもたらす意味について論じた。

そして今回お見せするのは、実際にTangoのプロトタイプデバイスを使ってMatterportが作った3Dの室内マップだ。Matterportはこれまでにもコンピュータビジョンや知覚コンピューティングの技術を駆使して、室内など3D空間の捕捉や再現を行うソフトウェアを作ってきたので、Tangoのプロトタイプ機をGoogleからもらえる数少ない企業の一つに選ばれたのだ。

MatterportのCEO Bill Brownに、Project Tangoの3Dシーンを再現する能力について聞いてみた。Brownによると、このプロジェクトによってモバイルの3D化が急速に進むだろう、という。3Dの捕捉とマッピングをモバイルデバイスほど迅速簡便に、そして気軽にできるデバイスは、同分野の既存の製品や技術の中にはない。だからモバイルデバイスは事実上、3D技術を今後一般化大衆化していくための唯一の乗り物になる。

Matterportは同社の一連のソフトウェアによって3Dデータを、カラーカメラデータと完全なメッシュデータの両方で一度に捉える。そしてそれらを、正確なモデルへと再構成する。Matterportはそのためのカメラを、価格など一般市販を意識しながら独自に作ってきたが、Brownによると、Tangoデバイスの能力は現状ですでに立派なものだそうだ。

“まだプロトタイプだからメッシュのクォリティは、うちのカメラほど良くないけどね”、とBrownは言う。

このプロトタイプTangoデバイスは、カメラの解像度も低いから画像が粗い。でもカメラの解像度を上げるぐらいのことは簡単にできる、とBrownは言う。

このビデオでもお分かりのように、Tangoの能力は現状でもすでに十分に感銘を与える。やがて、われわれが日常的に持ち歩く携帯が、このように自分の身の回りの環境を感知したり解釈したりできるようになるのだ。

Matterportはバルセロナで行われるMobile World ConferenceでQualcommのキーノートを担当する。その機会に同社は、同社の3D捕捉再現ソフトウェアをモバイルデバイスに載せてデモし、このような3D技術の大衆的普及がもたらすメリットについても語るだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


Googleが野心的AIプロジェクト、タンゴを発表―3Dカメラとセンサーでスマートフォンが空間を認識する

今日(米国時間2/20)、Googleのスカンクワークスこと先進テクノロジー・プロジェクト(Advanced Technology and Projects)グループはプロジェクト・タンゴ(Project Tango)と名付けられた画期的3Dセンサーを装備したAndroidベースのスマートフォンのプロトタイプとデベロッパー・キットを発表した。

この3Dセンサーとカメラを組み合わせたシステムはモーショントラッキングと同時に周囲をスキャンして3Dマップをリアルタイムで生成することができる。Googleはこの新センサー、カメラ、高度なコンピュータ・ビジョン・ソフトウェアの組み合わせによって屋内のナビゲーションやVRゲームなど数々のまったく新しい応用への道が開かれると信じている。デベロッパーは今日からGoogleに対し、プロトタイプ・スマートフォンとデベロッパー・キットの入手を申し込むことができる。

ただし、初回はGoogleが審査して特に許可する200チームに限られるという。 申し込みをするデベロッパーはこのデバイスでどのようなプロダクトを開発する計画なのか明確な案を提出しなければならない。200チームの選定は2014年3月14日までに完了する。Googleが想定する分野は屋内ナビゲーション/マッピング、物理的な空間内でプレイする単独/複数プレイヤーのゲーム、センサーからの3Dデータの新しい処理アルゴリズムなどだ。

デベロッパーはアプリをJava、C/C++で開発するものとする。またUnity Game Engineを利用することができる。このスマートフォンに対するAPIは現在開発中だという。

「“プロジェクト・タンゴの最大のインパクトは、スマートフォンが人間の視覚のような動作と空間の認識能力を持つようになることだ」とプロジェクト・タンゴのチームリーダー、Johnny Leeは言う。

Googleはこの3Dセンサー機能を利用して、デベロッパーが3Dビジョンに基づいたまったく新しいジャンルのスマートフォン・アプリケーションを多数開発するようになることを期待している。

このスマートフォンには他のスマートフォン同様、コンパスとジャイロが搭載されているが、Googleが開発した新センサーシステムは周囲をスキャンしてKinectのように動作やジェスチャーを認識し、また周囲をスキャンして3D空間マップを生成する。

ただしプロジェクト・タンゴのシステムはLeap Motionのようなジェスチャー・ベースのUIを開発することを念頭に置いたものではない。逆にスマートフォンが周囲の3D空間を認識し、自分の位置が分かるようになった場合、デベロッパーがどんなアプリを作り出せるのかが興味の焦点だ。

たとえば新しい家具を買おうとするときスマートフォンを構えて家の中を一回りするだけで正確な寸法の測定ができたら便利だろう。 複雑な構造のビルの中でのナビゲーションにも応用できるかもしれない。ショッピング・モールや地下街で迷子にならずにすむだろう。

タンゴのセンサー

Googleはプロジェクト・タンゴにMovidius’ Myriad 1ビジョン・プロセッサー・プラットフォームを利用している。これまでこうした機能をスマートフォンに組み込むのは、非常に高価になってしまうだけでなく、膨大なデータ処理の負荷によってバッテリーがすぐにゼロになってしまうために困難だった。しかし最新のビジョン・プロセッサーは省電力化が大きく進んだ。これがおそらくGoogleがプロジェクトをスタートさせた大きな理由だろう。プロジェクト・タンゴのセンサーに関してはわれわれのこちらのの記事を参照。

プロジェクト・タンゴの技術面のリーダーであるLeeは、2011年の初めにGooogleに加わる前はMicrosoftでKinectの開発に携わっていた。今日の発表はGoogleの謎めいたATAPグループとして最初のハードウェア・プロダクトのリリースだ。この組織はもともとMotorolaの研究部門で、GoogleがMotorolaを売却した際に手元に残した数少ない部門の一つだ。

タンゴ・プロジェクト以外にもATAPは途上国市場向けの低価格のスマートフォンを開発するプロジェクトAraも担当している。 GoogleはATAPをGoogle[x] と並ぶ同社のムーンショット〔アポロ計画のような大胆な先進プロジェクト〕を担うグループと位置づけている。現在ATAPは元DARPA局長で2012.年にGoogleに加わったRegina Duganが責任者を務めている。

[原文へ]

(翻訳:滑川海彦 Facebook Google+