スマートフォンのあの薄い筐体には数々のセンサーが内蔵されている。しかし先週、GoogleのAdvanced Technology And Projects (ATAP)グループが発表したタンゴ・プロジェクトのおかげで、次世代のスマートフォンは新たなパワーを獲得することになるだろう。つまりビジュアルな空間認識能力だ。スマートフォンは単にカメラで画像を記録するだけでなく、周囲を3D空間として理解することができるようになる。
これがSF的に聞こえるのも当然だ。たとえば映画her/世界でひとつの彼女に登場するAIアシスタントがおそろしく人間的なのは、それがユーザーの置かれている空間を正しいコンテキストで認識できる能力のせいだ。Googleの新しいプロトタイプ・ハードウェア・デベロッパー・キットではMyriad 1 Movidius Vision Processorプラットフォームが利用されており、チームの技術責任者のJohnny Leeによれば、まさに<em>her</em>のような空間理解能力をモバイルデバイスに与えることが目的だという。
しかし単なる新しいカメラではない
プロジェクト・タンゴのカメラとセンサーは単なる新しいハードウェアでない。それはいわば人間の大脳皮質の視覚野に相当する。 またカメラによる認識は次世代スマートフォンでもっとも激しい競争が起きている分野でもある。たとえばAppleにはM7モーション・プロセッサーがある。また撮影後に焦点を変化させることができるカメラも開発されている。
しかし今回Googleが発表したタンゴの影響範囲はこれらとは比較にならないくらい広い。コンピュータ・ビジョンはこれまで学術的にも産業的にも広く研究されてきた。しかしGoogleがパートナーと共に開発したシステムは必要なときにいちいち起動されるのではなく、低消費電力によって常時作動させること可能にしている点が画期的だ。
ユーザーの命令をコンテキストで理解する
では、タンゴはユーザー体験という面では何をもたらすのだろうか? もちろんあらゆる面で非常に大きな変化が予想されるが、現在はまずデベロッパーにこのテクノロジーの利用のアイディアをできるだけたくさん出してもらうという点にGooogleは力を入れている。したがって具体的な応用例を挙げるには早過ぎるわけだが、一つだけ確実なことがある。コンテキストがカギになるという点だ。
Google Nowはモバイル・デバイスがユーザーの置かれたコンテキストを十分に理解できるようになった場合に何ができるかを知るヒントになる。時刻、場所、メール、カレンダー、その他の情報を総合すると、ユーザーが今必要としている情報が何であるかをかなりの精度で推測できるする。われわれの言うコンテキストとはそれぞれのユーザーの所与の環境に関する情報を総合した知識だ。しかし前述のように、現在のモバイル・デバイスの環境認識の能力には大きな制約がある。いわば密室の壁に開けられた小さな穴を通して断続的に映るぼんやりした像を眺めているようなものだ。
バーチャル・パーソナルアシスタントが有効に機能するためにはユーザーの置かれたコンテキストについてのもっと明確な理解が必要だ。たとえばユーザーがバス停の前のカフェで仕事の相手と握手し、カバンを床に置いてコーヒーを注文したとしよう。このコンテキストではバスの到着時間よりも、この時刻に予定されているミーティングに関するメールその他の資料を用意する方が適切だ。
しかしバーチャル・アシスタントというのは視覚的理解が必要な数多くの分野の分かりやすい一例にすぎない。スマートフォンが自らの位置を知り、近傍に何があり、どんな動作が行われているかを理解する能力を備えれば、驚くべき応用が広がる。バーチャル世界と現実世界のハイブリッド型のゲーム、付近いいるユーザーの位置、動作、性別などを理解してマルチメディア広告を表示するディスプレイ、コンテキスト情報に応じて刻々と設定を変化させるモバイルデバイスなどが実現するだろう。
最後の例に関してはFirefoxやGoogleがすでにコンテキスト・ランチャーという形でメインストリームへの導入を図っていることを私は指摘している。ただし、現在は、スマートフォンのコンテキスト認識能力が低すぎることがハードルとなっている。デバイスが外界を正しく認識できるようになれば、劇場や公共交通機関の中では自動的にマナーモードになり、ユーザーがその時点でもっとも必要としそうなアプリを選んで常に待機させるようなことができるだろう。
しかしなんらかの意味でデータの蓄積と組織化が関連してくるのでなければGoogleがわざわざこういうことを始めるわけがない。ユーザーがどこへでも持ち歩くデバイスから刻々とアップロードされてくるコンテキスト・データはデバイスと同時に、Google自身の世界を認識する能力も圧倒的に強化するものとなる。
Googleの全ビジネスはユーザーに関する知識をベースとしている。ユーザーが知りたがっている情報を提供することでGoogleのビジネスは成り立っている。検索エンジンに特定のフレーズを入力することは、つまりユーザーがそのフレーズに関連する事項に興味を抱いている確実なサインだということを発見したことが検索連動広告を生んだ。後知恵で見れば当たり前に思えるが、当時はこの発見がまさに雷電のように全検索業界を震撼させ、Googleの巨大化への道を開いたのだった。
Googleがムーンショット(月ロケット)と称する野心的なプロジェクトも、実はすべて最終的には一般ユーザーを対象とする巨大ビジネスへの成長の可能性が考慮されている。プロジェクト・タンゴも例外ではない。一般ユーザーまったく気付かない段階で新たなテクノロジーがどのような需要とビジネスを生むかを大胆に予測しているわけだ。コンテキストを認識するスマートフォンもその一例であり、ビジネスの観点からいえば、消費者が持ち歩くスマートフォンの1台ずつに熟練したマーケティング・コンサルタントを忍び込まされるようなものといえるだろう。
最近のテクノロジーの発達に共通することだが、タンゴもユーザーの個人情報をより詳しく収集する見返りにより便利なサービスを提供するという仕組みだ。ひとたびその利便性が明らかになれば、多くの消費者はプライバシー上の譲歩を喜んで受け入れるだろうというのが私の予測だ。
Googleだけではない
モバイル・デバイスのコンテキスト認識能力の向上に取り組んでいるにはGoogleだけでない。昨年、AppleがPrimeSenseを買収したのも、動作の認識など3Dマッピンの能力を強化するためだったし、 Qualcomも同様の理由でGestureTekを2011年に買収している。
位置情報ベースのサービスも当初はSF的と思われたが、今では当たり前になっている。コンテキスト認識も明日のスマートフォンではないのが不思議になるだろう。空間的コンテキスト認識能力を応用した新たなソフトウェアの可能性を探るためににデベロッパーに現実の開発環境を提供し始めたのはたしかにGoogleが最初だが、他のプレイヤーも続々と後に続くだろう。その競争はすぐに始まり、また激烈なものになるだろう。
画像 Bryce Durbin
[原文へ]
(翻訳:滑川海彦 Facebook Google+)