音声AIがスマホカメラに映る映像を解析して質問にズバリ答えられるようにするWorldGaze

音声アシスタントがアホすぎてイラつくのは、誰もが経験すること。音声で機器が操作できるAIは便利この上なしともてはやされているが、実際に使ってみれば、たちまちロボット特有の気の利かなさに泣かされることになる。

命令を実行する前に、もっと情報をくれと聞き返してくる（ときには何度も聞いてくる）スマートスピーカーは、なおさらアホに感じられる。たとえば、自動車修理工場のことを質問したとき、それが今車を停めている目の前にある工場のことだと察してくれなかったり。

カーネギーメロン大学ヒューマン・コンピューター・インタラクション・インスティテュートの研究者たちは、Apple（アップル）の機械学習エンジニアGierad Laput（ジェエラード・ラプット）氏と共同で、音声アシスタント用アドオンのデモソフトを開発した。スマートフォンに内蔵されているAIに手を貸して、というか頭を貸して賢くするというものだ。

このシステムのプロトタイプでは、スマートフォンの前面と背面のカメラを同時に使い、物理空間（具体的には身の回りの環境）のどの位置にユーザーの頭があるかを認識する。それをコンピュータービジョン技術で解析して周囲のものを識別する。

するとユーザーは、自分の頭をポインター代わりにして、何を見て話しているのかをAIにわからせることができる。例えば「あの修理工場」で通じる。言葉で説明することなく、AIの理解の中にできた文脈の切れ間を、研究者たちの言葉を借りれば、より自然に埋めることができるという。

なので、音声アシスタントの利便性を引き出したいとき、こっちがロボットみたいな話し方をする必要はない。もっと、まあ言うなれば、人間的に話せるのだ。こんな聞き方が可能になる。例えば「Siri、そのスタバはいつ閉まる？」とか、買い物では「そのソファ、別の色はないの？」とか、値段の比較も「この椅子と、あっちのやつ」と簡単に質問できる。または、目で見ている照明器具を欲しいものリストに追加させるといったことが可能になるかもしれない。

このシステムでは、家や職場で視界に入っているいろいろな機器の遠隔操作もできる。めちゃくちゃ細かく機器を指定する必要はない。ただスマートTVやエアコンの温度調節器やスピーカーを見て、音量や温度の調整を指示すればいい。

研究チームは、WorldGaze（ワールドゲイズ）と名付けたこのプロトタイプの動作の様子をデモ動画（下）にまとめた。「私たちは、iPhoneの前面カメラで頭を、方向ベクトルとともに、三次元的に追跡しています。前面と背面のカメラの位置関係はわかっているので、頭のベクトルを背面カメラで見えている世界にレイキャスティングすることができます」と彼らは動画の中で解説している。

「これによりユーザーは、その方向に頭を向けて見るだけで、話の対象となるオブジェクトや場所を直感的に指示できます。音声アシスタントがこの文脈情報を採り入れることで、より正確で自然な問い合わせが可能になります」

このプロトタイプを紹介した研究論文では、これは「現在はデバイスを見ながら街を歩いている人たちに象徴されるモバイルAR体験のソーシャル化」にも応用できるとしている。

どのようにこれを拡張するのかと尋ねると、カーネギーメロン大学の研究者であるChris Harrison（クリス・ハリソン）氏は、TechCrunchにこう説明してくれた。「人々は、いつも手元のスマホを覗き込みながら歩いています。それはあまりソーシャルではありません。他の人たちと関わることがなく、周囲の美しい世界を眺めることすらないからです。WorldGazeのようなものがあれば、人々は周囲の世界を見ながら、スマホに目を落とすことなく、レストランの評判を尋ねたり聞いたり、買い物リストにものを追加したリができるようになります。スマホには、それを可能にする能力が備わっています。何か特別なものを買い足す必要はありません」。

彼らの論文には、インタラクティブな目的でユーザーの視線を追跡する研究は息の長いものだと書かれている。しかし、ここでの彼らの主な目的は、「市販されているスマートフォンに備わったハードウェアを使うという制約を課した中での実用的なリアルタイムのプロトタイプ」の開発だった（背面カメラの視界が潜在的な制約になると彼らは話しているが、性能の劣るあらゆるハードウェアを部分的に迂回する提案もされている）。

「WorldGazeは単独のアプリとして発表することもできるが、私たちはWorldGazeをバックグラウンドのサービスとして内蔵し、音声アシスタントを呼び出したときに（例えば「ヘイ、Siri」の呼び掛けで）同時に起動するようにしたいと考えている」と彼らは書いている。「前面と背面のカメラを同時に開きながらコンピュータービジョンの処理を行えば多くの電力が消費されるが、デューティ比（ある期間に占めるその期間で現象が継続される期間）の割合は低く、現代のスマートフォンのバッテリー寿命に大きく影響するほどではない。両方のカメラから画像を1フレーム取り込むだけで済むこともあり、すぐにオフにできる（WorldGazeの起動時間は7秒）。実験装置では、電力消費量はひとつの質問につき最大0.1ミリワット毎時と評価された」。

それでもまだ、人が顔の前にスマホを掲げて、そこに話しかける姿はなんとなく異様に見える。しかし、ソフトウェアは、ARグラスにも簡単に対応するとハリソン氏は強調していた。

「どちらも可能です。スマートフォンを使ったのは、誰でも持っているからです（WorldGazeはソフトウェアのアップデートで実装できる）。ARグラスを持ってる人は（まだ）ほとんどいませんからね。しかし、どこで音声アシスタントをパワーアップしたいかとう前提は、両方に共通しています」とハリソン氏はTechCrunchに話してくれた。

「ARグラスは、センサーを搭載して視線のトラッキングができるようになってきています（例えばMagic Leapは、焦点の調整にそれを採用している）。その場合は、外向きのカメラだけあればよいことになります」と彼は言う。

このようなシステムが、顔認証技術を合体する未来は容易に想像できる。スマートグラスをかけた人間が、ちょっと視線を向けて「あれは誰だ？」と尋ねるような。顔のデータがAIのメモリーバンクに合法的に蓄積されていたと仮定しての話だが。

「連絡先に追加」や「最後に会ったのはいつか」を調べる機能などは、ネットワークの利便性やソーシャル化を高める目的で解放されるかも知れない。だが今の時点では、こうしたシステムを現実世界に解き放つことは、プライバシーの観点からして、工学的技術をつなぎ合わせるよりも、むしろ難しいように思える（たとえば、Appleは規範違反だとしてClearview AIをブロックした事例もある）。

「その方向へ進むには、一定のセキュリティーを保ち、許可を取る必要があります。現時点で私たちが考えていることではありませんが、興味はあります（怖いアイデアですけど）」と、その可能性について尋ねられたハリソン氏は同意した。

研究チームはこの結果をAMCのCHI2020（計算機システムにおけるヒューマンファクターに関する会合）で発表する予定だったが、新型コロナウイルスの影響で会合は中止となった。

[原文へ]

（翻訳：金井哲夫）

音声AIがスマホカメラに映る映像を解析して質問にズバリ答えられるようにするWorldGaze

投稿者:

TechCrunch Japan