視覚 | SEO-LPO.net

改造HoloLensで視覚障がいのある子供に周囲をガイド、マイクロソフトが進める「Project Tokyo」

全盲や弱視の子供が成長する過程での難しさは、見える友だちと同じ本を読んだりゲームをしたりすることができないだけではない。視覚は社会的な交流や会話において大きな役割を担っているという問題がある。マイクロソフトのプロジェクトでは、視覚障がいのある子供が話している相手を「見る」ためにARを活用する研究に取り組んでいる。

画像：Jonathan Banks / Microsoft

当然のことながら、視覚障がい者には周囲の人が見えないという難題がある。そのため、晴眼者が会話の際に利用している多くの非言語の手がかりを、視覚障がい者は見つけたり利用したりすることができない。早期にそのような行動を学習していない場合は、特にそうだ。

Project Tokyoは、AIやARといったテクノロジーを障がいのある人も含め「すべての」人に役立てようとする、マイクロソフトの研究者たちの新たな取り組みだ。すべてのケースに当てはまるわけではないが、音声対応のバーチャルアシスタントはタッチスクリーンやマウス、キーボードを使いづらい多くの人の役に立つはずだ。

研究チームは数年前、非公式にアクセシビリティの向上に取り組み始めた。まずリオデジャネイロで開催されたパラリンピックを訪れ、人々を観察した。次に全盲や弱視の人々のコミュニティとともにワークショップを実施した。これらのことからチームが気づいた重要なポイントは、ほぼどんな状況でも視覚から微妙なコンテクストが得られていることだった。

マイクロソフトの研究者のEd Cutrell（エド・カトレル）氏は次のように述べている。「私たちは、人間として、他人とのやり取りに関してとても微妙で複雑な感覚を持っています。部屋にいるのは誰か、何をしているのか、自分との関係はどうか、私にとって重要かどうかをどう判断するか、これらを知るための手がかりは私たちにとって当然に得られるものです。しかし、目の不自由な人々にとってはそうではありません」。

このことは子供たちには特に顕著で、このような手がかりや振る舞いについておそらく学んでいないために、社会性に欠ける傾向を示してしまうことがある。会話中にテーブルに突っ伏したり、話している相手の方を見ないといった傾向だ。

補足すると、こうした行動自体に「問題がある」わけではない。彼らにとって最も適切な行動をとっているだけだ。しかしこうした行動は晴眼者との日々の関係を阻害するおそれがある。そのため、すべての人にとって容易で自然な関係の構築を目指す研究には意義がある。

Project Tokyoは、改造してレンズをはずしたMicrosoft HoloLensで実験をしている。HoloLensは、適切な情報を与えられれば物体や人物を識別できるきわめて高度なイメージングデバイスでもある。

ユーザーがこのデバイスをハイテクなヘッドバンドのように装着すると、カスタムのソフトウェアスタックが状況に応じた手がかりをユーザーに提供する。

例えば右前方1メートルほどのところに人物を検出すると、ヘッドセットがその方向から鳴っているようなクリック音を発する。
その人物の顔が既知である場合、先ほどとは別の弾くような音が鳴り、その人物の名前が読み上げられる（前述のクリック音と同様に、この音もユーザーにだけ聞こえる）。
未知の顔の場合やうまく認識できない場合は、ゴムバンドが伸びているような音が鳴る。ユーザーの顔の向きに応じて音が変化し、顔を相手に向けるようにガイドする。相手の顔がカメラの中央に来るとクリック音が鳴る（つまりユーザーが相手をまっすぐ見ることになる）。
周囲に人がいる場合、ヘッドバンド上のLEDが検出された人物の方向に白く光り、人物が特定されると緑に光る。

ほかの機能も研究されているが、このセットが出発点であり、12歳のTheo（セオ）という少年のケーススタディではこのセットが特に有効と考えられている。

システムやセオとの実験などについてはマイクロソフトの記事に詳しく記されているが、基本的にセオはシステムを詳しく理解し、それにより晴眼者が主に使用している手がかりによって社会的な関係性に対処できるようになっている。例えば、相手に顔を向けて意図的に注目できるようになってきた。また、室内を自分なりの方法でスキャンして周囲の人を常に意識する方法も自ら身につけた。どちらもテーブルに突っ伏していてはできないことだ。

できることが増えるのは良い取り組みだが、もちろんまだ発展途上だ。高価でかさばるハードウェアを一日中身につけたくはないし、ユーザーごとにニーズが異なるのも当たり前だ。表情やジェスチャーについてはどうだろうか？　看板やメニューはどうする？　最終的にProject Tokyoの未来は、AIシステムなどのモダンなツールを構築する際にはほとんど関わりを持たないコミュニティのニーズによって決まるだろう。

[原文へ]

（翻訳：Kaori Koyama）

OrCamがAIを活用した聴覚補助デバイスを発表

MyEye 2という視覚障がい者向けデバイスで知られるOrCamが、新たなユースケースに取り組んで製品ラインナップを増やす。MyEye 2はメガネに取り付けて周囲をナビゲートする小さなデバイスだ。

CESでOrCamはMyEye 2の新機能を発表した。テキストや看板にカメラを向けて読み上げるこれまでの機能に加えて、顔や物体、紙幣を認識してガイドする。

例えば「私の前に何がある？」と尋ねるとデバイスは「ドアがある」と答えるので、ドアの方向にガイドするように頼むことができる。MyEye 2はインタラクティブな読み上げの際の自然言語処理も向上している。

OrCamは、新しいデバイスのOrCam Hearで聴覚障がいの支援に手を広げる。これは騒がしい空間で特に便利なデバイスだ。話者の声を特定して分離するので、公共の場でも会話をしやすくなる。既存のBluetooth補聴器とペアリングできる。

そして同社は、OrCam Readも発表した、これは手で持てるサイズのAIリーダーだ。これがあれば、メガネにカメラを取り付けなくても、デバイスを手に持ってテキストにかざすことができる。同社によると、これは失読症で文章を読むことが難しい人に特に有効だという。

[原文へ]

（翻訳：Kaori Koyama）

画像検索エンジン、Google LensがAndroidのGoogleフォトにやって来る

Googleのビジュアル検索エンジン、Google Lensは写真をスキャンして「何が写っているのか」を認識する。たとえば名刺をカメラで撮影するとLensは自動的に内容を認識し、連絡先に追加したりできる。

このGoogle LensがAndroidのGoogleフォトのユーザーに公開された。これはGoogleにとって最初の本格的なLensの普及の試みだ。これまでLens機能は最新のPixelスマートフォンでしか使えなかった。PixelではGoogle Assistantを通じてLensが利用できたが、他の機種のAndroidユーザーはアクセスできなかった。

GoogleではiOS版のGoogleフォトでもLensが「近々公開される」としているが、正確なスケジュールは明らかになっていない。

Lensは非便利であることもあれば、失望させられることもある。絶対に必要なツールかといえば今のところそこまでの完成度はないが、うまく作動するときはすばらしい能力を見せる。もちろんエッフェル塔の前に立っているときにGoogleレンズが「エッフェル塔です」と認識してくれても（時差ボケがよほどひどくない限り）それ自身ではあまり役に立たない。しかしいちいち文字を入力しなくても即座にエッフェル塔に関する詳細情報、歴史とか開館時間を知ることができるのは非常に便利だ（Googleマップからの検索でも有用な情報を手早く知ることができる）。

一方名刺スキャン能力はビジネスに大いに役立つ（相手が名刺の代わりにLinkedInのプロフィールで済ませている場合はダメだが）。

個人的にはLensの能力が不可欠だったという経験はまだしていない。最初は面白がってもやがて存在を忘れてしまいそうだ。しかしGoogleのことだから日々能力が改良されていくに違いない。やがて世界のどこで何を撮っても、名所であれレストランであれ、即座にそれが何であるか検索できるようになるのだろう。

画像： nurphoto/Getty Images

〔日本版〕右側のカット写真はサンフランシスコのテレグラフヒル地区の名所、コイト・タワー。

[原文へ]

（翻訳：滑川海彦@Facebook Google+）

カマキリに3Dメガネをかけさせて研究したら新しいよりシンプルな立体視覚が見つかった

イギリスのニューカースル大学の研究者たちが、カマキリの上で独自に進化した立体視覚の形を発見した、と考えている。研究チームは、この昆虫の中で起きる現象をできるかぎり精密に研究しようとし、そのために虫の目に3Dメガネを装着した。

上図のように、昆虫の目につけた3dメガネは二色で、蜜蝋で一時的に接着した。そしてチームは、餌食となる虫のビデオを見せ、カマキリはそれに向かって突進した。その点に関しては、カマキリの立体視像の処理は人間のそれとほぼ同じ、と思われた。

しかし人間の3D視覚をテストするために使うドットパターンを見せると、カマキリの反応は違った。彼らの発見は、こう記述されている: “二つの目にそれぞれまったく異なる画像を見せても、カマキリは、変わっている部分のある場所同士をマッチできた。人間にはできないような場合にも、それができた”。

同大によると、その立体視覚の発見によって、カマキリは昆虫の世界で独特であることが分かった。またそれは昆虫だけでなく、猿や猫、馬、フクロウ、人間などそのほかの動物の立体視覚とも違った。カマキリの立体視覚の特徴は、二つの目の間に感受した動きをマッチングさせており、人間のように明るさを使っていない。

Vivek Nityananda博士はこう語る: “これをするほかの動物を私は知らない。このような種類の3D視覚は、現在にも過去にも例がない”。Nityanandaはさらに加えて、この種の3D視覚が過去に理論化されたことはあったが、実際の動物の中に検出されたのはこれが初めてだと思う、と言った。

このシステムは人間の3D視覚よりもそんなに複雑でない過程を経て発達し、カマキリのあまり複雑でない脳でも処理できるようになった、と科学者たちは信じている。そのことは、Nityanandaによると、3Dシステムをなるべく単純で軽量なマシンに実装しようとしているロボティクスにとって良いヒントだ。

彼は曰く、“それはずっとシンプルなシステムだ。カマキリは、両方の目の適切な位置における変化を検出しているだけだ。ロボティクスでは、二つの目の視界をマッチングさせるときに処理する複雑な細部よりも、変化の検出の方がずっと容易に実装できる。必要な計算力も少ない。それなら、はるかに軽量なロボットやセンサーにも組み込めるだろう。

画像提供: Mike Urwin/Newcastle University, UK

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）