iPhoneはボタンやUI要素を自動認識して視覚障がい者向けにラベル付けしている

Apple(アップル)は障がいをもつユーザーのための機能開発に関して常に努力している。iOSのVoiceOver(ボイスオーバー)は目の不自由な人にとってかけがえのないツールだ。ただし、インターフェースの要素すべてに手動でラベルが付けられている必要がある。しかしアップルは、機械学習を使ってあらゆるボタンやスライダーやタブを識別してラベル付けする新機能を公開した。

Screen Recognition(画面認識)はiOS 14に導入されたコンピュータービジョンシステムで、現在利用されている何千種類ものアプリの画像から、どんなボタンがあるかアイコンは何を意味するかを学習している。システムは柔軟性が高く、与えるデータによって、ネコや表情、そして今回のケースではユーザーインターフェースのさまざまな部分を認識するエキスパートになることができる。

その結果、どんなアプリでも、ユーザーが立ち上げてから1秒と経たないうちに画面上のあらゆるアイテムにラベルが付けられる。そして、「どんなアプリでも」は文字通り「どんなアプリでも」という意味だ。つまるところスクリーンリーダーは、写真(iOSはしばらく前から1文の要約を作ることができている)やよくあるアイコン(「ホーム」「戻る」など)からありとあらゆる場面に登場する「…」メニューのようなコンテキスト特有のものまで、目が見えるユーザーが見て、触れることのできるものすべてを認識しなければないない。

これは、手動のラベル付けが不要になるといっているのではない。デベロッパーは自分のアプリにどうラベル付をするのが良いかを最もよく知っている。しかし、アップデートや標準の変更、困難な状況(ゲーム内のインターフェースなど)によって、本来よりもアクセシブルではなくなることもある。

私はアップルのiOSアクセシビリティ技術チームのChris Fleizach(クリス・フライザック)氏とAI / ML(人工知能 / 機械学習)チームのJeff Bigham(ジェフ・ビガム)氏の2人から、この驚くほど有益な新機能の起源について話を聞いた(この内容は来年発表される論文に記載される)。

alt= スマートフォン画面にふたりの女性が微笑んでいるところとボイスオーバーがそれを説明している写真が表示されている。

画像クレジット:Apple

「私たちは自分たちがアクセシビリティに貢献できる分野を探しました、画像の説明はその1つです」とフライザック氏はいう。「iOS 13ではアイコンに自動でラベル付けをしました。Screen Recognitionはそれをさらに一歩前進させました。画面のピクセルを見て触れることのできるオブジェクトの階層を認識することを、デバイス上で1秒の何分の一かの間に行います」。

この考えは、厳密にいえば新しくない。ビガム氏が名前を挙げたOutspoken(アウトスポークン)というスクリーンリーダーは、ピクセルレベルのデータを使ってUI要素を識別する方法を数年前に試みている。しかし、そのシステムが正確な一致を必要としていたのに対して、機械学習のファジー理論とiPhoneの内蔵AIアクセラレーターを利用するScreen Recognitionは、はるかに柔軟で強力だ。

ほんの数年前には不可能だった。機械学習の当時の状況に加え、それを実行する専用ユニットがなかったことを踏まえると、システムに多大な負荷を与え、はるかに時間がかかり、バッテリーをたちまち消費させていただろう。

しかし一度、この種のシステムが可能になったとみるや、チームはプロトタイピングをスタートし、アクセシビリティの専門スタッフとテスティング・コミュニティの力を借りた。

「VoiceOverは長年、視覚アクセシビリティの先陣を切ってきました。Screen Recognitionの開発過程を見てもらえば、さまざまなチームのコラボレーションに基づいていることがわかるでしょう。アクセシビリティチームは何から何まで、そしてデータ収集と注釈付けのパートナーたち、AI / MLチーム、もちろんデザインチームも。私たちは自分たちの機械学習開発が完璧なユーザー体験に間違いなく進むためにこれをやってきました」とビガム氏はいった。

それは人気のアプリやゲームのスクリーンショットを何千枚も撮り、それぞれをいくつかの標準UIエレメントの1つとして手動でラベル付けすることによって行われた。このラベル付けされたデータを与えられた機械学習システムは、すぐに同じエレメントを自力で選り分けることに熟達した。

これはいうほど簡単ではない。我々人間は、グラフィクスやテキストの断片が何を意図しているかを理解するのがかなり得意であり、抽象的や創造的なデザインのインターフェースであってもほとんど操作に困らない。それは機械学習モデルにとっておよそ明確ではなく、スクリーンリーダーの解釈が意味を成すために、開発チームは複雑なルールや階層の組み合わせを作らなければならなかった。

この新機能が、無数のアプリを目の不自由な人たちにとってもっとアクセシブルに、あるいは初めてアクセシブルにする一助となることは間違いない。iOSの設定アプリで「アクセシビリティ > VoiceOver > VoiceOver認識」を開くと、画像説明、画面認識、テキスト認識をそれぞれオン / オフできる。

画面認識をMacなどほかのプラットフォームに移植することは容易ではないので、すぐには期待しないように。原理はしっかりしているが、モデルそのものはデスクトップに適用できない。デスクトップアプリはモバイルアプリと大きく異なっているからだ。おそらくほかの誰かがその仕事を引き受けるだろう。AIを利用したアクセシビリティ機能の可能性はまだ認識され始めたばかりだ。

関連記事:障がい者が開発段階から参加して使いやすい製品デザインを目指すFableプラットフォームとは?

カテゴリー:パブリック / ダイバーシティ
タグ:AppleiOSiOS 14アクセシビリティiPhone

画像クレジット:NurPhoto / Getty Images

原文へ

(翻訳:Nob Takahashi / facebook

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。