AIが目に見えないUIを実現する

humanrobotoverlap

【編集部注】著者のMartin Legowiecki氏はドイツ在住のクリエイティブテクノロジーディレクター。

私たちと環境の相互作用は、例えばあなたがお馴染みのバーに入って、バーの椅子に腰掛ける前にはもう好みの飲み物を手にしていることができている、という位に簡単であるべきだ。バーテンダーはあなたを知っていて、どの飲み物が好みかを正確に把握しているし、まさにいまドアを開けて入ってきたことも知っている。明示的な「相互作用」はなくても、それは多くの相互作用から成り立っている。

私たちが機械と対話する方法、そして機械が私たちと相互作用する方法を、私たちは再定義している最中だ。AIの進化は、機械=人間そして人間=機械の新しい対話手段を可能にする。伝統的なインタフェースは、単純化され、抽象化され、そして隠される ‐ それらは背景に溶け込み全ての一部となる。究極のUIはUIではない。

誰もがゲームに参入してきているが、成功はまだわずかである。私たちは、考える方法を基本的に変える必要に迫られている。

チームをクロストレーニングせよ

技術者、UXデザイナー、コピーライター、そしてデザイナーとしての私たちの役割は、変わらなければならない。何をどのように構築するのか – スクロールページ、ボタン、タップとクリック – こうしたものは旧来の概念の延長線上にある。これらの概念は、馴染みがあり、実績もあって、まだまだ有用だ。しかしいまや、私たちに耳を傾け、「感じ」、そして私たちに話しかけてくる新しいユーザ対話モデルを、私たちは必要としている。

技術者はよりUXデザイナーのようである必要があり、またその逆も要請される。彼らは、少なくともある程度の標準や、ベストプラクティス、そして新しいツールを確立するまで、より緊密に協力し役割を重ね合わせる必要がある。

デシジョンツリーは不要

上の例で示したバーテンダーは、多くのUIが目指し始めているものである。一方でそれは、(隠されたルールやアルゴリズムに基づいて行われる傾向のある)透過的な利用者体験を生み出すために必要な、より多くの責務の存在を示している。しかし更に言えばそれは、重要かつ有意味な情報だけが利用者に提示されるオープンエンドな体験を構成する場で、私たちに信じられない程の自由度を提供してくれるのだ。

たとえば、私たちのAIアシスタントに「遅くなると妻に伝えてくれ」と命令するためには、システムは意図をその理解するだけでなく、妻が誰であって、かつ彼女に連絡する最適な手段が何かを知っているほど、スマートである必要がある。本質的でない情報は不要だ、そして選択肢の一覧も、追加の質問も同様に。私たちはこれを「意味のある最小限の対話」(Minimum Viable Interaction = MV)と呼んでいる。

あなたのためのインターフェイスが現れる

私たちは機械へ話しかけることから始める ‐ コマンドではなく、メニューでも、風変わりなショートカットキーでもなく ‐ 私たち人間の言葉を使って。自然言語処理は信じられないほどの進歩を見せていて、ついに機械に話しかけるために、自分たちが機械になる必要はなくなった。私たちは、最新のチャットボットとチャットし、Google Voiceを使い、あるいはSiriに話しかける。音声認識の精度は、96パーセントという信じられない高さに向上した。

この世界は最初のクリエイティブなコンセプトとそのまま組み合わせるにはダイナミック過ぎるのだ。

残りの数パーセントはそれほど多いように思えないかもしれないが、それが完璧な体験を与えるか損なうかを決める部分だ。誰が言ったことでも、どのような言い方をしても(たとえ変わったアクセントがあろうとも、言葉と言葉の間に空きがあっても、あるいは大量「あー」とか「うー」が挟まっていたとしても)、いつでも100パーセント認識できるシステムを想像して欲しい。Amazon Echoによる遠距離認識でタップとクリックを置き換えて、UIは溶けて見えなくなる。それは目に見えず、ユビキタスで、自然なものになる。

しかし、まだそこまでには達していない。今のところ、私たちはこうした期待される能力のギャップを隠すための、スマートな方法を考案しておくことができる。機械を実際よりもスマートに見せるためのロジックや巧妙な応答をプログラムするために、膨大な時間が投入されている。UIが見せる1つのミスで、イリュージョンは台無しになる。

状況認識力

目に見えないUIを現実のものとするためには、システムはもっと私たちのことを知る必要がある。現段階では、状況認識力はやや限られている。たとえば、Googleマップを使って道案内を請う場合、システムは現在あなたが居る場所を知っていて、ニューヨークにいる場合とカリフォルニアにいる場合とでは異なる結果を返してくるといった使われ方をしている程度だ。

私たちの携帯電話や時計、その他のモバイルデバイスには、山盛りのセンサが装備されている。それらは私たちを人間を、現在必要な安価なセンサーマシンにする。私たち自身がシステムの動作に必要な知識やデータを収集するのだ。

しかし、たとえすべてのセンサーとデータが得られたとしても、私たちが本当に必要としている体験を生み出すために、機械は私たちについてもっと知り、周りで何が起きているのかを検知する必要がある。一つの解決策は、より多くの情報を収集するために複数のデバイス/センサーのパワーを組み合わせることだ。しかし通常これは、対象とするユーザーを絞り込んでしまう ‐ 顧客に売り込むのは簡単なことではない。素早く機転を利かせなければならない。変更し、調整し、繰り返す。この世界は最初のクリエイティブなコンセプトとそのまま組み合わせるにはダイナミック過ぎるのだ。

新しい体験を開発し、新しいテクノロジーを探求し、古いパラダイムを壊して適合を続けていくうちに、つい昨日まで可能ではなかったことが、今日はメインストリームになって行くだろう。

[ 原文へ ]
(翻訳:Sako)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。