音声インターフェイスについて思う7つのこと

今後数年間のうちに、私達は音声による自動化が生活の多くの側面を担うところを見るようになるだろう。音声が全てを変えてしまうわけではないが、私たちがデバイス、スクリーン、データ、そしてインタラクションに対する関係を考える際に、新しいやりかたを示唆するものの一部となるだろう。

私たちはアプリケーション指向から、タスク指向へと変わっていく。個々のアイテムを意識する程度は減り、デバイスエコシステムの集合的な体験の中に暮らすことになるだろう。私たちはデバイスたちが競う個別のスペックを気にするのではなく、それらが可能にする体験そのものを楽しむことになる。

その新しい世界では、個別のデバイスに対していちいち指示を出すような煩わしさから解放されていることを期待したい。

音声が何かを殺すことはない

テクノロジーがやってくるとき、一般的には置き換えではなく拡大が行われる。テレビはラジオを殺さなかったし、VHSやストリーミング動画は映画館を殺さなかった。電子レンジは、コンロにとって変わることはなかった。

なによりまず音声は、人間が機械に対する入出力を行う手段に他ならない。すなわちユーザーインターフェイスの一種なのだ。UIデザインの世界では、1940年代にはパンチカード、1960年代にはキーボード、1970年代にはコンピュータマウス、そして2000年代にはタッチスクリーンの時代を迎えて来た。

これら4つのメカニズムはすべて現在も存在し、パンチカードを除けば、状況に基づいてすべての入力タイプを自由に選択している。自動車内やジム設備で使われているタッチスクリーンはひどいものだが、タッチスクリーン自体は触れて使うアプリケーションを作る目的には優れている。またコンピュータマウスは、ポイントアンドクリックするのに最適だ。それぞれの入力は非常に異なったことを行い、それぞれの向き不向きがある。私たちは、それぞれのデバイスの最適な使い方がどのようなものかをこれまで学んできた。

音声が何かを殺すことはない、キーボードやタッチスクリーンデバイスの売上を落とすわけではない。新しいやり方として加わるだけだ。徐々に増えて行くだけで、互いに食い合う関係でない。

意識的にデザインする必要がある

コンピューターマウスが発明される前に、それを欲しがっている人は当然いなかった。そして実際には、当初多くの人たちがそれまでに存在していなかったマウスに当惑していた。以前は操作するためにはビジュアルなアイコンではなくコマンドラインを使っていたからだ。iPhoneが登場する以前に、タッチスクリーンを通してNokiaを操作する経験は酷いものだった。なぜならオペレーティングシステムが、タッチ向けにデザインされていなかったからだ。3Dタッチはまだ役に立つ機会が少ない、これはこの技術に興奮し、それに向けたデザインを行うソフトウェアデザイナーが少ないためだ。

音声がエキサイティングなのは、これまでのシステムに単に音声を付け加えられる場合ではなく、これまで私たちが見たことのない新しいアプリケーション、インタラクション、そしてユースケースと共に考えられる場合だ。

現時点では、声を私たちのニーズの周りに働かせるのではなく、私たちが声の限界に合わせるように苦労している。

新しくて素晴らしい入口

ほとんどの会社のデスクトップウェブサイトが、もっとも貧弱なデジタルインターフェイスであることに気がついているだろうか。一般に彼らのモバイルサイトの方が良いものである傾向があり、モバイルアプリがもっとも良いものである場合が多い。大部分の航空会社やホテル、あるいは銀行のモバイルアプリは縮小版機能を提供するのではなく(かつてはそういうこともあった)、優れた機能とともに最も速く出来の良い体験を提供する。傾向としてみられることは、新しいことが、新しい設備投資や、優れたひとたち、そして多くの能力を呼び込むということだ。

しかし、ほとんどのデジタルインターフェースは、それを作った会社の機能、ワークフロー、そして構造を中心にデザインされている。銀行たちは誰かに送金するために8通りの異なるやりかたを提供したり、自分たちの組織に基づいて構築されたやり方を提供するかもしれないし、またホテルチェーンは場所ではなく自分たちのホテルブランドを軸にしたナビゲーションを行おうとするかも知れない。

だが現実には、人間はプロセス指向ではなく、タスク指向で動くのだ。すなわち結果が欲しいだけで、それがどのように行われるのかには興味がない。Amazon GroceryやAmazon FreshまたはAmazon Marketplaceを使うときに、私はやり方を気にしたいだろうか?全く気にしたくない。音声を使うことで、企業はこれまで受け継いできた従来の面倒なやり方の代わりに、新しいインターフェイスを構築することができるようになる。そうなれば、私は単に「今日ジェーンにお金を送って」と言うだけで済み、10個以上のボタンを押さずに済ませることができる。

再考の必要性

初めて両親にマウスを見せて、ダブルクリックしてみるように促したとき、私はそんなことは、彼らにとって簡単なことだと思っていた。だがカーソルは迷走し、しばしば行方不明になった。かつて両親に対して抱いた失望感と残念感を、いまでは私が音声使おうとするたびに自分自身に感じている。私は新しい方法で情報を考え、私の脳の働き方を再考するために、自分の脳を再プログラムしなければならない。そうなるまでには、時間がかかることだろう。

興味深いのは、音声を使って考えながら成長する8歳児がどうなるのか、そして発展途上国が、教育にデスクトップPCではなく音声入力のタブレットを使ったときに何が起きるのかだ。人間が何かを使って成長するとき、それが何を意味するのか、そしてそれが何を可能にしてくれるかに対する基本的な理解が変容してしまうだろう。この可能性がどのようになるかを見届けるのは、とても魅力的なことになるだろう。

コネクションレイヤーとしての音声

愚かな私たちは、音声を1つの機械と対話するものとして捉え続けていて、全てのマシンを統合する接着剤のようなものとは考えていない。音声は、本質的に出力を得るためには適さないやり方だ。もし1枚の絵が千の言葉に匹敵するというのなら、1枚のTシャツを買うのに一体どれくらいかかることだろう。音声の本当の価値は、すべてのデバイスを横断して使えるユーザーインターフェイスとして使われるときに発揮される。雑誌の広告は、より多くを見つけさせるために、音声コマンドを提供する必要がある。Netflixやテレビ広告に対して声で指示して、商品を買い物かごに追加できるようになるべきだ。音声は、全ての動作を事細かに指示するものではなく、用件を始めさせたり、終わらせたりするためのトリガーとなる。

能動性

私たちがこれまで想定してきたのは、まずデバイスに話しかけることばかりだ。私は本当に、家の中の明かりを点灯するコマンドを記憶したり、そのために6つの単語をわざわざ実際に発声したりしたいのだろうか?いつでもこちらから問いかけたいと思うのだろうか?デバイスがまず発言するようになっていると考えてみよう。音声が能動的に働きかけてくるときに、何が起きるかを想像することは楽しい。可能性を想像してみよう:

  • 「おかえりなさい。夜モードの照明に設定しますか?」
  • 「会議に遅れそうです。目的地へのUberを注文しますか?」
  • 「いつも使っているCiti Bike置き場には、現在自転車がありません」
  • 「今は晴れていいますが、この後雨になるでしょう」

自動化

多くの人は個人情報を共有したくないと考えているが、もし何らかの見返りがあり、透明性があるならば企業を信用するケースも多い。音声はそれ単独で発展することはない。Googleがメールの返信を提案したり、Amazonが買うべきものを助言したり、Siriがコンテキストによって使うべきアプリを提案したりすることと並んで、音声も進化していくのだ。私たちは徐々に、自分の思考や意思決定を、機械にある程度委ねるという考えに慣れて行くだろう。

実際既に多くのアウトソーシングを行っている。私たちは電話番号や住所、そして誕生日を自分で覚えることをしなくなった。体験の記憶をとどめておくために、写真に依存することさえしている。ということである程度の意思決定をアウトソーシングすることは自然なことなのだ。

私の目に映っている中期的な未来像の中では、私たちは日常を自動化するために、より多くのデータを使わせるようになっている。多くの人が、声でAlexaに乾電池の注文をしているが、この先あり得ることは、もう二度と乾電池や洗濯洗剤や取るに足りないもののの注文に関して考えることや、再補充に関する心配をすることはなくなるだろうということだ。

コンピューターが自分自身で合理的に答を推論できるときには、それに関する質問を人間に対してしてはならないという意見もある。テクノロジーが本領を発揮したときには、私たちがそれを見たり、気付いたり、考えたりすることはなくなるだろう。今後数年間は、音声自動化が私たちの生活のより多くの側面を引き継いでいくことになると思われる。未来の音声コマンドは、長い文章やスマートコマンドとしても与えられるかもしれないが、おそらくその大部分は単に「はい」という返答をするだけで済むようになるだろう。

[原文へ]
(翻訳:sako)