IoT会話と、文脈から意を汲み取るということ

modern cityscape and business person, IoT(Internet of Things), ICT(Information Communication Technology), abstract image visual

（日本語版注：本稿を執筆したJim Hunterは、Greenwave Systemsのチーフサイエンティスト兼エヴァンゲリストだ）

数年前、テクノロジーとコミュニケーションをとる方法について書いた。当時、身の回りにあったアプリや電話、車、半自動のコーヒーメーカーといった便利なツールを使うときに体験するちょっとした不都合が、何かしら革新的なものの登場でなくなるだろうというのは明らかだった。そうした接続機器を使うのに、たくさんタイプやスワイプしたり、アプリで管理したりする必要があったからだ。

その革新的なものというのは、ある程度、現実のものとなったといえる。

音声でのやり取りがそれだ。いまスマホの音声アシスタント、家や車と接続するスマートスピーカーを使うとき、音声操作が大きな役割を果たしている。この音声操作技術の進歩は現在進行形だ。それはすごいことではある。しかし、やり取りは会話と呼べるものではない。

というのも、この音声操作のほとんどは、友達や同僚との実のある会話のようなものではなく、むしろ4歳の子に「言われた通りにしなさい」と命令するのに近いからだ。

ツールを使うにあたっての不都合を最小限に抑え、そして音声でテクノロジーを最大限利用できるようにするためには何かが必要だ。それは、「文脈から意を汲み取る」ということだと私は考えている。

文脈から意を汲み取るというのは、会話の中で何を意図しているのかを考えることになる。誰が、何を、どこで、いつ、といったシンプルな質問に答えるのはそう難しいことではないし、IoTは私たちの暮らしに関するあらゆる情報を取り入れるようになっている。私は以前、アメリカの心理学者マズローの欲求段階説のチャートに倣って、IoTデバイスに必要とされることをピラミッド式に描いたことがある。テクノロジーが分析手法を用い、ロジックや予測することを学習し、そしてより複雑なことをできるようになるというものだ。AmazonのAlexa、AppleのHomePodなどで使われている音声操作や自然言語処理の技術は、まさしくIoTデバイスに必要とされることの実現例だ。リアルタイムに情報を収集し、複雑な機能でもって処理するという、予知解析や機械学習を取り込んでいる。

それでもまだ、AlexaやHomePodとのやり取りは会話とは呼べない。役には立っているが、コミュニケーションとしてはまだ初期段階にあり、成長の余地はある。

というのも「どのように」「なぜ」といった掘り下げた質問が、会話の中で重要な意味を持つからだ。真の双方向会話を実現するには、そうした質問に対する答えを複数用意するだけでなく、学習し記憶しなければならない。Googleはそうした手法をいくつかのオンライン検索に取り込んでいる。しかし、自然な会話を実現するためにはまだたくさんの課題がある。

文脈から意を汲む能力の開発、それが接続機器の最終目標

人の会話の多くは要約されている。会話の量がどれだけあろうが、やりとりに分解することができる。名詞や固有名詞を代名詞に置き換えるのがいい例だ。「Daveの休暇について尋ねたところ、Janeは“私が彼を空港に送って行って見送る”と言った」。こうした文章は序の口で、簡略してはダメ、となったら会話はすごく不自然なものになる。毎回、きちんとした名称を使うとなったらやりづらく、スムーズではない。

会話というのをシンプルに定義づけると、それは感情やアイデアのカジュアルなやりとりということになる。それは人々がコミュニケーションをとるために自然に行う。くだけた会話というのは、文脈的な要素が大きく、また凝縮していて包括的なものだ。物語を語るような要素も含まれる。会話はあちこちに飛ぶし、時間軸も動く。新しいことについて情報交換するとき、過去に共有したことをベースに話すこともある。推測を伴うこともあれば、厳密に会話に執着しなくてもいいこともある。こうした会話手法は、IoTに仕込まれたものとは全く正反対のものだ。機械によるコミュニケーションというのは、コードに基づいている。それは二分法であり、供給源に制約があり、杓子定規だ。情報はあるが、文脈というものに乏しい。あまりにもカチッとし過ぎていて、物語を語るにはほど遠い。

IoTを活用するときに私たちが感じる違和感は、こうしたアプローチの違いによるものだ。デバイスを操作するときに新しいアプリをダウンロードし、起動の言葉を設定する。そして別のデバイスのために違う言葉を設定し、アップデートを繰り返す。そんな調子だから、買って2週間後にはデバイスは引き出しへとお蔵入り、ということになるのだ。人が望むようなやりとりではないのだ。

不気味さやプライバシー問題はさて置き、私たちの身の回りの情報を絶えず収集するデバイスに関していうと、人間が好む会話ができるよう文脈を読む技術を獲得しつつある。目指すところは、人がいつでも違和感なくデバイスを使えるようになることだ。

今後取り組むべき課題は、マシーンに人間のような会話能力を持たせることだろう。会話が自然なものとなるよう、文脈や推測、そして形式ばらないよう吹き込まなければならない。こうした取り組みをすでに始めているのが国防高等研究計画局であり、AmazonやGoogleでもある。実際のところ、テクノロジーを開発するにあたって、もっとも注力されるのはインターフェースの使いにくさをいかに少なくするかという点だ。そうした意味でいうと、会話の質を高めるというのは、使いやすさに直結する。

IoT、拡張現実、アシスタント知能（AIという言葉を私はAssistive Intelligence ととらえている）、さらにはモバイル機器ディスプレイでの小型化や拡張、電気まわりの改善といったものも、全ては質の改善を追求した結果といえる。それらテクノロジーにより、文脈を読み取る、究極的には自然な会話をする機能を開発することができると考えられる。これを活用すれば私たちの暮らしは会話にあふれたものとなる。そして、ひとたびテクノロジーと有意義な会話を経験すれば、夢中になること間違いなしだろう。

[原文へ]

（翻訳：Mizoguchi）

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。 TechCrunch Japan の投稿をすべて表示