Microsoftがタッチ操作がコンピューティングの未来だと確信しているのと同様、Googleは音声こそインターフェイスの未来だと確信しているようだ。
実際、今月、私がマウンテンビューの本社を訪れたとき、Googleの広報は「スマートフォンを使うときは全部音声でやってみてください」と勧めてきたほどだ。
Googleの音声コマンドはすべて、“Ok Google”あるいは“Ok Glass.”で始まる。 KitKatを搭載したAndroidスマートフォンのフラグシップモデル、Moto XやNexus 5,の場合、いちいちクリックして音声入力を起動する必要はない。これらの機種は常に音声入力の待機状態にある。
昨年公開されたGoogle And The World Brainというドキュメンタリー映画のプレビューに招待されたとき、検索ランキング担当副社長のAmit Singhalが「スタートレックに登場する音声で会話できるコンピュータが私に強い影響を与えた」と語った。そのこともあって私はGoogle(とおそらくはAppleその他も)の音声認識インターフェイスと自然言語処理について改めて考えてみたいと思うようになった。
初期の音声入力、たとえばAppleのSiriの場合、コンピュータと話すというのは奇妙な感じだった。ほんの少しの理解力しかない機械になにかをさせようと語りかけるというのは居心地の悪いものだ。この頃の音声認識では仏教の瞑想のような集中力をもって正確に発音しないと言葉を認識してくれない。音声認識インターフェイスを備えた自動車のオーナーに聞いてみるとよい。昔のフォードSYNCシステムのユーザーは苛立ちのあまり発作を起こしかねなかった。
数ヶ月前に私は、Googleが目指している重要な目標の一つは究極のパーソナルアシスタントの実現であり、そのためには完璧な音声認識と高度な自然言語処理が不可欠なのだと気づいた。
現在、GoogleのAndroidとChromeブラウザでの音声コマンドは驚くべきレベルに達している。“Call Mum”(ママに電話)といえばそのとおりにしてくれる。指定のウェブページを開くのはもちろん、複雑な質問にもGoogle’の膨大な知識グラフを利用して正しい答えを返してくる。アポやリマインダーを設定する、通貨や単位を換算する、単語やフレーズを翻訳する、メールやメッセージを送信する、といった作業がすべてスムーズに音声でできる。
音声検索をすると検索結果も音声で読み上げられる。今のところこれはGoogle以外には真似ができない。Googleの知識ベースの威力だ。こうした作業をする場合、機械と簡単な会話をすることになるのが興味深い。たとえばこういう具合だ。
「アレックスに電話」 「どのアレックス?」「アレックス・ウィルヘルム」「携帯? それとも自宅?」
「携帯」「アレックスの携帯に発信」
最近のGoogleは長い会話の中で代名詞を正しく認識するので驚かされる。しかし周りに人のいるところでスマートフォンに音声で命令するのは私には居心地が悪すぎる。かといってオフィスでひとりきりのときに音声コマンドを使うのも別の意味で気持ちが悪い。
もちろんこういう心理的障壁は時間とともに薄れるのだろう。以前はビデオカンファレンスというのは居心地が悪かったが、今では皆通にSkype、FaceTime、GoogleHangoutsを使っている。
映画のHer/世界でひとつの彼女が実際、未来のユーザー・インターフェイスなのかもしれない。いずれにせよ高度な音声認識と自然言語処理による音声コマンドがGoogleが目指す全能の人工知能の基礎をなすものだ。
数週間前にGoogleが謎めいたスタートアップDeepMindを買収したのもこういう観点から見なければならない。チェスの天才少年から起業家に転じたファウンダーは長年人工知能の研究をしてきたという。買収はラリー・ペイジ自らが主導したらしい。2000年にペイジは「人工知能というのはGoogleの究極の姿だ」と語った。実際Googleはこの目標に向かって前進を続けてきた。半ば秘密の研究組織Google Xのテーマも多くはAI分野だ。AIに対する自然なインターフェイスとなるとやはり音声による会話となるのだろう。
しかしGoogle本社での「Androidをすべて音声で利用する」という実験は全体としてみると失敗に終わった。機能しなかったからではない。私は人前で音声コマンドを使う気になかなかなれなかったからだ。.
[原文へ]
(翻訳:滑川海彦 Facebook Google+)