Siriが地元の変わった名前の店も認識できるようになった

近くのスターバックスやTargetストアへの道順を教えることはAppleのバーチャルアシスタントが得意とするところだ。しかし、Siriは自分が聞いたことのない地元の店を別のフレーズやユーザーの言い間違えと誤解することがある。Appleはこれを解決するために、Siriの知らない超ローカルな名前のライブラリを作り、”Godfather’s Pizza” を ”got father’s piece” と聞き違えないようにする。

音声認識システムは膨大な量のデータを使って訓練する必要があるが、それによって文の解析やフレーズ認識の能力は高まるものの、ユーザーや友達がいつも使っている語彙を理解できるとは限らない。

私が友人に向かって “let’s go to St. John’s for a drink” と言えば、彼らは私が中西部の大聖堂ではなく、近くのバーを指していると理解する。しかしSiriにはそれを知る術がない——それどころか “St. John’s” がひとつのフレーズであることを認識できなければ、私がまったく別のことを言ったと思うかもしれない。入力ボックスにテキストをタイプするのとは違い——あれは文字列の一致をみるだけ——Siriはユーザーの発した音声から最善の予測をしなくてはならない。

しかし、もしSiriがシアトル地域のことを知っていれば、誰かが “St. John’s” と言えばバーのことだろうとわかるので、苦労して考えたり聖人(saint)の候補リストから選んだりすることなく、すばやく正確に反応できる。それがAppleの最新研究の結果だ。今は英語のみだが、多言語への対応も時間の問題だろう。

このためにAppleの音声認識チームは、Appleマップのローカル検索結果を使って「関心のある場所」を取り出した。人は場所を探すとき「いちばん近くの~」や「~への道順は?」などと聞くので識別できる。

こうした関心のある場所は、Taco Bellなどの全国チェーンを除けば地域に特化した場所を表す。シアトルのハンバーガー好きなら、一番近くにあるDick’s Drive-inを調べるだろう(実際にはどこにあるか知っているが)。ロサンゼルスなら、もちろんIn-N-Outだ。しかしピッツバーグの人はどちらも探すことはない。

Appleはこの地域情報を、米国国勢調査局が定義した169の「大都市統計地域」に分けた。これらの地域に特化した店などの名称は、Siri が使う主要な言語モデル(LM)ではなく、ユーザーが関心のある場所を探すフレーズ(「いちばん近い~はどこ?」や「~への道順は?」など)を使ったときに用いる小さな補助モデル(Geo-LM)に登録される。

このため、”who is Machiavelli” と言ったときには、人名のMachiavelliに関する答えが返ってくるが、” is Machiaveli’s” と言えば、システムはGeo-LMを使って地元の関心スポットリストにMachiavelli’sが載っているかどうかを調べる。こうしてSiriは、マキャヴェリ氏が投獄されていた場所ではなく、レストランへの道順を答えるべきだとわかる。

こうすることで、最大25~30%だったエラー率は10~15%へと大幅に減少した。これは3回中2回しか正しい結果が得られなかったものが、10回中8~9回になることを意味している。Siriが繰り返しユーザーの欲しいものを理解できなくて、使うのを諦めてしまうことを防ぐ可能性のある質的改善だ。

この方法のすばらしいところは、比較的容易に多言語にも拡張できることだ。スペイン語でも韓国語でも、十分なデータさえあれば使えない理由はない。その意味では、Siriが隠語の多い業界人向けに特化した語彙ライブラリーを作ってくれれば、スペリングエラーを減らすことができるだろう。

機能はすでに公開されているので、今すぐテストできるはずだ。あるいはすでに使っていて気づいていないだけかもしれない。

[原文へ]

(翻訳:Nob Takahashi / facebook

MicrosoftのConcept Graphは言葉や文から概念をつかみ、コンピューターに常識を持たせる

information coming out of a smart phone

今日(米国時間11/1)はMicrosoft Researchが、自然言語処理における“知識”という問題の、解へ向かう努力の一環を公開した。同社によると、言葉に対する人間の理解とコンピューターの理解を分かつ最大の要因が、背景的知識とその正しい活用方法の有無だ、という。

Microsoftがこれまで年月をかけて開発してきた知識データベースProbaseが、今度一般公開されるMicrosoft Concept Graphのベースになっている。Probaseは540万の概念を擁し、12万の概念を擁するCycなど、他の知識データベースを圧している。

Microsoft Research's distribution of concepts in the Concept Graph.

Microsoft ResearchのConcept Graphにおける概念の分布

情報が上図のようにすべて結び付けられ、それが、確率付きの解釈と共にテキストの分析を支える。複数の解釈を確率により排除していくやり方は、人間が、「これはないな、あれはないな」と素早く排除しながら自分の結論に達するやり方と、非常によく似ている。

たとえば私が“the man ran from the stranger with the knife”と言えば、あなたなら、男が武装した見知らぬ人から走って逃げている、と解釈するだろう。でもこの文には、男がナイフを手に持って見知らぬ人から走って逃げている、解釈もありうる。しかしながら、(1)〜〜から走って逃げる、は恐怖を含意し、(2)ナイフは恐怖に結びついている、という知識(カテゴリー知識)があれば、あなたの最初の、もっとも単純でストレートな解釈が、いちばん優勢(高確率)になるだろう。それが間違っていた可能性も、あるにはあるけど。

MicrosoftのConcept Tagging Model(概念にタグ付けする方式)は、このことを利用して、テキストのカテゴリーをそれと同じ確率の考えに結びつける。上の例では、ナイフは家庭用品や武器も指すが、しかし文脈としては武器である確率が高く、博物館から盗まれた17世紀のバターナイフではないだろう。

家庭用品や武器は、比較的よくあるカテゴリーだが、博物館の美術工芸品はかなりロングテールだ。Microsoftの大規模なモデルでは、確率の高いものと、極端にありえないものの両方を検討し、その際、属性や下位の文脈、関係などを考慮に入れていく。

今日リリースされたバージョンは、入力されたテキストのありうるカテゴリーのランク(確率ランク)を作る。Microsoftのそういう、初等レベルの概念化能力は、MI, PMI, PMIk, 典型性(Typicality)など他の方法とともに、選好ランクの生成や、適切なカテゴリー付けに利用されるだろう。

今後のバージョンは、彼らの言う“単一インスタンスの文脈付き概念化”の能力を持つだろう。それは、“見知らぬ人”と“ナイフ”を結びつけて、意味を示す。さらに将来的には、チームは“短文の概念化”能力を実現したい、と考えている。それにより、検索や広告やAIにおいて、アプリケーションの視界をさらに拡大するだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ボットで満ちた未来における人間の役割

robotheart-e1425927262913

しかし、ボットが究極の利便性を提供するこのような近未来の世界でも、人間の助けはまだ必要とされるのだろうか?

FacebookのCEOマーク・ザッカーバーグは、最新のF8カンファレンスで、将来の商取引きにおけるボットの位置付けに関して大胆な発表を行った。(無料ダイヤル)1-800-Flowersを例として使い、将来販売プロセスにボットチャットが統合されることにより、顧客が実際に1-800-Flowersをダイヤルして人間に話をする必要はなくなると主張したのだ。理論的には、ボットのサポートをチャットで使用することにより、売り手と買い手のやり取りを簡単に済ませ、消費者をセールスに引き寄せることが可能になる。顧客は電話でのやり取りよりもチャットの方をはるかに好む、というザッカーバーグの主張は正しいかもしれないが、とはいえその好みがロボットとのチャットであるという結論に飛びつく必要はないだろう。

これまでもずっとそうであったように、人間とのやり取りこそが、高品質の顧客体験には不可欠だからだ。Facebookもこの考えを支援していて、チャットの最中にボットから人間への切り替えの支援を行ういくつもの会社と提携している。FacebookのCOO、シェリル・サンドバーグは「…単純に言って、私たちはボットが販売プロセスで人間を置き換えることができることを、実際に想像させ得るような技術を持っていないのです」と公の場で述べている。

では、ボットが支配する未来における人間の役割とは何だろう?

カスタマーサービスに電話をするたびに自動応答の声(IVR)を聞かされて感じたフラストレーションを覚えているだろうか?ボットチャットはこれと同じ立ち位置だ。そしてもし毎回ボットが失敗したらどうなるかを想像して欲しい、結局実際の生きている顧客サービス担当者と話すことになる − 振り出しに戻る、というわけだ。

私たちはこの先、ボット技術の指数関数的な広がりを目にすることになる。しかし顧客との良い関係を保つための人的資本の確保は避けられず必須である。

人工知能が長い道のりを歩んできたことは間違いないが、そこで達成された進歩にもかかわらず、チューリングテストをあらゆる点で満足するボットの実現からは程遠い。ボットは、人間との会話のかなりの部分を扱うことができるものの、間違いなく混乱したり失敗する場合がある(特にあるトピック/領域から別のものに切り替える場合に)。こうした状況では、取引を完了させるために、ボットから人間への引き継ぎが行われる。

現在話題が盛り上がっているものの、ボットは新しいものではない。AOL Instant Messengerが大流行した1990年代後半に、私はSmarterChildとチャットしたことを覚えている。SmarterChildの中核は本質的には初期バージョンのボットだった。学校や生活、そしてスポーツについて、まるで実際の友達と行うようなチャットを行うことができた。SmarterChildは(ほとんどの時間)素晴らしい仕事を果たして、とても洗練されているように見えていた。しかし、公平のために述べれば、チャットの大半は12歳の子供達の側が主導していたのだ。

なので、現在本当に問うべきは、ボットは真に未来を形作るものなのか、あるいは私たちが幼かった頃にあったものと同様の誇大宣伝に終わるものなのかである。

この問いに答えるためには、ボットの背後にある技術を理解することが重要だ。過去20年間で私たちはコンピュータ技術とソフトウェア開発に驚くべき進化と進歩を見てきたが、ボット技術は基本的には2つのカテゴリに分類される、シンプルなロジックツリー(SLT)に基づくものと、自然言語処理(NLP)または機械学習(ML)に依存しているものだ。

SLTに基づくボットは、情報を収集し利用者へと戻すために、旧来のロジックツリーを利用している。例えば、保険ボットは理想的なプランを決定するために、あなたにいくつかの質問を投げかける。もしあなたの答えが、ボットが予想していたものと一致した場合には、そこで得られる経験は引っかかりのないシームレスなものになるだろう。しかし、もしあなたの答が、ボットデータベースの中にあらかじめ予想され保存されているものと異なるものだった場合には、おそらくそこで行き詰まりになってしまうことだろう。もし運が良ければ、用件を完了させるために、その先は人間へと引き継がれることになるだろう。しかし、もしそうでなければボット地獄へ落ちて終わりだ。現在ほとんどのボット技術がSLTに依存している。

NLPとMLボットの場合には、特定の質問に対する直接の回答を必要とするのではなく、利用者からの入力に含まれるキーワードやフレーズをピックアップして、より話し上手な者のように振る舞うことが意図されている。理論的には、このボットカテゴリは良い選択肢のように聞こえる。このタイプのボットの例としては、AppleのSiriとAmazonのAlexaが挙げられる。

天気について答えたり冗談を言うような単純な仕事をSiriとAlexaはうまくこなしているが、複雑や機能や長い命令に対応するためには、まだ長い道のりを歩まなければならない。

相手をしているボットがSLTであろうとNLPであろうと、最後は実際の人間と話をする必要性がある状況に落ち着く可能性は高い。SLTのボットは多くの場合、私たちが現在の技術から期待するような複雑さを備えていない。一方、NLPまたはMLボットに必要な技術に関しても完全に利用することはできていない。

実際の人間による対応の価値は、とても重要なものとなり得る。

幸いなことに、顧客は実際の人間とのやりとりの効率性を好んでいる。最近は、長くてフォーマルな会話スタイルからは離れる傾向にあるものの、顧客はサービスに対する同様の品質をチャット(それが人間でもボットでも)にも求めているのだ。実際、アメリカン・エキスプレスによる最近の研究では顧客の78%が、低品質なサービス体験のおかげで、取引を諦めたり望み通りの買い物をできていなかったりしている。同じ研究はまた、実在の人物に話すことができなかったとき、顧客の67パーセントがフラストレーションから電話を切っていることを示している。それらのほとんどの場合、顧客はボットとの会話に耐えることを強いられていた。

日々の取引に私たちがボット技術を採用しようとする場合、おそらく業界には2段階の移行過程を見ることになるだろう。最初の段階は、ボットが扱えないものを全て実際の人間へと引き継ぐ、とても人間対話重視のものである。貧弱な顧客体験の危険性は、トップブランドにとっては単純に受け入れがたいものである。よってボットが扱えなくなった時に引き継がれる顧客コールセンターを充実させることは現実的な解である。

そして次の段階として、いつかはMLならびにNLPがボットをより知的にして、失敗率を極小にする時が訪れることは確実だと思われる。そうなったときに、取引の大部分がボットチャネルを通して行われると考えることは夢物語ではない。ボットチャネルが単独で成り立つのだろうか、そうではなくそれらが既存のチャネル状況に統合されるのだろうか?もしそれらが単独で成立するならば、他のチャネルには何が起きるのだろう?

優先される顧客対応がブランドのウェブサイトを離れ、Facebookメッセンジャーなどのボットチャネルに流れていくシナリオでは、規模に対する疑問も出されている。たとえボットの失敗率が低かったとしても、人間による対応は増えることが予想される、なぜなら取引量そのものの膨大な増加が予想されるからだ。

私たちはこの先、ボット技術の指数関数的な広がりを目にすることになる。しかし顧客との良い関係を保つための人的資本の確保は避けられず必須である。顧客の生涯価値と製品のマージンに応じて、実際の人間による対応の価値は、とても重要なものとなり得る。

より自動化された未来のための備えとして、私たちは物事を進める際の人間の役割について忘れないことが肝心だ。そして「スターウォーズ/新たなる希望」でR2-D2が偉大であったことと同様に、私たちはそのボットの中に人間がいたことを忘れてはならない。

[ 原文へ ]
(翻訳:Sako)

言語処理は学歴よりも言葉に対する実践的な能力が鍵と信ずるAylien, テキスト分析サービスをAPIで提供

テキストを扱うことは、プログラマにとって往々にして面倒な仕事だ。コードは曖昧であってはいけないが、テキストは曖昧性のかたまりであることが多い。そこでかねてから、AlchemyThomson Reutersといったあたりが自然言語処理(NLP)と機械学習のアルゴリズムを利用するサービスを提供して、文書からもっと容易に意味を取り出せるように、デベロッパの仕事を助けてきた。今回ご紹介するAylienも、独自のテキスト分析APIでこの競技に参戦してきたが、同社の場合それは、これから提供していく一連のデベロッパサービスの第一弾となるものだ。

サービスのファウンダはダブリン(アイルランド)のParsa Ghaffariで、Chinaccelerator支援している。Ghaffariによると、最初にこのアクセラレータ事業に応募したときには、NLPを使って今書いている文書から有意データを自動的に取り出すプロダクト、というアイデアを抱えていた。ところが、そのために利用できる基本技術がまだ存在しないことが分かった。そこで彼は基本技術の構築から始めることにし、そのための3年の努力の末、Aylienの立ち上げにたどり着いた。

デベロッパはこのAPIを使ってドキュメントから見出しや本文を素早く取り出すことができるが、そのほかに要約機能や、エンティティとコンセプトを取り出す機能、言語や感情の検出機能などがある。私の場合、個人的なプロジェクトにこのAPIを使ってみる機会が二度あったが、一部の例外を除いては、だいたい同社の効能書きどおりの仕事をしてくれた。ただし今のところ得意なのは英語のテキストだけで、たとえば、Googleのストリートビューの最近の拡張について書いたこのドイツ語の記事を、Aylienは100%の確信をもって、スポーツのカーリングに関する記事だ、と主張した*。同社は今、英語以外の言語のサポートに関しては‘鋭意努力中’である。〔*: カーリングではなくGoogle Mapsとホッキョクグマの保護に関する記事。同趣旨の英語の本誌記事に対してAylienは、‘自然科学-地理学’とラベルした…それは‘カーリング’ほど見当外れではない(笑)。たしかにGoogle Mapsは、地理の化け物だ。〕

このサービスを試用してみたい人は、ここへ行って、AylienのAPIデモに、何らかのテキストドキュメントのURLを与えてやるとよい。

データはすべてJSONで返され、同社はMashapeを、APIの有料利用のための窓口としている。ただしAPI呼び出しが1日に1000回未満なら無料だ。それ以上だと、1日6000回までが199ドルなどと課金される。既存の同種APIに比べると、やや安いと言える。

今Aylienは、ファウンダも含めて技術者3人だけの会社だが、PhD(博士号)の保有者は一人もいない。NLPのスタートアップとしては、かなり異例だ。Ghaffariは学術的学問的なNLPの世界と無縁ではないが、彼は、同社のような言葉に対する実践的なアプローチの場合、学歴はあまり役に立たない、と確信している。

同社の次のプロジェクトは、ニュース記事をフィルタするnews APIだ。またデベロッパサービスのために作ってきた技術を、いくつかの消費者向けプロダクトに応用することにも取り組んでいる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))