グーグルがAI利用のスマート返信をYouTubeに導入、今後多国語展開も

Google(グーグル)のSmartReplyは、4年前にリリースされたAIテクノロジーを利用した省力化ツールで、GmailをはじめAndroidのMessagesPlay Storeのデベロッパーコンソールその他の場所で受信した内容を解析し、ふさわしい返信案の候補を表示する。 この機能をYouTubeのクリエーターも利用できるようになった。

同社の発表によれば、最新版のYouTube向けSmartReplyはビデオのクリエーターがファンのコメントに対して素早く効率的に返信できるようにすることを狙っているという

この機能はYouTubeのオンラインダッシュボードであるYouTube Studioに導入された。これは、クリエーターがビデオを管理し、統計をチェックすることなどによりチャンネルをプロモーションし、ファンとの交流を図るために設けられたツールだ。クリエイターはYouTube Studioのコメント欄からチャンネルのコメント全体を表示し、返信処理ができる。

YouTubeで多数のフォロワーを持つクリエイターにとってコメントへの返信は非常に時間のかかる作業だ。SmartReplyはこの問題の軽減を狙っている。

クリエイターは視聴者からのコメントをいちいち読んで返信を手入力せず、提案された返信案の1つをクリックして返信できる。たとえばファンが「次のビデオのテーマは何?」と尋ねている場合、SmartReply機能は「ありがとう!」や「どんどん続くよ!」といった返信を提案する。

GmailのSmarReplyは単語と短いフレーズを解析できるが、YouTube向けにの新バージョンはさらに幅広い子コンテンツ解析能力が必要だった。グーグルによればYouTubeコメントでは「絵文字、アスキーアート、言語種類の認識などを必要とした」ということだ。YouTubeのコメント投稿には略語、スラング、つづりの揺れなどが頻繁にみられる。このためYouTubeへのSmartReply実装には大きな困難があった。

Google AI Blogの記事に、こうした課題(やその他の課題)をどのように解決したがが詳しく説明されている。

SmartReplyはクリエーターが返信したいと考える可能性が高いコメントを選び、しかも適切な返信内容をを提案する必要があった。コメント内容を正しく認識するために機械学習をトレーニングするシステムが必要だったと同社は述べている。

スタートの時点はSmartReplyは英語とスペイン語のコメントで利用可能となっている。これはSmartReplyとして初のシステム言語の自動切り替えを含む複数言語サポートとなる。言語の種類や絵文字を認識するため文字符号を利用するシステムだという。

「SmartReplyはこうしたアプローチを利用しているため、この機能を今後さらに多数の言語に拡張することが可能となっている」と同社は説明する。

原文へ

(翻訳:滑川海彦@Facebook

自然言語処理ライブラリ開発のHugging Faceが約16億円調達

Hugging Faceは、Lux Capitalがリードする投資ラウンドで、1500万ドル(約16億4200万円)の資金を調達した。同社が最初に開発したのは、AIの親友とチャットできるモバイルアプリで、暇を持て余した10代向けのチャットボットの一種だった。このスタートアップは、最近、自然言語処理アプリ用にオープンソースのライブラリをリリースし、大成功を収めている。

A.Capital、Betaworks、Richard Socher、Greg Brockman、Kevin Durantなども、今回の投資ラウンドに参加している。

Hugging Faceが、オリジナルのチャットボットアプリをリリースしたのは2017年初頭だった。同社はそのチャットボットが、カスタマーサポートでも使えるよくできたコマンドライン・インターフェイスである必要はないことを証明したいと考え、それから数カ月の間作業に取り組んだ。

Hugging Faceのアプリでは、デジタルの友人を自ら作り出し、その友人とメッセージのやり取りが行える。アプリはユーザーが考えていることを理解してくれるだけでなく、ユーザーの感情を察知して、その気持ちに合ったメッセージを返してくれる。

このチャットボットアプリ支えている技術は、確かなものだとわかっている。Lux CapitalのBrandon Reeves(ブランドン・リーブス)氏も書いているように、これまでコンピュータービジョンと画像処理に関しては多大な進歩があったが、自然言語処理は遅れをとっている。

Hugging FaceがリリースしたオープンソースのフレームワークであるTransformersは、これまでに100万回以上ダウンロードされた。GitHubプロジェクトとして、1万9000個ものスターを集めている。これはオープンソースのコミュニティが、開発用のパーツとして有用であることを認めている証拠だ。Google、Microsoft、Facebookなどの研究者も、これをあれこれいじり回している。

すでに、Hugging Faceのライブラリを製品に利用している会社もある。チャレンジャーバンクであるMonzoは、顧客サポート用のチャットボットに使っているし、Microsoft Bingでも利用している。フレームワークのTransformerはテキスト分類、情報の抽出、要約、テキストの生成た対話型の人工知能といったものに利用することも可能だ。

今回の投資ラウンドを受けて、同社はニューヨークとパリで従業員を3倍に増やす予定だ。

原文へ

(翻訳:Fumihiko Shibata)

Googleが中間テキスト化不要の音声機械通訳の成果を発表

あの銀河ヒッチハイク・ガイドに出てくる不思議な万能翻訳機「バベルフィッシュ」がどんどん現実に近づいている。 Googleの新しい研究プロジェクトは音声で話しかけられた内容をリアルタイムで音声で通訳できるシステムを目指している。

従来の機械翻訳とは大きく異なった仕組みで、中間にテキスト化の段階を含まず、すべて音声レベルで処理される。これは処理の高速化に役立つのはもちろんだが、もっと重要な点は話者の語調その他の音声的ニュアンスをいっそう正確に処理できることだ。

このプロジェクトはTranslatotronと名付けられており、長年の研究を基礎としているものの、まだ開発の初期段階にあるという。Google他の開発者はスピーチから直接スピーチに変換するリアルタイム通訳の実現を目指して努力を重ねてきたが、見るべき成果が上がり始めたのはほんの数年前からだ。

現在、スピーチのリアルタイム翻訳はいくつかの部分に分割して実行されるのが普通だ。ソースのスピーチを音声認識によりテキストに変換(STT、Speech-To-Text)し、テキストを機械翻訳した後、出力テキストをスピーチに変換(TT、Stext-To-Speech)する。この方式は実際かなりの成果を上げているが、完璧には遠い。各ステップに特有の誤差があり、累積すると大きな誤差となってしまう。

またバイリンガル、マルチリンガルの人々が複数の言語を使う場合のプロセスの研究が示すとおり、テキスト化を挟む機械翻訳」は人間の複数言語思考ともかけ離れている。現段階では大脳でどのような処理が行われているのか正確にいうことはできないが、バイリンガルの話者が外国語を使うときに発話内容をいちいちテキスト化して思い浮かべ、それを翻訳しているのでないことは確実だ。人間の思考プロセスは機械学習アルゴリズムを進歩させる上でガイドないしモデルとして利用できる場合が多い。

スピーチの音声スペクトル画像。テキストを介した翻訳ではスペイン語の人名「ギェルモ」が対応する英語の人名「ウィリアム」に翻訳されてしまうのに対して、音声直接通訳では「ジエルモ」になっている。これでも正確ではないが、通訳としてベターだ。

これに対して研究者は音声スペクトルを解析して直接対応言語の音声スペクトルを合成しようと努力している。これは伝統的なテキストを介する3段階方式とまったく異なる機械翻訳のアプローチだ。これには弱点もあるが、上の例で示したようにメリットも大きい。

簡単なところでは、十分な計算機資源が用意できるなら現行の3ステップ方式より1ステップのTranslatotronの方が処理が速い。しかしユーザーにとってもっと重要な点は、音声から音声への直接通訳は元の発話の音声の特徴をよく再現できることだ。テキストを介した合成音声がいかにもロボット的に不自然に聞こえるのに対して、Translatatronで生成される文はオリジナルの発話に近いものとなる。

これは意味内容だけが対象言語に翻訳されるのではなく、発話の音声に込められた感情やニュアンスも再現されるという点で、機械翻訳を画期的に進歩させる可能性がある。これは通訳アプリに限らず、音声合成のユーザーは非常に大きな影響を与えるだろう。

今のところ、音声直接翻訳の精度は従来のテキストを介した翻訳に及ばず、この点では改良が必要だという。しかし部分的にせよ、非常に優れた翻訳も生まれている。研究グループは「出発点に立ったところであり、可能性を実証した段階」と控えめに表現しているが、実用化されたときのインパクトの大きさを想像するのは難しくない。

オリジナルの研究論文はArxivで公開されている。またう従来型のテキストを介した通訳とTranslatotronによる通訳のサンプルはこのページにある。これらのサンプルはあくまで音声直接翻訳というアプローチの可能性を試すために選ばれており、翻訳精度のアップそのものをを狙ったものではないという。

画像:Bryce Durbin / TechCrunch

原文へ

(翻訳:滑川海彦@Facebook

消費者の41%が音声アシスタントのプライバシーに不安、マイクロソフト調査

Microsoft(マイクロソフト)の新しいレポートによれば、音声アシスタントのユーザーの41%がデバイスが常時聞き取り状態にあることに関連してプライバシーやデータ保護の信頼性に不安を抱いているという。

Google、Amazon、Apple、 Samsung、Microsoftなどの有力企業が揃って消費者向け音声アシスタントデバイスのメインストリーム化に務めている現在、こうしたデバイスのデータ収集方法について懸念を抱くのは正しい態度だ。

しかし多くの消費者がこの点について正しい知識を持っていないように思える。Amazonのエンジニアが世界のユーザーがAlexaに入力した音声コマンドをモニターしているというBloomberg(ブルームバーグ)の最近の報道は消費者に懸念を抱かせた。しかもこうした人工知能を利用したスマートデバイスはメーカーやその外注企業の社員がモニターできるだけなく、入手した個人情報を違法に利用し、刑事事件にまで発展した例さえあった。電源がオンになっているかぎり聞き耳を立ているスマートスピーカーは笑いごとではすまないような重大なプライバシーの侵害を起こす可能性が充分ある。

米国時間4月25日、BloombergはAmazonのAlexaチームによるプライバシー侵害の危険性に関して次のように新たな報道を行った。

レポートによれば、Alexaが聞き取った音声データにアクセス可能なAmazon社員はデバイスの位置情報、場合によっては正確な住所も得られるという。これは音声データに緯度経度の座標が付属しているためだ。音声クリップをGoogleマップにペーストして簡単にデータが得られた場所を知ることができる。 Bloombergは「こうした位置情報を含むデータにアクセスできるAmazon社員の人数は不明」だとしている。

これは歴然たるプライバシーの侵害であり、我々がAmazon Echo、ひいては同種の音声アシスタントに対して抱く不信感を実証するものだ。

音声アシスタントのユーザーはバックエンド処理にどれほど人間が関与している正確に知ることはできない。しかしMicrosoftのレポートを読めば、デジタルアシスタント利用している消費者はデバイスが持つプライバシーの侵害やデータの不正利用などの危険性について強い不安を抱いていることがわかる。

例えば、Microsoftの調査対象の52%は入力された情報のセキュリティーに不安を感じている。24%は情報がどのよう利用されているのかわからないと考え、36%はどんな目的だろうと個人情報を一切利用して欲しくないと考えている。

こうした数字はデジタルアシスタントには個人情報の収集と利用から永続的にオプトアウトできる分かりやすい仕組みが必須だということを示している。 つまり1回クリックするだけで「デバイスが収集した個人情報が外に出ることはなく、かつ人間がアクセスすることはない」ように設定できなくてはいけない。

41%のユーザーは音声アシスタントがユーザーの音声に聞き耳を立て録音していることに不安を感じている。31%は収集された情報にプライバシーは保証されていないと考えている。

さらに14%はプライバシーやセキュリティーの点で音声アシスタント・サービスを信用していない。つまりAmazon、Google、その他の企業はこの点で信用されていないわけだ。Microsoftのレポートはこう警告している。

新しいテクノロジーデバイスに関する消費者からのフィードバックに不安に真剣に対応することはデベロッパーに課せられた責務だ。消費者が安心してデバイスと音声で対話できる未来を実現するために必要な信頼の基礎を今すぐ築き始めねばならない。

調査はプライバシーに関して音声アシスタントに消費者が不信感を抱いているものの、全員が音声アシスタントの利用に拒否反応を持っているわけではないことも示している。たとえばEchoに音声でAmazonの商品を注文する際、商品配送するために役立つなら住所データを利用するのは構わないと考えるユーザーも多い。確実にメリットがあるなら住所以外でも個人情報を提供していいと答えたユーザーも存在する。

消費者は全体としてはキーボードやタッチスクリーンより音声入力を好んでいる。音声アシスタントの普及はま だ初期段階だが、 57%のユーザーが(プライバシーなどの懸念はあるにせよ)、音声をお気に入りの入力方法だとしている。また37%は他の入力方法と併用して音声入力も用いると答えた。

「どちらかといえば」から「大いに」まで程度はさまざまだが、80%のユーザーがデジタルアシスタントに満足しており、「週に1度以上使う」ユーザーは66%、「毎日使う」は19%だった(これには音声以外のスマートアシスタント全般を含む)。

こうした高い満足度をみれば、音声を含むデジタルアシスタントが市場から消えるということは考えにくい。いかしプライバシーの侵害や不正利用の可能性は普及の大きな妨げになるだろうし、あるプロダクトの信頼性が高ければ、信頼性の低いブランドからの乗り換えを促すことも考えられる。

もしAmazonなどが社員が消費者の音声情報にアクセスすることを厳格に制限できず、Appleがリリースした製品がそれと同等の価格でプライバシーが良好に守られるとするなら、ここでもAppleが大きなシェアを得ることになるかもしれない。

音声アシスタントと音声認識テクノロジーのトレンドを含むMicrosoftのレポートの全文はこちら

原文へ

(翻訳:滑川海彦@Facebook

AmazonのComprehend Medicalサービスは機械学習を利用して患者の記録から有意な医療データを取り出す

【抄訳】
Amazonが、機械学習を利用して患者の記録から重要なデータを取り出し、病院などのヘルスケアプロバイダーや研究者たちの費用節約や治療方針の決定、臨床試験(治験)の管理などを助ける新しいサービスを立ち上げた。AmazonがAmazon Comprehend Medicalとよぶこのサービスの発表は、火曜日(米国時間11/27)に、The Wall Street Journalがそれを報じた直後に行われた。

このクラウドソフトウェアはテキスト分析と機械学習を組み合わせて、処方や注記、面談の音声、検査の結果、などから成る患者の記録を読む。これらの記録がデジタイズされてComprehend Medicalにアップロードされると、診断や処置、薬の処方、そして症状などに関する情報が拾い上げられてまとめられる。

〔参考記事: Amazon Comprehendとは…「Amazon Comprehendでは機械学習の技術とは無縁なデベロッパーでも専門用語で自然言語処理モデルを訓練できる」〕

Amazonの最近のヘルスケアへの進出としては、オンラインの処方箋サービスPillPackを10億ドル近くで買収したことや、Amazonの社員のヘルスケアを改善するための、Berkshire HathawayとJP Morgan Chaseとのジョイントベンチャーが挙げられる。これらにより同社は、最近ますますヘルスケアにフォーカスしているそのほかの大手テクノロジー企業の仲間入りをしている。

たとえば今年初めにAppleは、iPhoneのユーザーが自分の病院の医療記録を見られるための機能をiPhone上に導入した。またGoogleは最近、大手医療法人Geisingerの前CEODavid Feinbergを雇用して、検索やGoogle Brain, Google Fit, Nestなど多岐にわたるGoogleの各事業部門が抱えるヘルスケア企画の、一元化と全体的な指揮を彼に委ねた。

今日の発表声明の中でAmazonはこう言っている: “これまでは、この情報を見つけるために長時間の手作業を要し、しかもそのために、高度な技能を持つ医療エキスパートによるデータ入力や、情報を自動的に取り出すためにデベロッパーのチームがカスタムのコードとルールを書く必要があった”。そして同社の主張によるとComprehend Medicalは、患者の記録の中に“医療の状態、解剖学的専門用語、医療検査の詳細、治療内容、処置”、などを正確に見つける。一方、患者は、このサービスを利用して自分の治療のさまざまな側面を管理し、通院のスケジュールや薬の処方、保険の適用の判断などを明確に把握できる。

【後略】
●データは暗号化され、どこにも保存・利用されないのでプライバシーの問題はない。
●すでにいくつかの大手製薬企業や医学研究所がComprehend Medicalを試験的に導入し、とくに治験の適正な実施に必要な膨大な量のデータ作業の省力化や迅速化などに貢献している。“これまで数時間を要したデータ作業が数秒で終わる”そうである。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Amazon Comprehendでは機械学習の技術とは無縁なデベロッパーでも専門用語で自然言語処理モデルを訓練できる

昨年Amazonは、自然言語処理のツールComprehendを発表した。それは情報のコーパスから、よく使われている語や語句を取り出し、ドキュメントを分類する。今日Amazonは同社のデベロッパーカンファレンスRe:inventに一週間先駆けて、Comprehendの機能向上を発表した。それにより機械学習の専門知識のないデベロッパーでも、専門用語や語句のリストを作るだけで機械学習のモデルを構築できる。

その機能アップを発表するブログ記事で、AmazonのディープラーニングとAIのゼネラルマネージャーMatt Woodがこう書いている: “本日Comprehendに新しいカスタム化機能を導入することを嬉しく思う。これによってデベロッパーは、Comprehendを拡張して自然言語で書かれている用語を見つけ、チームや企業や業界にとって専門的なテキストを分類できる”。

重要なのは、すべての複雑な処理をAmazonが面倒見るので、機械学習や自然言語処理の素養のないデベロッパーでも言葉のリストをシステムに与えるだけで、テキストからそれらの語を検出/取り出しできるようになることだ。Woodは書いている: “カスタマイズされた機械学習のモデルを構築、訓練、そしてホストする重労働はすべてComprehendが行い、これらのモデルをプライベートなAPIでデベロッパーが利用できるようにする”。

これには、二つの部分がある。まず、デベロッパーは専門用語などのリストを作る。それは、たとえば法律事務所なら法律用語、自動車会社なら部品番号のリストだったりするだろう。デベロッパーがすることは、これらの用語のリストを公開するだけだ。Comprehendがカスタマイズされた言葉を見つけることを学習し、そのリストに基づくプライベートでカスタマイズされたモデルを作る。

第二の部分は、分類のカスタマイズだ。言葉のリストを作ったら、次は、それらの用語が現れる論理(ロジック)のリストを作る。それについてWoodは、こう書いている:

“言葉の用例がわずか50件でも、Comprehendはカスタムの分類モデルを自動的に訓練し、それを使ってユーザーのドキュメントを各カテゴリーに分類する。たとえばカスタマーサポートのメールを、担当部門ごとにグループ化したり、ソーシャルメディアのポストを製品別に分類、あるいはアナリストの報告書を事業部別に分類したりできるだろう”。

これらの雑多で大量のドキュメントは、カテゴリー分けして初めて役に立つし、適切な担当者にそれを渡したり、あるいはアプリケーションがプログラムの一環として利用したりできるようになる。

Comprehendはユーザーに、カスタマイズされた機械学習のモデルを作る方法を、上述のようなごく単純な方法として提供し、楽屋裏の細部は自分でやる。一般的に言っても、クラウド企業は複雑難解なものを単純化して、専門的な知識や技能のないデベロッパーでも一連のサービスを利用できるようにする。Comprehendの場合は、機械学習の知識のない者がカスタマイズされたモデルを作れる方法を提供する。

Comprehendのこの新しい機能は、今日(米国時間11/19)から利用できる。

〔参考記事
Amazon Comprehend日本語ドキュメンテーション(1)
Amazon Comprehend日本語ドキュメンテーション(2)
Amazon Comprehend用例解説(1)
Amazon Comprehend用例解説(2)
「amazon comprehend 日本語」でググると、さまざまな日本語ドキュメンテーションが出てきます。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

企業のクラウド化を助けるServiceNowが自然言語検索のFriendlyDataを買収、データ駆動の裾野を広げる

企業のクラウドサービスの導入や管理を助けるServiceNowが今日(米国時間10/10)、FriendlyDataの買収を発表した。これにより同社のNowプラットホーム上のアプリケーションが、自然言語による検索をできるようになる。2016年に創業されたFriendlyDataの自然言語クエリ(natural language query, NLQ)技術により、企業顧客は、専門用語を知らないユーザーでも技術的な質問ができる検索ツールを、作れるようになる。

FriendlyDataのNLQ技術は、ユーザーが何を言おうとしているのかを推察し、答をテキストや、分かりやすい視覚化データで提供する。ServiceNowによると、同社はFriendlyDataの技術をNow Platformに統合して、そのサービスメニューの充実を図る。同プラットホーム上には今、企業のITや人事、セキュリティ、カスタマーサービスの管理、などのアプリケーションがある。FriendlyDataの技術は、デベロッパー用のプロダクトや、ServiceNowのパートナーからも利用できるようにする。

ServiceNowのdevops担当SVP Pat Caseyが、声明で述べている: “ServiceNowはNow PlatformにNLQを導入して、企業が技術的質問を日常的な英語でできて、答をすぐにもらえるようにする。これによって誰もがデータに基づく意思決定をできるようになり、生産性の向上と企業のより速い成長に資することができる”。

ServiceNowはこれまでも、さまざまなAIツールで企業顧客におけるサポート業務の円滑化を図ってきた。FriendlyDataの買収も、その一環だ。たとえば同社は5月に、チャットボット構築ツールVirtual Agentを立ち上げたが、これによって同社の企業顧客は、SlackやMicrosoft Teamsのようなツールを内製でき、機械器具の購買リクエストなど、ルーチンのインクワイアリを自動的に処理できるようになる。同じ時期に同社は、チャットボットにNLP(自然言語処理)を導入しているParloを買収した

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

TouchPalキーボードで大ブレークした中国のCootekがニューヨーク証券取引所で$100MのIPO

TouchPalキーボードアプリで有名な中国のモバイルインターネット企業Cootekが、アメリカで上場する。先週SECに提出されたF-1フォームによると、調達目標額は1億ドルだ。

上海で2008年にTouchPalをローンチした同社は2012年3月にCootekという名前で法人化し、SECへの提出書類によると現在の一日のアクティブユーザーは1億3200万、6月現在でその前年同期比増加率は75%、としている。また広告収入は同じ6月までの6か月で453%増加している。

AIを利用しているTouchPalは指をすべらせるグライドタイピングと予想テキスト機能があり、Cootekの一番人気のアプリだが、ほかにも15のアプリがあり、それらはたとえばフィットネスアプリのHiFitとManFITや、バーチャルアシスタントのTaliaなどだ。同社は独自のAI技術とビッグデータ技術により、ユーザーとインターネットから集めた言語データを分析する。そしてそこから得られるインサイトを利用して、ライフスタイルやヘルスケア、エンターテインメントなどのアプリを開発している。15のアプリを合計すると、月間平均ユーザーは2220万、一日では730万となる(6月現在)。

TouchPalそのものの平均ユーザーは、2018年6月の全月で1億2540万だった。一人のアクティブユーザーが一日に72回、このアプリを立ち上げている。現在、110の言語をサポートしている。

Cootekの主な売上源はモバイルの広告だ。同社によると、売上は2016年の1100万ドルから2017年には3730万ドル、その対前年増加率は238.5%だった。利益は6月までの6か月で350万ドル、1年前には1620万ドルの損失だった。

Cootekはニューヨーク証券取引所でチッカーシンボルCTKで上場する計画だ。IPOで得られた資金はユーザーベースの拡大と、AIおよび自然言語処理への投資、広告のパフォーマンスの改善に充てられる。上場の引き受け証券企業はCredit Suisse, BofA Merrill Lync, そしてCitiだ。

画像クレジット: Cootek

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

機械は単語に対する深い理解を介して、言語をよりよく学ぶ

コンピュータシステムが人間の話すことを理解する能力は、かなり良くなって来ているが、いくつかの大きな弱点もある。なかでも、複数の意味や複雑な意味を持つ単語の扱いに問題があるのは事実だ。ELMoと呼ばれる新しいシステムは、重要な文脈を単語に加えることで、全体的に良い理解を導こうとするものだ。

問題を説明するために”queen”(女王)という単語を考えてみよう。あなたと私が話しているときに、私がその単語を話した場合、あなたは文脈からそれが、エリザベス女王か、チェスの駒か、蜂の巣の女王か、あるいはRuPaul’s Drag Raceを指しているのかを判断できる。

複数の意味を持つことのできる、このような単語の特性は、多義性(polysemy)と呼ばれる。そして実際に、それは例外的なものではなく慣例的に決まるものなのだ。通常はフレーズによって、その解釈は曖昧さなく決めることができる ―― 例えば “God save the queen!” (女王陛下万歳!)と “I saved my queen!”(クイーンの駒を守ったぞ!)など ―― そしてもちろん、これはトピック、文章の構造、返答が期待されているかどうかなどを伝えている。

しかし、機械学習システムは、こうしたレベルの柔軟性を持っていない。彼らが単語を表現しがちな方法は、はるかに単純だ。その単語のあらゆる異なる定義を眺めて、ある種平均的な複雑度のものを選び出す。しかしそれは真の複雑さを反映しているわけではない。正しい言葉の意味がわかることが重要であるとき、それに頼ることはできないのだ。

しかしELMo (Embeddings from Language Models:言語モデルからの埋め込み)は、システムが多義性をより簡単に処理できるようにする。その有用性の証として、それは先週NAACLで最優秀論文賞を受賞した。その核の部分で、訓練データ(テキストの膨大なコレクション)を利用して、ある単語が複数の意味を持っているかどうか、そしてそれらの異なる意味が、言語の中でどのように伝えられるのかが判断される。

たとえば、上記の “queen”の例文を人間が読んだときには、お互いに似てはいるものの、王族の話をしているのか、ゲームの話をしているのかの違いは区別できるだろう。これは、それらが書かれているものの中に、この”queen”がどちらの意味なのかを、読み手の文脈検知エンジンに判断させる手がかりが含まれているからだ。

学習対象のテキストコーパスに、手作業で注釈を付けることによって、これらの違いをシステムに知らせることはできる。だが、どの”queen”がどの意味かの注釈を与えるために、何百万もの単語に対して手作業を行いたい者がいるだろうか?

「私たちは人手による注釈の必要性を大幅に減らす方法を模索していました」と説明するのは、この論文の筆頭著者であるMathew Petersである。「目標は、ラベルのないデータからできるだけ多くのことを学ぶことでした」。

さらに彼は、従来の言語学習システムは「1つの単語のすべての意味を、単一のベクトルに圧縮していました」と語った。「そこで私たちは、基本的な前提を疑うことから始めました:単一のベクトルを学習するのではなく、無限個のベクトルを持つことにしよう。なぜならその意味は、文脈に大きく依存しているからです」。

ELMoは、単語が現れる完全な文章を取り込むことによってこの情報を学習する;それは、king(王)がqueenと一緒に言及されるときには、それは王族あるいはゲームの話であって、ミツバチの話ではないことを学習するだろう。それがpawn(チェスの駒)を見たときには、それをチェスだと判断し、jackを見たときにはトランプだと判断する、などだ。

ELMoを搭載した言語エンジンは、何年も言語を解釈した経験を持つ人間ほど優秀ではないものの、多義性に対する知識を有しているだけでも、言語の理解には大いに役立つ。

それだけではなく、単語の意味に対して全文を考慮することによって、その文の構造がより簡単にマッピングされ、自動的に句および品詞をラベル付けすることが可能になる。

ELMo方式を採用したシステムでは、最新の自然言語アルゴリズムに対してさえ品質を25%も向上させるという即効性がみられた ―― これは、この分野としては非常に大きな進歩である。そしてそれは、より優秀で、よりコンテキストを意識した学習スタイルではあるものの、根本的に既存のものと異なるものではないために、既存の商用システムに簡単に組み込むことができる。

実際には、Microsoftは既にそれをBingで使っていると言われている。結局のところ、検索では意図を決定することが重要である。そのためにはクエリー(問い合わせ)を正確に読み取る必要がある。ELMoはAllen InstituteのAIに対する他の成果と同様に、オープンソースでもある。もし自然言語処理を必要とする企業であれば、これをチェックする必要があるだろう。

論文は、ELMoを英語のシステムに利用するための根幹部分が示されている。しかしその力は、本質的には取り込んだデータを詳細に読み込むことによって得られているものなので、それを他の言語だけでなく他の分野に対しても適用できない理由は(理論的には)存在しない。言い換えれば、もしそれに神経科学の膨大なテキストを入力した場合、システムはtemporalという単語が、時間に関するものなのか、脳の部位(側頭部)を意味しているものなかを区別できるようになるだろう。

これは、機械学習と言語の関係が急速に発展していることを示す一例に過ぎない。基本的な翻訳や、文章の読み上げなどには、すでに十分に役立ってはいるが、自然言語インターフェイスを通してコンピューターができることはまだ沢山あるのだ ―― もしやり方さえわかるなら。

[原文へ]
(翻訳:sako)

Googleのセマンティック体験(Semantic Experiences)でAIと言葉遊びをしよう

Googleは自然言語の処理や合成で大量の研究開発をしているが、それらはアシスタント機能や音声認識/合成だけが目的ではない。その中には、AIの機能でできる範囲内での楽しいものもあり、そして今日(米国時間4/13)同社は、Webの閲覧者が言葉の連想システムで遊べる実験を発表した。

最初の実験は、膨大すぎて言及される機会も少ない本のデータベースGoogle Booksの、おもしろい検索方法だ。それは、言葉そのものでテキストやタイトルを探すのではなく、データベースに質問をする。たとえば、“なぜナポレオンは流刑になったのか?”(Why was Napoleon exiled?)とか、“意識の本質は何か?”(What is the nature of consciousness?)など。

すると、その質問の言葉と密接に結びついている文節が返される。結果はヒットもあれば空振りもあるが、でも良くできているし、柔軟性もある。ぼくの質問に答えるセンテンスは、必ずしもキーワードに直接関連していないし、とくにそれら〔物理的な言葉そのもの〕を探した結果でもない。

でも、それが人間と知識の内容が対話するとても分かりやすい方法か、というと、それは違うようだ。質問をするのは、答が欲しいからであり、質問と関係があったりなかったりするいろんな、互いに相反するような、引用を見たいのではない。だからぼくがこれを日常的に使うとは思えないけど、ここで使われているセマンティックエンジンの柔軟性を示す、おもしろいやり方ではある。しかもそれによって、今まで自分が知らなかった著作家に触れることができるが、ただし、データベースの収蔵書籍数は10万もあるから、当然、結果は玉石混交だ。

Googleが紹介している二つめの実験プロジェクトは、Semantrisというゲームだ。“なんとかトリス”というゲームは昔からどれも難しいが、これは超簡単だ。言葉のリストが表示されて、一つが高輝度になっている(下図)。それと関連があると思われる言葉〔連想した言葉〕をタイプすると、GoogleのAIが、関連性の強いと思う順に言葉を並べ替える。ターゲットの言葉を下に移動すると、一部の言葉が爆発して、新たな言葉がいくつか加わる。

これは、暇つぶしには良いかもしれないが、やってるうちに自分が、Googleの連想エージェントの訓練に使われるモルモットになったような気がしてくる。遊び方は、とてもやさしい。でも、水(water)からボート(boat)を連想しても、誰もすごいとは思わないね。でも、やってるうちに、だんだん難しくなるのかもしれない。ユーザーの応答がAIの訓練用データとして使われるのか、今Googleに問い合わせている。

プログラマーや機械学習のマニアのためには、Googleは訓練済みのTensorFlowモジュールをいくつか提供している。そしてそのドキュメンテーションは、このブログ記事の中のリンク先の二つのペーパーにある。

〔訳注: Googleはセマンティック検索の実現を目指して、これまで多くの企業〜スタートアップの買収を繰り返している。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

音声インターフェースがビジネス向けに進出中

会社の会議にAmazon Echo(要するに音声操作デバイス)を持っていく、というシナリオはどうだろうか? つまり今月の南部地区での売上の数字が必要になったとしよう。今までならノートパソコンを開き、Excelを忙しく操作することになったはずだが、その代わりにEchoに尋ねるだけでいい。デバイスは即座に数字を答えてくれる。

ビジネス・シーンの主流になるにはまだ距離があるとはいえ、こういうシナリオは次第に現実化しつつある。

Amazon Echo(やGoogle Home Mini)が普及するにつれ、人々はコンピューターを音声で操作することに慣れてきた。過去の例に照らしても、消費者の態度に大きな変化をもたらすような現象は、やがて、ビジネスの場にも現れることが確実だ。

キーボード、タッチスクリーンに加えて音声も利用するAIセールス・ツールのTactのCEO、Chuck Ganapathiによれば、「われわれが利用するデバイスに革新が起きている。今後は音声を利用することが理にかなった方向だ」という。「スマートフォンにマウスは付属していない。電話するときにいちいちキーボードで入力しようとは思わないだろう。スマートウォッチもそうだ。それどころかAlexaデバイスにはスクリーンも必要ない。デバイスとのコミュンケーションはこれまでに比べてはるかに直感的になる」とGanapathはいう。

先月末のAWS re:InventカンファレンスのキーノートでAmazonの最高技術責任者、ワーナー・ヴォーゲルズは「われわれはこれまでテクノロジー上の制約のせいでコンピューターとのコミュンケーションがひどく不便なものになっていた」と指摘した。Googleで何かを検索しようとすればキーワードをタイプ入力するしかなかった、それしか方法がなかったからだ、ヴォーゲルズはいう。

「今後のデジタル・システムとのインターフェースは機械の都合が優先されることはなく、人間が中心となっていく。人間が自然に持つ能力を中心としたインターフェースをデジタル・システムに設けることで環境のあらゆる部分が活性化される」という。

Amazonはもちろんこの方向を後押しすることに熱心だ。re:InventではAlexa for Businessがクラウド・サービスとして発表された。もちろん他のクラウド企業も音声機能をデベロッパーに提供し始めている。 ビジネス・サービスやアプリに音声サービスを組み込みたいからだ。

AmazonがAlexa for Businessで初めてビジネス・シーンを直接のターゲットする動きを示したのに対し、他のスタートアップはこれより早く、Echoをビジネスに統合する実験を行っている。たとえば、ビジネス・インテリジェンスとアナリティクスのツールを提供するSisense2016年6月に早くもEchoをインターフェースに採用している。

しかし大手クラウド事業者が提供するサービスがいかに魅力的でも、社内データを外部に出すことを好まない企業も多い。このことはさる11月にCiscoがSpark向けにVoice Assistant for Sparkを提供したことでも明らかだ。企業がインハウスで音声を利用できるようにするこのテクノロジーは5月に1.25億ドルで買収したMindMeldが開発したもので、ビジネスの会議で一般に必要とされるタスクを音声で命令できるようにするのが狙いだ。

また11月にはビジネス向け音声駆動ソフトとハードを開発するスタートアップのRoxyは220万ドルのシード資金を得ている。同社はまず手始めに接客を重要な要素とするサービス産業をターゲットとしている。もちろんRoxyの狙いはサービス産業にとどまるものではないが、同社が最初に得た貴重な教訓は、社内情報をAmazon、Google、Apple、Microsoftのような大手外部企業に渡そうとしない会社も多いということだった。多くの会社は顧客データや顧客とのやりとりを社内のみに留めておこうとする。こうしたニーズに対してRoxyが提供する音声インターフェースは有力なソリューションとなるだろう。【略】

2018年を迎えてこうした実験は有力クラウド事業者のサービスとしても、スタートアップ企業の独自のソフトウェアとしてもも数多く出てくるだろう。もちろんキーボードとマウスがいきなり無用となるということではない。しかし音声が便利な場面で音声をインターフェースに利用するというのは自然な成り行きだ。多くの場面で音声はタイプの手間を省き、コンピューターとのコミュンケーションをさらに自然なものとするだろう。

画像: Mark Cacovic/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Allen Institute for AIの科学文献インデクサーSemantic Scholarにバイオメディカルの論文数千万点が加わる

科学の文献を自然言語処理などのAIの技法を使ってインデクシングするプロジェクトSemantic Scholarが、これまでのコンピューター科学に加えて、バイオメディカル(biomedical, 生物医学)の研究文献数千万点を新たに加えた。これで、この、この有益なツールがカバーする分野がさらに増えたことになる。

Allen Institute for AI*が作ったSemantic Scholarは、これらのペーパーの全文をスキャンし、そのトピックや図表、キーワード(薬品名、臓器名など)などでそれらの関連付けを行う。〔*: Allen Institute for AI, Microsoftの協同ファウンダーPaul Allenが2013年に立ち上げ。〕

今日では大量の文献が毎日のように発表されていて、その蓄積量がますます膨大になりつつある。それらを適切にレビューすることは、一人の研究者だけでなく、チームでも不可能だ。6年前のペーパーにたまたま、ノルエピネフリンの製造過程における副産物の微弱な医薬効果が書かれているが、それがメインの発見ではなく、あるいは別の分野のジャーナルに載っていた、という場合、今の研究者はそれをどうやったら見つけることができるのか?

これら何百万ものペーパーを取り込んで、細かいことでも研究者が見つけられるようにするのがSemantic Scholarの目的だが、最近までそのシステムはコンピューター科学の文献に限定されていた。今回、いくつかのバイオメディカルの研究分野が加わったので、そこになたのペーパーもあるか、確認してみよう!

このWebツールの今回のアップデートにはUIの改良が含まれ、利用者の関心に即したトピックやタグが見つけやすくなり、また、各分野の最新の研究動向も分かるようになった。それによりたとえば、ユーザーが知らなかった新しい薬やテクニックが浮上してくることもありえる。

このツールは誰でも利用できるが、もちろん誰にとっても便利とは言えない。風邪薬を探していたり、あるいはあなたが古生物学者だったら、ここはあまり役に立たない。でも、今後対象分野が徐々に増えていくと、それも変わるかもしれない。

関連記事

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Rasa Coreはチャットボットのコンテキスト判断用機械学習モデルを人間参加の半自動で作る

会話を扱うコンピューターシステムにとっては、コンテキストがすべてだ。人間はそのことを意識しないけど、日常のとてもシンプルな会話でさえ、複雑なコンテキストの産物だ。会話システムが人間の能力になかなか追いつかないのも、コンテキストという難問があるためだ。しかしベルリンのRasaは、対話的な学習とオープンソースのコードを利用して、この会話するAIの問題を解決しようとしている。

そのRasa Coreというシステムのやり方は、多くのAIスタートアップと似ていて、Amazonの
Mechanical Turkのような人力サービスを利用して機械学習のモデルが持つ不正確さを修正する。ただしRasaが使うのはMechanical Turkではなく、誰でも参加できる方式で、開発中のボットと人が短い会話をし、それによりモデルを訓練しアップデートしていく。

人とボットが会話をする様子を、上の図で見ることができる。上図では「利息を比較する」にチェックが入っているが、それは、ユーザーが求めている確率がもっとも高いと思われるアクションだ。それを見た人間トレーナーは、正しい/正しくないで答える。その結果をモデルは学習し、次に同じ状況に直面したら、もうその質問をしない。

Rasaのチームによると、ボットが使い物になるまでに行う人間とのサンプル会話は、数十回で十分だ。しかし、もっとたくさんやれば精度は上がるし、ユーザーフレンドリーにもなるだろう。

“IBMがWatsonで作った会話モデルを見たけど、ちょっとがっかりした”、とRasaの顧客の大手保険会社Helveticaに勤務し、会話型AIのプロマネでもあるFlorian Nägeleは述べる。“決定木が一つだけで、コンテキストをほかの木に持っていけない”、と彼はWatsonについて言う。

Rasaのよいところは、訓練データなしで顧客が自力でモデルを作れることだ。理想的には誰もがサンプル会話の自分用の大きなコーパスを持っていて、それを使って会話システムを訓練することだが、技術スタッフのいない企業では、それも難しい。

Rasa Coreは、オープンソースとしてGitHub上にある。またRasa Coreと本誌が昨年12月に取り上げたRasa NLUには、企業向け有料バージョンもある。有料版には、アドミン用管理インタフェイスや、カスタマーサポート、テストの自動化、コラボレーションによるモデルの訓練、といったサービスが付随する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ニュースをAIに読ませて、全国の警官発砲事案を発見する

過去数十年間に、警察官に殺された人数が何人かと尋ねてみると、相手によってその結果は大きく異なる可能性がある。地方や連邦当局は、活動家並びに研究グループなどとはまた別のやり方で、それらを計算するかもしれない。そこで、警官の関わる死亡事故を、全国のニュースレポートからAIシステムに抽出させることで、より良い結果を得ようと試みるプロジェクトが登場した。

マサチューセッツ大学アムハースト校のBrendan O’Connorが指摘するのは、 事案の集計方法はところによって異なるものの、報道の曖昧性はとても少ないということだ。発砲の正当性は自体は論争になるかもしれないが、警官が発砲して誰かがを射殺したという基本的な事実を蔽い隠すことは難しい。もしコンピューターがそれらを発見することを学べれば、それは単純ではあるが有効な、全国的情報網として機能することだろう。

O’Connorとその同僚は、まず2016年のGoogle Newsのニュース記事から、警官(例えば “officer” や “cop” という単語が出てくる)または死亡(例えば “shot” や “died”)に言及しているものを抽出した。そしてこの結果から、重複や明らかなミスを取り除き、射殺に直接関連するテキストの部分(例えば「警察官BakerがJohn Doeに向け発砲し、Doeは死亡した」といった文)を特定した。

そして機械学習システムがこれらを用いて、警官に遭遇したことによって死亡した人びとのデータベースを構築しようと試みた。この訓練のための検証用データとして、研究者たちは、ジャーナリストのD. Brian Burghartが手作業で編集した、既存の警察関係の死亡事案データベースであるFatal Encountersを利用した。

システムが最も自信を持っていた20人の名前。偽陽性は容易に同定された。

結果として得られた学習モデルは、Fatal Encountersが2016年最終四半期に収集していた警官の発砲事案の、57%を発見することができた。その数字だけを聞くと、それほど有効なもののようには思えないかもしれないが、これはこの先有望な技術なのだ。より多くのデータとさらなる訓練によって、この数字はかなり増えて行くだろう。厳密なチェックを行なうBurghartのような人びとは依然として必要だが、現在の状態でもシステムはスピードアップの役に立つ。

実際このAIシステムは、論文の結論に記載されているように、単独での利用を想定されたものではない。

1つの目標は、私たちのモデルを半自動システムの一部として利用することだ。そこでは人間が、候補として挙げられたランキングリストを手動でチェックする。

AIの最高の応用方法は、人間要素を置き換えるのではなく、補完するものでなければならない。研究者たちは、もしこのシステムがもう少し進化したなら、ニュースから別の種類の事案を抽出するように調整することもできるだろうと語っている。例えば警官が命を救ったといったニュースの抽出だ。

著者らはこの論文を、コペンハーゲンで開催された計算言語学会2017で発表した

[ 原文へ ]
(翻訳:Sako)

Google CloudのNatural Language APIにタグ付けによるコンテンツ分類と物や場所(語)レベルの感情分析機能が登場

Google Cloudが今朝(米国時間9/19)、そのNatural Language APIのアップデートを二つ発表した。具体的には、ユーザーがコンテンツの分類機能と対象物の感情分析機能にアクセスできるようになったことだ。この二つの機能は、ブランドやメディア企業でとくに重宝するだろう。

まず、GCPのユーザーはコンテンツにタグ付けできるようになる。タグは、健康、エンターテインメント、法律など、一般的な話題だ(cc: Henry)。今日のアップデートで、ドキュメントを700のカテゴリーに分類できるようになる。

Googleによると、この機能は主に、メディア企業や出版企業がターゲットだ。これらの企業は大量のコンテンツを作り出していて、その整理整頓はきわめて難しい。そこでコンテンツ分類機能が、これまでの分類カテゴリーと突き合わせながら、そのドキュメントのコンテンツに自動的にタグ付けする。検索はタグでできるから、読者の最近のトレンドをより深く分析でき、便利だ。

一方、感情分析の方は、場所や物に付随している感情を解析する。これまでの感情分析は、テキストのブロックを構成しているセンテンスが対象だった。しかし今回の粒度の小さい分析によって、ユーザーは特定の語の感情を同定できる。そこでたとえばブランドは、製品や物理的な場所に結びついている一般大衆の気持ちや意見などを知ることができる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AIが王様を収穫したりオレンジを解錠しないためには常識の装備が必要だ

ぼくがあなたにリンゴを手渡したら、あなたは自分の経験から、それが運転できるものではない、とわかるだろう。そして、それが採れた木で織物を織れないことや、その種(たね)でテニスはできないことも、わかるだろう。人間なら、それがナンセンスだと分かるが、でもAIには、現実世界で何年も過ごしたという優位性がない。だから、何で何ができる・できないという知識もない。彼らに常識を持たせることも、できないのだろうか。

ブリガムヤング大学の研究者たちは、現実世界と対話する未来のアンドロイドやAI製品が、身の回りのいろんなものが、それぞれ何であり、何をするものかわかっているようにしたい、と考えた。

その研究のペーパーを書いた研究者の一人Ben Murdochは、ニュースリリースの中でこう述べている: “機械学習の研究者がロボットや人工知能のエージェントを、乱雑な環境に放置したら、ありとあらゆるクレージーなことをするだろう。いろんな物に対する、それで何ができるのか、という常識が完全に欠けているので、ロボットはテーブルを食べようとして何千時間も努力するだろう”。

そんな極端な例が頻繁に起きるわけではないけれども、話の主旨はそういうことだ。必要なものは、いろんな物と、それらと結びついている一般的なアクション〔ボール→投げる〕や属性〔レモン→黄色い〕を列挙したデータベースだ。それがあればロボットは、ダンベルが持ち上げる物であり、押す物ではないこと、重くて軽くないことを知るだろう。ロボットにそれを持ってくることや動かすことを命じたら、そのデータベースを参照して自分の行動を決める。

そんなデータベースや、少なくともプロトタイプを作るためには、まず手作業でデータを集めて整理しなければならない。…実際にそれをやると、途方もない時間がかかるだろう。そこで研究者たちは英語版のWikipediaのコーパスをコンピューターに食べさせ、何百万もの語彙をそれらのコンテキスト(文脈)と共に咀嚼(そしゃく)させた。そうすると簡単な数学的処理とクェリによって、リンゴは一般的に噛むものであり、椅子は座るものであり、木は登ったり揺すったりするものである、とわかるようになる。

AIがこれらのオブジェクトを対話的に操作しなければならないときには、これが上出来のカンニングペーパーになる。また、誰かがそれに対して/関してやってることや、話してることを、理解できるようになる。研究者たちはこのシステムを、テキストだけの短いアドベンチャーゲームで試してみた。カンニングペーパーあり、の方が、断然好成績だった。

常識は、最初に取り組むべき課題だ。ロボットを作るたびに、いろんなオブジェクトについて、して良いことといけないことを毎回教えるなんて、たいへんだからね。

チームはこの研究をInternational Joint Conference on Artificial Intelligenceで発表した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

TableauがClearGraphを買収、自然言語を使ってデータ分析が行えるようになる

ビジネスインテリジェンスと分析を提供するTableauは、本日(米国時間8月9日)ClearGraphの買収を発表した。ClearGraphは、自然言語によるクエリ(例えば「今週の500ドル以上の取引を取得」など)によって、膨大なビジネスデータのクエリとビジュアライズを行なうことのできるサービスだ。Tableauはこのテクノロジーを自社の製品に統合し、ユーザーたちがそうした自然言語による問い合わせを使ってデータのビジュアライズを簡単に行えるようにする予定だ。

ほとんどのエンタープライズ・データベースから情報を引き出すためには、通常SQLまたは類似のデータベースクエリ言語を理解する必要があるが、近年の自然言語処理と機械学習の進歩により、ClearGraphのようなサービスが、基盤となるデータベースについてより多くのことを理解し、与えられた文章をデータベースクエリに変換することができるようになった。MicrosoftのPower BIや他の競合企業が既にこの機能を提供していることを考えれば、Tableauがこれを検討していることは驚くべきことではない(とはいえTableauは、Microsoftなどとは異なり、クラウドや自社以外のオンプレミス技術には投資していなかったので中立だと主張している)。

実際、Tableauの最高プロダクト責任者であるFrancois Ajenstatは、そのサービスのための会話インタフェースを構築する内部プロジェクトを開始していたと語った。とはいえ、これを構築するためには、Tableauは多くのインフラストラクチャを構築しなければならなかったのだが、ClearGraphが既にこの作業をすべて終えていたのだ。

ClearGraphは2014年に設立され(以前はArgo、そして Arktosと呼ばれていた)、現在は多くの大企業も含む数十の顧客を抱えているという。顧客が誰であるかは明らかにされていないが(エンタープライズ分野では珍しいことではない)、Ajenstatによればその中には金融機関、小売業者、有名なインターネット企業が含まれているそうだ。Ajenstatが指摘するように、現在の企業は、より多くのデータを従業員たちからアクセス可能にするべく苦労を重ねているので、ClearGraphの顧客が幅広い分野にまたがっていることは驚きではない。

既存のClearGraphの顧客がすぐに変化に気が付くことはないだろう。しかし、時間がたつにつれて、Tableauはこの新技術を統合した後で、それらを自身のプラットフォームに移行する可能性が高くなる。

Ajenstatはまた、この新技術は、同社がより広範囲のユーザーにアプローチすることに役立つと考えている。「Tableauは使いやすさの点でトップクラスですが、企業内のデータを分析できるユーザーの数も増えています」と彼は語った。また、次の潜在的なユーザたちはカジュアルなユーザかもしれないが、彼らの質問は単純ではない、そここそがTableauが成功するために、ClearGraphの自然言語処理技術が役立つ場所だと考えられているところだ。

ClearGraphチームは、TableauのPalo Altoオフィスに合流し、その技術をTableauに統合することに集中する。

同社は買収価格の開示は拒否したが、ClearGraphは買収以前にAccel Partnersから合計153万ドルを調達していた。

[ 原文へ ]
(翻訳:Sako)

Google Analyticsに音声(+自然言語)で質問できるようになる…まず英語から

自分のWebサイトやアプリの利用状況を知りたくなったら、これからはGoogle Analyticsに直接尋ねることができる。

“先週はモバイルとデスクトップでどれだけトラフィックが違ったかな?”とか、“昨日の新規ユーザーは何名だっただろう?”、“先週はどこの国の人がいちばん多かったか?”、などなどを知りたくなったら、これまでのようにAnalyticsのダッシュボードを開いてチャートを操作しなくてもよい。

単純に、クェリをタイプしたり、大きな声で言うだけでよいのだ。プロダクトマネージャーのAnnissa Alusiが見せてくれたデモによると、まさしく、上の三つの質問*を言うと、それぞれ数秒後に答えのデータを見せてくれる。〔*: 質問…英語である… (1)“What’s the trend of mobile versus desktop traffic last week?”, (2)“How many new users did we have yesterday?”, (3)“What were our top countries last month?”〕

測定分析部門のシニアディレクターBabak Pahlavanによると、音声と自然言語による操作は、そう簡単に実装できるものではなかった。完成まで三年(三か月ではない!)を要し、GoogleがAndroidや検索ですでに使っている自然言語処理技術がなかったなら、もっともっと長くかかっていたであろう、と。

でもなんで、そんなに長期間かけて、こんな一見簡単なユーザーインタフェイスを実装しなければならなかったのか? ダッシュボードで十分じゃん。Googleの高邁な理念によると、ビジター数を知りたいなどの単純なデータニーズは顧客企業の各現場の一般社員が自分自身で簡単に満たせるようにして、データサイエンスの専門技術者を煩わせないようにしたい。彼らには、もっと高度なデータタスクを担当してもらいたい。 Pahlavanの説明によると、音声操作はデスクトップとモバイルの両方で使えるから、一般社員ユーザーは、会議が始まる前とか、これから顧客に会う前とかに簡単に、必要なデータを知ることができる。

Google Analytics voice

Alusiは曰く、“Analyticsのインタフェイスが良くなって、これまでよりもっと多くの人たちが利用できるようになる、という見方もできるわね”。

音声といっても、今のところ英語のみだが、この機能は明日から数週間かけて一般ユーザー向けに展開される。Googleの社内にはAnalytics Intelligenceと呼ばれるより総合的な企画があって、それによってGoogle Analyticsのデータをもっと分かりやすいものにしようとしている。音声と自然言語の導入はその一環だが、ほかにも、重要なインサイトやトレンドを自動的に高輝度表示にする計画などがある。

音声操作は今後、ユーザーフィードバックなどに鍛えられてますますお利口になっていくと思われるが、Alusiのプロマネ的視点によると、今は“何”(例: 何かの数値)を問う質問にうまく答えられるが、今後は“なぜ”に対しても答えていきたい、という。たしかに、“先月のインドからのトラフィックは前月比でどれだけ伸びたか?”、という質問だけでなく、“なぜそんなに伸びたのか?”という質問にも答えてほしいよね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

一般庶民の日常的法律問題を助けるDoNotPayの訴訟書式チャットボットがついに1000種を超えた

[画像: 駐車券問題の対応]

自作のチャットボットDoNotPayが駐車券争いで役に立ち、一躍話題になった19歳のJoshua Browderはそれ以来、できるだけ多くの、よくある法律的ニーズをできるかぎり自動化して、司法を民主化したいという彼のクェストに、さらに没頭を続けた。その結果Browderは、アメリカのすべての州とイギリスで、これから訴訟を起こす人びとの訴訟文書の作成を助ける、およそ1000種あまりのボットを作ってしまった。

最初のDoNotPayボットは、徐々に新しい機能を加えていくにつれて、何のためにどうやって使うのかわからない、と訴えるユーザーが増えてきた。そこで彼はその路線をやめて、個々の訴訟案件タイプごとのアシスタント機能をできるだけたくさん作り、フルサービスの消費者向け法律ツールとして出直すことにした。

今日ローンチした新しいDoNotPayは、庶民がぶつかるあらゆる法律問題…出産育児休暇を認めないブラック企業、家主地主の契約違反、などなど…で、誰でも訴訟用のトランザクションフォームを書ける。その1000以上あるボットは、自然言語で検索できるから、ユーザーが自分の問題を述べれば、DoNotPayが自動的に関連のアシスタントへ連れて行く。

Browderはこのツールを作るときに、関連書式や法律の地域(州〜国)ごとの違いが膨大で、しかもそれらに対応しなければならないと覚悟した。今のDoNotPayはユーザーの位置を自動的に確認して、その地域に合った適切な情報を提供する。

[世界初のボット弁護士が今や1000種の案件をさばく]
[お困りの問題はなんですか?]
[出産休暇を延長したいんです]
[それはたいへんですね.やり方をお教えしましょう]

ここまで大きくなれば、誰もがVCからの資金や、収益化について考えるだろう。でもBrowderはVCには目もくれず、自分の作品が無料であることにこだわる。彼は今Greylockの社員起業家だから、給料もアドバイスも会社からもらえるのだ。

今後は、結婚、離婚、倒産などもっと面倒な法律処理にも対応したい、と彼は考えている。IBMはDoNotPayに対し、Watsonの利用をタダにしてくれている。ユーザーが自然言語で検索できるために、Watsonが必要なのだ。そんな技術も自分で作りたいが、今のところ彼の関心はほかのところ…訴訟関連とユーザー対策…にある。

今Browderがとくに力を入れているのは、エンゲージメントの増大だ。今のユーザーは数か月に一回ぐらいのペースで利用しているが、利用頻度がもっと増えても平気で処理できるほどの能力を、システムに持たせたい。

それが達成できたら、収益化が視野に入るだろう。Browderは、今でも自分が何をやりたいのかはっきりしていない、というが、一応構想としてあるのは、一部のボットには企業をスポンサーにできる、ということだ。たとえば駐車券問題のボットには、自動車販売店がスポンサーになりたがるかもしれない。

DoNotPay(そんな金払うな!)の語源となった駐車券問題ボットでは、人びとの930万ドルを節約し、37万5000件の紛争を扱った。今や、社会を変えたといっても過言ではない。そのツールは、AIの必要性を人びとが自然に理解できる理想的なケーススタディだ。技術的に革命的なところは、何もなくってもね。

VCたちがIPに私権の鎧を着せて、独創的なアルゴリズムや機械学習の博士号を守ろうとするのは当然だが、でも結局のところは、世界に対するAIのインパクトの多くは、既存の技術をうまく利用する、彼のような熱心な自由人の発想から生まれるのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebook本社で犬種判別人工知能に挑戦――フリードランダーのJudah vs. the Machinesビデオ

人工知能を作るにはまずいろいろと教え込まねばならない。犬種を判別させるなら、見たところボロ雑巾みたいに見える犬も何という犬種なのか教える必要がある。

Judah vs. the Machinesシリーズはコメディアンで俳優のジュダ・フリードランダーが「人類を救うために人間が世界のトップ人口知能と対決する」という番組で、今回はFacebookの本社に応用機械学習チームを訪れた。

フリードランダーは サタデー・ナイト・ライブの内幕パロディーとして人気を博した NBC放映の30 RockシリーズのFrank Rossitano役が有名だ。フリードランダーはメンロー・パークのFacebook本社、1 Hacker Wayを訪問し、世界最大のテクノロジー企業で人々が働く様子を観察した。無料ランチなどFacebookの福利厚生を十分体験した後、フリードランダーは機械学習チームと対決した。といってもフェイクニュースやFacebook Liveのライブ配信に不適当なコンテンツを判別するために現に用いられている人工知能ではない。犬の種類を判別するコンピューター・ビジョンだ。

フリードランダーは応用機械学習チームの責任者、ホアキン・カンデラ(Joaquin Candela)からFacebookでの人工知能の利用について説明を受けた。自然言語理解についての会話ではFriedlanderは自分のアイディアをいくつか述べた。その後、犬種当て人工知能と対決したが、その様子は上のビデオご覧いただきたい。

FacebookのAIはもちろん完全ではない。しかし犬種の見分けに関してはフリードランダーを上回ることに成功した。おかしなことにフリードランダーとAIの双方を迷わせた犬種はプーリだった―マーク・ザッカーバーグの愛犬、Beastで有名な犬だ。 Facebookがなぜ人工知能に犬を判別をさせようとしているのかは不明だが、数秒で曲名を教えてくれるShazamのようなサービスが人気なら、犬を判別するバージョンがあってもいいのかもしれない。

Judah vs. the Machinesの他のエピソードはこちらから視聴できる

〔日本版〕ビデオでは0:48あたりから普段見る機会が少ないFacebookキャンパスが紹介されている。1:33から無料カフェテリアや広場に置かれたピンポン台などが紹介される。2:30から機械学習のチーフ、ホアキン・カンデラの話を聞いている。カンデラは「人工知能でFbの投稿を翻訳するのは難しい。きわめて多種類の言語が用いられている上にセンテンスにいきなり絵文字が使われたりする」と困難さを述べるとフリードランダーは「それでは絵文字言語を作ったらどうか?」と半分真剣な提案。「どの投稿を無視したかも情報となる」という説明に「Facebookはわれわれをスパイしているのか!」とジョーク。3:30から犬種判別チャレンジ。

[原文へ]

(翻訳:滑川海彦@Facebook Google+