Amazon Comprehendでは機械学習の技術とは無縁なデベロッパーでも専門用語で自然言語処理モデルを訓練できる

昨年Amazonは、自然言語処理のツールComprehendを発表した。それは情報のコーパスから、よく使われている語や語句を取り出し、ドキュメントを分類する。今日Amazonは同社のデベロッパーカンファレンスRe:inventに一週間先駆けて、Comprehendの機能向上を発表した。それにより機械学習の専門知識のないデベロッパーでも、専門用語や語句のリストを作るだけで機械学習のモデルを構築できる。

その機能アップを発表するブログ記事で、AmazonのディープラーニングとAIのゼネラルマネージャーMatt Woodがこう書いている: “本日Comprehendに新しいカスタム化機能を導入することを嬉しく思う。これによってデベロッパーは、Comprehendを拡張して自然言語で書かれている用語を見つけ、チームや企業や業界にとって専門的なテキストを分類できる”。

重要なのは、すべての複雑な処理をAmazonが面倒見るので、機械学習や自然言語処理の素養のないデベロッパーでも言葉のリストをシステムに与えるだけで、テキストからそれらの語を検出/取り出しできるようになることだ。Woodは書いている: “カスタマイズされた機械学習のモデルを構築、訓練、そしてホストする重労働はすべてComprehendが行い、これらのモデルをプライベートなAPIでデベロッパーが利用できるようにする”。

これには、二つの部分がある。まず、デベロッパーは専門用語などのリストを作る。それは、たとえば法律事務所なら法律用語、自動車会社なら部品番号のリストだったりするだろう。デベロッパーがすることは、これらの用語のリストを公開するだけだ。Comprehendがカスタマイズされた言葉を見つけることを学習し、そのリストに基づくプライベートでカスタマイズされたモデルを作る。

第二の部分は、分類のカスタマイズだ。言葉のリストを作ったら、次は、それらの用語が現れる論理(ロジック)のリストを作る。それについてWoodは、こう書いている:

“言葉の用例がわずか50件でも、Comprehendはカスタムの分類モデルを自動的に訓練し、それを使ってユーザーのドキュメントを各カテゴリーに分類する。たとえばカスタマーサポートのメールを、担当部門ごとにグループ化したり、ソーシャルメディアのポストを製品別に分類、あるいはアナリストの報告書を事業部別に分類したりできるだろう”。

これらの雑多で大量のドキュメントは、カテゴリー分けして初めて役に立つし、適切な担当者にそれを渡したり、あるいはアプリケーションがプログラムの一環として利用したりできるようになる。

Comprehendはユーザーに、カスタマイズされた機械学習のモデルを作る方法を、上述のようなごく単純な方法として提供し、楽屋裏の細部は自分でやる。一般的に言っても、クラウド企業は複雑難解なものを単純化して、専門的な知識や技能のないデベロッパーでも一連のサービスを利用できるようにする。Comprehendの場合は、機械学習の知識のない者がカスタマイズされたモデルを作れる方法を提供する。

Comprehendのこの新しい機能は、今日(米国時間11/19)から利用できる。

〔参考記事
Amazon Comprehend日本語ドキュメンテーション(1)
Amazon Comprehend日本語ドキュメンテーション(2)
Amazon Comprehend用例解説(1)
Amazon Comprehend用例解説(2)
「amazon comprehend 日本語」でググると、さまざまな日本語ドキュメンテーションが出てきます。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

企業のクラウド化を助けるServiceNowが自然言語検索のFriendlyDataを買収、データ駆動の裾野を広げる

企業のクラウドサービスの導入や管理を助けるServiceNowが今日(米国時間10/10)、FriendlyDataの買収を発表した。これにより同社のNowプラットホーム上のアプリケーションが、自然言語による検索をできるようになる。2016年に創業されたFriendlyDataの自然言語クエリ(natural language query, NLQ)技術により、企業顧客は、専門用語を知らないユーザーでも技術的な質問ができる検索ツールを、作れるようになる。

FriendlyDataのNLQ技術は、ユーザーが何を言おうとしているのかを推察し、答をテキストや、分かりやすい視覚化データで提供する。ServiceNowによると、同社はFriendlyDataの技術をNow Platformに統合して、そのサービスメニューの充実を図る。同プラットホーム上には今、企業のITや人事、セキュリティ、カスタマーサービスの管理、などのアプリケーションがある。FriendlyDataの技術は、デベロッパー用のプロダクトや、ServiceNowのパートナーからも利用できるようにする。

ServiceNowのdevops担当SVP Pat Caseyが、声明で述べている: “ServiceNowはNow PlatformにNLQを導入して、企業が技術的質問を日常的な英語でできて、答をすぐにもらえるようにする。これによって誰もがデータに基づく意思決定をできるようになり、生産性の向上と企業のより速い成長に資することができる”。

ServiceNowはこれまでも、さまざまなAIツールで企業顧客におけるサポート業務の円滑化を図ってきた。FriendlyDataの買収も、その一環だ。たとえば同社は5月に、チャットボット構築ツールVirtual Agentを立ち上げたが、これによって同社の企業顧客は、SlackやMicrosoft Teamsのようなツールを内製でき、機械器具の購買リクエストなど、ルーチンのインクワイアリを自動的に処理できるようになる。同じ時期に同社は、チャットボットにNLP(自然言語処理)を導入しているParloを買収した

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Siriが地元の変わった名前の店も認識できるようになった

近くのスターバックスやTargetストアへの道順を教えることはAppleのバーチャルアシスタントが得意とするところだ。しかし、Siriは自分が聞いたことのない地元の店を別のフレーズやユーザーの言い間違えと誤解することがある。Appleはこれを解決するために、Siriの知らない超ローカルな名前のライブラリを作り、”Godfather’s Pizza” を ”got father’s piece” と聞き違えないようにする。

音声認識システムは膨大な量のデータを使って訓練する必要があるが、それによって文の解析やフレーズ認識の能力は高まるものの、ユーザーや友達がいつも使っている語彙を理解できるとは限らない。

私が友人に向かって “let’s go to St. John’s for a drink” と言えば、彼らは私が中西部の大聖堂ではなく、近くのバーを指していると理解する。しかしSiriにはそれを知る術がない——それどころか “St. John’s” がひとつのフレーズであることを認識できなければ、私がまったく別のことを言ったと思うかもしれない。入力ボックスにテキストをタイプするのとは違い——あれは文字列の一致をみるだけ——Siriはユーザーの発した音声から最善の予測をしなくてはならない。

しかし、もしSiriがシアトル地域のことを知っていれば、誰かが “St. John’s” と言えばバーのことだろうとわかるので、苦労して考えたり聖人(saint)の候補リストから選んだりすることなく、すばやく正確に反応できる。それがAppleの最新研究の結果だ。今は英語のみだが、多言語への対応も時間の問題だろう。

このためにAppleの音声認識チームは、Appleマップのローカル検索結果を使って「関心のある場所」を取り出した。人は場所を探すとき「いちばん近くの~」や「~への道順は?」などと聞くので識別できる。

こうした関心のある場所は、Taco Bellなどの全国チェーンを除けば地域に特化した場所を表す。シアトルのハンバーガー好きなら、一番近くにあるDick’s Drive-inを調べるだろう(実際にはどこにあるか知っているが)。ロサンゼルスなら、もちろんIn-N-Outだ。しかしピッツバーグの人はどちらも探すことはない。

Appleはこの地域情報を、米国国勢調査局が定義した169の「大都市統計地域」に分けた。これらの地域に特化した店などの名称は、Siri が使う主要な言語モデル(LM)ではなく、ユーザーが関心のある場所を探すフレーズ(「いちばん近い~はどこ?」や「~への道順は?」など)を使ったときに用いる小さな補助モデル(Geo-LM)に登録される。

このため、”who is Machiavelli” と言ったときには、人名のMachiavelliに関する答えが返ってくるが、” is Machiaveli’s” と言えば、システムはGeo-LMを使って地元の関心スポットリストにMachiavelli’sが載っているかどうかを調べる。こうしてSiriは、マキャヴェリ氏が投獄されていた場所ではなく、レストランへの道順を答えるべきだとわかる。

こうすることで、最大25~30%だったエラー率は10~15%へと大幅に減少した。これは3回中2回しか正しい結果が得られなかったものが、10回中8~9回になることを意味している。Siriが繰り返しユーザーの欲しいものを理解できなくて、使うのを諦めてしまうことを防ぐ可能性のある質的改善だ。

この方法のすばらしいところは、比較的容易に多言語にも拡張できることだ。スペイン語でも韓国語でも、十分なデータさえあれば使えない理由はない。その意味では、Siriが隠語の多い業界人向けに特化した語彙ライブラリーを作ってくれれば、スペリングエラーを減らすことができるだろう。

機能はすでに公開されているので、今すぐテストできるはずだ。あるいはすでに使っていて気づいていないだけかもしれない。

[原文へ]

(翻訳:Nob Takahashi / facebook

Googleのセマンティック体験(Semantic Experiences)でAIと言葉遊びをしよう

Googleは自然言語の処理や合成で大量の研究開発をしているが、それらはアシスタント機能や音声認識/合成だけが目的ではない。その中には、AIの機能でできる範囲内での楽しいものもあり、そして今日(米国時間4/13)同社は、Webの閲覧者が言葉の連想システムで遊べる実験を発表した。

最初の実験は、膨大すぎて言及される機会も少ない本のデータベースGoogle Booksの、おもしろい検索方法だ。それは、言葉そのものでテキストやタイトルを探すのではなく、データベースに質問をする。たとえば、“なぜナポレオンは流刑になったのか?”(Why was Napoleon exiled?)とか、“意識の本質は何か?”(What is the nature of consciousness?)など。

すると、その質問の言葉と密接に結びついている文節が返される。結果はヒットもあれば空振りもあるが、でも良くできているし、柔軟性もある。ぼくの質問に答えるセンテンスは、必ずしもキーワードに直接関連していないし、とくにそれら〔物理的な言葉そのもの〕を探した結果でもない。

でも、それが人間と知識の内容が対話するとても分かりやすい方法か、というと、それは違うようだ。質問をするのは、答が欲しいからであり、質問と関係があったりなかったりするいろんな、互いに相反するような、引用を見たいのではない。だからぼくがこれを日常的に使うとは思えないけど、ここで使われているセマンティックエンジンの柔軟性を示す、おもしろいやり方ではある。しかもそれによって、今まで自分が知らなかった著作家に触れることができるが、ただし、データベースの収蔵書籍数は10万もあるから、当然、結果は玉石混交だ。

Googleが紹介している二つめの実験プロジェクトは、Semantrisというゲームだ。“なんとかトリス”というゲームは昔からどれも難しいが、これは超簡単だ。言葉のリストが表示されて、一つが高輝度になっている(下図)。それと関連があると思われる言葉〔連想した言葉〕をタイプすると、GoogleのAIが、関連性の強いと思う順に言葉を並べ替える。ターゲットの言葉を下に移動すると、一部の言葉が爆発して、新たな言葉がいくつか加わる。

これは、暇つぶしには良いかもしれないが、やってるうちに自分が、Googleの連想エージェントの訓練に使われるモルモットになったような気がしてくる。遊び方は、とてもやさしい。でも、水(water)からボート(boat)を連想しても、誰もすごいとは思わないね。でも、やってるうちに、だんだん難しくなるのかもしれない。ユーザーの応答がAIの訓練用データとして使われるのか、今Googleに問い合わせている。

プログラマーや機械学習のマニアのためには、Googleは訓練済みのTensorFlowモジュールをいくつか提供している。そしてそのドキュメンテーションは、このブログ記事の中のリンク先の二つのペーパーにある。

〔訳注: Googleはセマンティック検索の実現を目指して、これまで多くの企業〜スタートアップの買収を繰り返している。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google Analyticsに音声(+自然言語)で質問できるようになる…まず英語から

自分のWebサイトやアプリの利用状況を知りたくなったら、これからはGoogle Analyticsに直接尋ねることができる。

“先週はモバイルとデスクトップでどれだけトラフィックが違ったかな?”とか、“昨日の新規ユーザーは何名だっただろう?”、“先週はどこの国の人がいちばん多かったか?”、などなどを知りたくなったら、これまでのようにAnalyticsのダッシュボードを開いてチャートを操作しなくてもよい。

単純に、クェリをタイプしたり、大きな声で言うだけでよいのだ。プロダクトマネージャーのAnnissa Alusiが見せてくれたデモによると、まさしく、上の三つの質問*を言うと、それぞれ数秒後に答えのデータを見せてくれる。〔*: 質問…英語である… (1)“What’s the trend of mobile versus desktop traffic last week?”, (2)“How many new users did we have yesterday?”, (3)“What were our top countries last month?”〕

測定分析部門のシニアディレクターBabak Pahlavanによると、音声と自然言語による操作は、そう簡単に実装できるものではなかった。完成まで三年(三か月ではない!)を要し、GoogleがAndroidや検索ですでに使っている自然言語処理技術がなかったなら、もっともっと長くかかっていたであろう、と。

でもなんで、そんなに長期間かけて、こんな一見簡単なユーザーインタフェイスを実装しなければならなかったのか? ダッシュボードで十分じゃん。Googleの高邁な理念によると、ビジター数を知りたいなどの単純なデータニーズは顧客企業の各現場の一般社員が自分自身で簡単に満たせるようにして、データサイエンスの専門技術者を煩わせないようにしたい。彼らには、もっと高度なデータタスクを担当してもらいたい。 Pahlavanの説明によると、音声操作はデスクトップとモバイルの両方で使えるから、一般社員ユーザーは、会議が始まる前とか、これから顧客に会う前とかに簡単に、必要なデータを知ることができる。

Google Analytics voice

Alusiは曰く、“Analyticsのインタフェイスが良くなって、これまでよりもっと多くの人たちが利用できるようになる、という見方もできるわね”。

音声といっても、今のところ英語のみだが、この機能は明日から数週間かけて一般ユーザー向けに展開される。Googleの社内にはAnalytics Intelligenceと呼ばれるより総合的な企画があって、それによってGoogle Analyticsのデータをもっと分かりやすいものにしようとしている。音声と自然言語の導入はその一環だが、ほかにも、重要なインサイトやトレンドを自動的に高輝度表示にする計画などがある。

音声操作は今後、ユーザーフィードバックなどに鍛えられてますますお利口になっていくと思われるが、Alusiのプロマネ的視点によると、今は“何”(例: 何かの数値)を問う質問にうまく答えられるが、今後は“なぜ”に対しても答えていきたい、という。たしかに、“先月のインドからのトラフィックは前月比でどれだけ伸びたか?”、という質問だけでなく、“なぜそんなに伸びたのか?”という質問にも答えてほしいよね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleがRaspberry Pi用のAIツール/ライブラリの提供を充実、TensorFlowも

pi3_angled_web

Googleは今年、人気の高いマイコンボードRaspberry Piを使っているメイカーたちのプロジェクトをパワーアップするために、開発ツールの充実を進める。それらは、顔認識、情動認識、音声のテキスト変換、自然言語処理、感情分析、予測分析などのソフトウェアツールだ。

今Googleは、Piメイカーへのアンケート調査で、彼らが欲しいと思っているツールを探っている。そのアンケートは、Raspberry Pi FoundationのWebサイトで見られる。

“Googleの関心は、メイカーたちのためのスマートツールを作ることであり、そのためには、みなさんの要望をお聞きする必要がある”、とアンケートは述べている。

アンケートの回答者は、まず関心分野を選ぶ: ホームオートメーション、ドローン、IoT、ロボット、3Dプリント、ウェアラブル、そして機械学習。Googleの対象が相当広いことが、これらからも分かる。

Piの協同ファウンダー、Eben Uptonはこう語る: “大きな機会がありそうなのは、ディープラーニングとAIだ。Googleはこの分野でとても強い、とくにDeepMindを買収してからはね。現実世界のさまざまな仕事をするRaspberry Piを、それらのサービスに結びつけると、もちろんいろんなメリットがあるだろう。ユーザーが何を志向しているのか、アンケート調査の結果を早く見たいね”。

イギリスの非営利団体であるPi Foundationは、この安価なマイコンキットで大成功し、昨年9月には1000万台を突破した。4年半前に最初にリリースしたときには、全部で数千台も売れれば十分、と彼は予測していた。

今ではPiメイカーたちのための開発ツールも豊富にあり、たとえば顔認識のプロジェクトなら、OpenCVのコンピュータービジョンライブラリを使える。

しかしGoogleが提供するのは、いろんなAIツールのセットであり、ユーザーもいろんなタイプのプロジェクトに容易に取り組める。たとえば機械学習のためのオープンソースのライブラリTensorFlowも、元々はGoogleで作られたツールだ。

Googleは前からPiに関心を持ち、2013年には100万ドル相当ぶんのこのマイコンをイギリスの15000名の学童にプレゼントした。多くの若者がプログラミングできるようになることは、Pi Foundationの中核的ミッションであると同時に、Googleにとっても重要なことだからだ。

またGoogleは以前、PiをベーシックなWebサーバーにするためのオープンソースツールを開発した。そしてGoogleのIoTプラットホームAndroid Thingsは、最新最強のPi、Pi 3をサポートしている。

AndroidのPi用公式バージョンはまだないけど、AndroidをPiの上で動かす方法はいろいろある(やや制約はあるが)。Googleが本物の実装に取り組んでいるらしい兆候もある。

それについてUptonはこう言う: “公式のAndroidに関するニュースはないけど、うちの社内のソフトウェアプラットホームとしてはPIXELとRaspbianに前から一貫して力を入れている”。

Googleのスポークスパーソンは、Piの開発ツールについてまだとくに詳しい情報はないけど、“今後とも、さらに多く、オープンソースの機械学習ツールをPiのコミュニティと共有していけることは、すばらしい。今年はもっといろいろあると思うから、ずっと見ていてほしい”、と語った。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

その言葉は本気かそれとも皮肉か?、ニューラルネットワークがそれを見つける

shutterstock_94007068

テキストによるコミュニケーションには、皮肉やジョークを本気と読み誤る危険性がある。誰にも、その被害者や加害者になった経験があるだろう。そのことに相当懲りたポルトガルの研究者たちは、ニューラルネットワークを利用して、話者の意図が皮肉や嫌味であることを、判断しようとしている。

それは、日常の会話における誤解を防止することだけが目的ではない。コンピューターがメッセージのトーンと意味を正しく判断することは、いろんなことで重要だ。

たとえば、今のコンピューターには正しい感情分析ができない。誰かが何かを好きとか嫌いとか言ったとき、それが冗談か本気かを、事前に人間が知っていなければならない。英語の日常会話で頻用される感嘆詞”great!”も、それが本気か、それとも幻滅を意味する皮肉かを、未来のコンピューターの自然言語処理は正しく見分けなければならない。

でもそれは、容易な問題ではない。まったく同じ文や句読点が、話者が違えばまったく違う意味を表すこともある。たとえば、“Make America great again”(アメリカを再び偉大にしよう)を、Trumpの支持者と彼に反対する者がツイートしたら、それぞれどんな意味になるか。同じ語が、まったく違う意味を持ってしまうのだ。

研究者の一人、リスボン大学のSilvio Amirがこう書いている: “話者の意図が皮肉であることを見分けるには、語彙の意味だけでは不十分である。言葉というものを持つ人間の場合ですら、発話のコンテキスト(文脈)を正しく認識することが不可欠だ”。

彼らの論文が記述しているコンテキストの把握方法は、ニューラルネットワークを使って話者の“埋め込み(embeddings)”*を見つける。それは、コンテキストの鍵となる別の発話内容で、たとえば前のツイートの内容、関連する関心事や別の発話などだ。これらのさまざまな要素を使って話者と他者の関係や立ち位置を判定し、また(できれば)彼らが形成している集団の性質〔例: ジョークを言い合える関係〕を見つける。〔*: embeddings, 埋め込み, 言語学の概念で、発話Aの中に別の発話Bが埋め込まれていること。〕

たとえば、下の小さな雲状グラフは、Twitterの上の、政治家たちとフォロワーの関係を表している。

chart_twittersarc

同じひとつの雲に属するある人のツイートの感情が、多数のフォロワーたちのそれと一致しないときには、それが皮肉である可能性が高い。

この方法にさらに、皮肉を暗示しているテキストの要素を組み合わせると、これまでの方法に比べてやや高い確度で皮肉を見分けられるようになった。‘やや’というのは、従来の方法で85%だった確度が、約87%まで上がった、という意味だ。しかしニューラルネットワークはいったん動き出せば人間による構成や監視の労力があまり要らないので、さまざまなソーシャルネットワークの上でデプロイできるよう拡張するのも、比較的容易だろう。

普遍的な皮肉検出システムは、まだまだ遠い先の話だが、でも不可能ではない。来月行われる、コンピューターによる自然言語学習のカンファレンスCoNLLで、Amirらのペーパーがプレゼンされる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

テキストの目的効果パフォーマンスを分析するTextioが$8Mを調達、TwitterやMicrosoftもユーザだ

textioscreenshot

TextioのCEO Kieran Snyderは大学で、定量的言語学研究を専攻した。だから彼女と協同ファウンダのJensen HarrisがMicrosoftを去って新しい会社を始めたとき、それが言語を軸とする企業になったのも、当然の成り行きだった。

かくして、一定の状況における、テキスト中の語句のパフォーマンスを分析するスタートアップTextioが誕生した。同社は今日(米国時間12/16)、Emergence Capitalが率いるラウンドで800万ドルを調達したことを発表した。Cowboy VenturesとBloomberg Beta、およびUpside Partnershipがこのラウンドに参加した。

Snyderは語る: “テキスト中の語句の処理は相当長らくディスラプトされていない、と前から感じていた。コンピュータ処理のユーザインタフェイスはコマンドラインからGUIに変わったけれども、処理の中身が変わっていない。インターネットがやってきて、ソーシャルとか共有の時代になった。そのことをベースに、AIとその関連技術が、テキストに対する次の大きなディスラプターになるだろう。ドキュメントのパフォーマンスが発表前に分かれば、それを直してから発表できるようになる”。

Textioの最初のツールは、人材獲得、たとえばジョブポスティング(job postings, 求人票, 求人広告)のためのドキュメントが対象だ。それらのドキュメントのパフォーマンスとは、良い人材がたくさん集まるかどうかだ。言葉を適切に選び、良いレイアウトをすれば、多くの求職者の関心を集めることができる。そこで同社のサービスは、ドキュメントに対する予測的分析を行う。たとえばそのツールでは、要点が箇条書きになっているジョブポスティングは、文章だけのよりもパフォーマンスが良い、という結果が出ている。

もちろん、テキストのパフォーマンスは、メールや履歴書など、そのほかのドキュメントでも重要だし、Textioのツールが十分に使える分野だ。いろんな文書に対して、テキストの効果を採点する技術を応用できることが、投資家にとって、同社の魅力だ。

そして、もうひとつ、投資家にとって価値があるのは、同社の顧客だ。Textioはすでに、Twitter, Atlassian, Starbucks, Square, それにMicrosoftなどが利用している。自然言語処理(Natural Language Processing, NLP)の技術は…出来の良いものであれば…応用範囲がきわめて広いから、投資家という蜂たちにとっては、蜜の豊富な花なのだ。

Textioの予測的分析技術は、6万あまりの語句(語とフレーズ)を認識する。Snyderによれば、そのデータ集合は継続的な運用を通じてコンスタントに変化している。この技術はたとえば、語の並びを分析する(“このフレーズは動詞が重い(難解である)”とか)。ドキュメントの構文関連の特性も分析する。それらの分析結果を合わせて、現状のドキュメントを採点し、そのドキュメントが目的をどれぐらい達成しそうか、を評価する。

Textioは言語学の専門家が使うわけではないから、使いやすさが重要だ。だからドキュメントの評価を文章ではなく高輝度表示やドロップダウンボックスを利用して行う。ユーザはNLPの専門家でもないから、このツールの舞台裏で統計学が活躍していることも、ユーザはあまり感じていないようだ、とSnyderは言っている。

もちろん、NLPは昔も今もコンペティタが多い分野だ。大物ではIBMのWatsonがテキストの分析もやるし、そのAPIを上手に使えばTextioと同じようなことができるだろう。しかしSnyderがTextioの強みとして挙げるのは、技術の、コンテンツタイプ別のチューンナップだ。たとえば上述の、人材獲得用ドキュメントの場合のように。

[原文へ]。
(翻訳:iwatani(a.k.a. hiwa)。

言語処理は学歴よりも言葉に対する実践的な能力が鍵と信ずるAylien, テキスト分析サービスをAPIで提供

テキストを扱うことは、プログラマにとって往々にして面倒な仕事だ。コードは曖昧であってはいけないが、テキストは曖昧性のかたまりであることが多い。そこでかねてから、AlchemyThomson Reutersといったあたりが自然言語処理(NLP)と機械学習のアルゴリズムを利用するサービスを提供して、文書からもっと容易に意味を取り出せるように、デベロッパの仕事を助けてきた。今回ご紹介するAylienも、独自のテキスト分析APIでこの競技に参戦してきたが、同社の場合それは、これから提供していく一連のデベロッパサービスの第一弾となるものだ。

サービスのファウンダはダブリン(アイルランド)のParsa Ghaffariで、Chinaccelerator支援している。Ghaffariによると、最初にこのアクセラレータ事業に応募したときには、NLPを使って今書いている文書から有意データを自動的に取り出すプロダクト、というアイデアを抱えていた。ところが、そのために利用できる基本技術がまだ存在しないことが分かった。そこで彼は基本技術の構築から始めることにし、そのための3年の努力の末、Aylienの立ち上げにたどり着いた。

デベロッパはこのAPIを使ってドキュメントから見出しや本文を素早く取り出すことができるが、そのほかに要約機能や、エンティティとコンセプトを取り出す機能、言語や感情の検出機能などがある。私の場合、個人的なプロジェクトにこのAPIを使ってみる機会が二度あったが、一部の例外を除いては、だいたい同社の効能書きどおりの仕事をしてくれた。ただし今のところ得意なのは英語のテキストだけで、たとえば、Googleのストリートビューの最近の拡張について書いたこのドイツ語の記事を、Aylienは100%の確信をもって、スポーツのカーリングに関する記事だ、と主張した*。同社は今、英語以外の言語のサポートに関しては‘鋭意努力中’である。〔*: カーリングではなくGoogle Mapsとホッキョクグマの保護に関する記事。同趣旨の英語の本誌記事に対してAylienは、‘自然科学-地理学’とラベルした…それは‘カーリング’ほど見当外れではない(笑)。たしかにGoogle Mapsは、地理の化け物だ。〕

このサービスを試用してみたい人は、ここへ行って、AylienのAPIデモに、何らかのテキストドキュメントのURLを与えてやるとよい。

データはすべてJSONで返され、同社はMashapeを、APIの有料利用のための窓口としている。ただしAPI呼び出しが1日に1000回未満なら無料だ。それ以上だと、1日6000回までが199ドルなどと課金される。既存の同種APIに比べると、やや安いと言える。

今Aylienは、ファウンダも含めて技術者3人だけの会社だが、PhD(博士号)の保有者は一人もいない。NLPのスタートアップとしては、かなり異例だ。Ghaffariは学術的学問的なNLPの世界と無縁ではないが、彼は、同社のような言葉に対する実践的なアプローチの場合、学歴はあまり役に立たない、と確信している。

同社の次のプロジェクトは、ニュース記事をフィルタするnews APIだ。またデベロッパサービスのために作ってきた技術を、いくつかの消費者向けプロダクトに応用することにも取り組んでいる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


未来派プロセッサも含め全社をAI色に染め上げたいIntelが今度は自然言語認識のIndisysを買収

【抄訳】

Intelは、最近の同社において著しい、人工知能指向の姿勢を一層強化するために、ひそかに国際的な買収を行った。Intelがこのほど買収したIndisysはスペインのスタートアップで、自然言語の認識を専門とする。買収の条件は公表されていないが、噂では2000万ユーロよりも上、ということらしい。今回の買収のわずか2か月前には、IntelはイスラエルのジェスチャインタフェイスメーカーOmekを買収している(推定額4000万ドル)。

Intelは本誌に対してこの買収を確認し、社員も大半がIntel社員になる、と言った。広報がくれたメールには、こう書かれている:

“Intelはスペインセヴィルの非公開企業Indisysを買収した。Indisysの社員の大半はIntelに入社した。買収の合意は5月31日に成立し、このたび買収事務のすべてが完了した。”

価額など買収の条件については、“この取引の金額的な側面はIntelにとって重要でない”、ということだ。IndisysのCEOだったPilar Manchonは今、サンタクララにあるIntelのR&D部門にいる。

Intelの目当てが、どの技術、あるいはどの製品にあったのかも明らかでないが、“Indisysには計算機言語学、人工知能、認知科学、および機械学習に関する深い経験があるが、IntelがIndisysの技術を今後どのように利用していくかについて、現時点では詳細を明らかにできない”、と広報のメールは言っている。でもこの点に関しては、自明な事案がすでにいくつかある(後述)。

本誌宛のIntelの声明の前に、スペインの新聞には同社の初期の投資家Inveready社のニュースリリースが載り、その中でIntelへの売却が告げられていた。

Invereadyは今回の件についてはノーコメントだったが、これまで、スペインのスタートアップの出口を多く扱っている。たとえば同社が投資したPasswordBankは、Symantecが2500万ドルで買収した。なお、IntelのVC部門Intel Capitalも2012年に500万ドルのシリーズA資金をIndisysに投資している

セヴィルに本社のあるIndisysの対話システムは、小売大手のEl Corte Inglesや保険企業グループMapfre、銀行大手BBVAなどが、Webとモバイルの両方で利用している。

Indisysは自然言語認識技術を開発しているが、Siri的なインテリジェントアシスタント(intelligent assistant, IA)とその対話的インタフェイスも作っている。上の画像の”Maya”も、そんな“アシスタント”の一人だ。航空機メーカーのBoeingは同社のAtlantisと呼ばれるプロジェクトにIndisysのIA技術を採用し、無人機の操縦インタフェイスを作っている。

これまでの顧客は、多くがスペイン企業だが、同社はすでに多言語技術を開発している。Indisysの説明によると、“IAは人間のイメージであり、それが常識を伴って、複数のプラットホーム上および複数の言語で流暢に会話をする”、というものだ。

タッチインタフェイスのOmekを買収したことと合わせて考えると、今回の買収の目的は二つに絞られるだろう。ひとつは、“触(さわ)れる技術”を基盤とし、言語インタフェイスを人工知能が支える3Dによる視覚化。そしてもう一つは、音声(+言語)認識技術を同社の将来のプロセッサ事業に統合することだ。

今週初めにIntelが発表した自然言語ベースのジェスチャーデバイスにも示されているように、IntelはNuanceのようなサードパーティの技術をライセンスするという噂とは逆に、相次ぐ優良物件の買収による、自社技術の未来志向的な進化に、社運を託しているのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))