Facebookのテキスト分類ライブラリfastTextがモデルのサイズを縮減してモバイルにも対応

今朝(米国時間5/2)、Facebookの人工知能研究所(Facebook AI Research, FAIR)が、同社の超高速でオープンソースのテキスト分類ライブラリfastTextのアップデートをリリースした。発表された当初のfastTextは90の言語の語ベクトルで訓練されていたが、今回のアップデートで295言語になる。また、モデルのサイズ、ひいてはメモリの必要量を抑える工夫が盛り込まれている。

fastTextのようなテキスト分類機能があれば、言語分析に依存する多国語ツールの開発が容易になる。クリックベイト(釣りネタ)のタイトルを見つけたり、スパムをフィルタするためには、言葉を解釈して分類する機能が必要だ。

fastTextは元々、対応ハードウェアの種類や性能を問わない、という設計だったが、でも、実行には数ギガバイトのメモリを要した。高度なハードウェアを贅沢に使える研究所ならそれでもよいが、モバイルでそれをやるのは、到底無理だ。

でも今回は、Facebookのもうひとつのオープンソースプロジェクト類似性検索(Facebook AI Similarity Search, FAISS)とのコラボレーションで、メモリの必要量を数百キロバイトに抑えることができた。FAISSは、大量のデータを扱うことにどうしても伴うメモリの問題を、部分的に解決している。

膨大な量の情報のコーパスは、多次元のベクトル空間でうまく表現できる場合が多い。Facebookなど多くの企業が、これらのベクトルの比較をコンテンツとユーザー選好を比較するために最適化しているが、コンテンツを他のコンテンツと比較することも重要だ。そのためにFAISSのチームが導入した方法が、fastTextのメモリ要量の縮減に大きく寄与した。

“特徴枝刈り(feature pruning)や量子化、ハッシング、再訓練など、いくつかのテクニックを使ってテキスト分類モデルのサイズを、よく使われるデータ集合で訓練したときには100KB未満に縮小することができた。正確さやスピードは、犠牲にしていない”、とFacebookの研究者たちは2016年12月のペーパー“fastText.zip: Compressing Text Classification Models”で述べている。

その研究者たちは、今後はさらなるモデルサイズの縮減が可能だ、と仮説を述べている。その場合、スピードを維持しつつモデルを縮小することが課題になる。でも今日からは、GitHub上のアップデートされたライブラリにアクセスして、研究と工夫を始めることができる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Alexaを支える技術Amazon Lexが開発者に開放された

Amazonの仮想アシスタントAlexaを支えているテクノロジーであるAmazon Lexが、今朝(米国時間20日)のロイターの記事によれば、プレビュー段階を終了したということだ。自然言語理解技術を自動音声認識技術を組み合わせたこのシステムが、最初に紹介されたのは11月にラスベガスで開催された、AmazonのAWS re:Invent会議のことだった。

その時Amazonは、例えばチャットボットのような会話型アプリケーションを作りたい開発者たちが、そのようにLexを使うことができるかを説明した。

例として同社がデモしたのは、ユーザーが声だけを使って飛行機の予約を行うことができるツールだった。

とはいえ、このシステムは、Facebook Messengerのような、今日見られる消費者向けメッセージングアプリ内の、チャットボットに使われることだけに縛られているわけではない(もちろんそうしたプラットフォームに統合することは可能だ)。実際にはLexは、モバイルや、ウェブや、SlackやTwilio SMSのようなMessengerを超えたその他のサービスの中で、音声やテキストチャットボットとしてどのようにも利用することが可能だ。

AmazonはLexが、ウェブやモバイルアプリケーションの中で、ユーザーに情報を提供したり、アプリケーションに能力を与えたり、様々な仕事を支援したり、さらにはロボットやドローンやおもちゃを制御するメカニズムを提供したりといった、様々な目的のために利用できることを示唆している

とはいえ、メッセージング内のチャットボット、特にeコマースのボットは、Lexテクノロジーへの確かなエントリーポイントの1つである。不恰好なナビゲーションメニューをもち、ユーザーの問に対して限られた返答しか行うことができない現行のチャットボットに、消費者たちは不満を抱いている。これに対してLexは、音声をテキストに変換し、テキストの意図を認識して、より会話らしくすることができて、現在市場にあるものよりもさらに洗練されたボットを開発することを可能にする。

Amazonによって管理されるLexは、ボットの使用量が増えるに従って自動的にスケールアップする。つまり開発者たちはLexが処理したテキストと音声の量に従って支払いをするだけでよい。

Lexををより広い開発者コミュニティに解放するAmazonの戦略は、GoogleのAsisistantやAppleのSiriなどの、他社の音声技術に対しての競争優位性を確保するために役立つことだろう。本日のレポートには、AmazonがLexを組み込んだアプリから送られるテキストや録音を用いてLexを改善し、より多くの問い合わせを理解する能力に磨きをかけることを計画していることも書かれている。

このオープン性は、Alexaプラットフォームに対する、Amazonの大きな戦略であり続けている。例えば、Amazonは既に、開発者がAlexaをそれぞれのデバイス(スピーカーや、ベッドサイド時計など)に統合することを可能にするAlexa Voice Servicesをロールアウトしていた。

Amazonがオープンエコシステムを推進している分野は、Alexaのソフトウェアだけではない。同社は今月初めには、そのEchoスピーカーを支える技術を、サードパーティデバイスメーカーも利用できるようにすると発表した。これにはAlexaコマンドを聞き取るためのマイクロフォンアレイや、ウェイクワードを認識する独自ソフトウェア、バックグラウンドノイズの低減、そして大きな部屋の中での反響のキャンセルなどが含まれている。

これらをOEM企業に提供することで、他のメーカーたちも自身のスマート音声認識製品を構築することができる。たとえそれがAmazon自身のEchoスピーカーと競合するとしても。

Amazon Lexに興味のある開発者は、ここから始めることができる。

[ 原文へ ]
(翻訳:Sako)

YouTube、毎日ビデオ10億本を自動字幕化と発表

2017-02-17-youtube-subtitle

Googleが最初にYouTubeに自動字幕化機能を導入したのは2009年のことだったが、結果は散々だった。しかしGoogleの音声認識機能は飛躍的進歩を遂げた。YouTubeの字幕化は現在でも多少の間違いは散見するものの、聴覚障害があるユーザーには欠かせない機能となっている。今日(米国時間2/16)、YouTubeチームが発表したところによると、毎日字幕を付加されるビデオは10億本、ユーザーは1500万人に上っているという。

Googleによれば、このサービスはエラー率で人間による文字起こしに日々近づきつつある。この数年の同社のエンジニアリング・チームの努力により、字幕の正確性は50%増加した。YouTubeビデオの内容はとほうもなく広い範囲にわたるので字幕を付けるのは困難な作業だ。同時にGoogleの音声認識テクノロジーにとって非常に有用な訓練データを提供する役割も果たしている。YouTubeのユーザー・コミュニティーは字幕をチェックし、間違いがあればフィードバックする。この情報も機械学習の精度をアップするのに非常に役立っている。

YouTubeの字幕化機能は現在10言語をサポートしている。YouTubeのプログラム・マネージャー、Liat Kaverは「われわれは音声認識の最新の成果をすべての言語に活かしたい」と書いている。

〔日本版〕記事中のスクリーンショットの字幕の中央部にYouTubeとあるが、Googleのブログ記事を見ると、当初は誤ってyouという字幕をつけていた。ブログ記事原文はこちら。サポートされている言語は英語、オランダ語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語。 自動字幕起こし機能の利用法はこちら(日本語)。

元の動画(YouTubeクリエーターアカデミー)を下にエンベッドした。画面下部メニュー欄右側の四角い「字幕」アイコンをクリックすると画面内に字幕(英語)が表示される。YouTubeサイトに移動して「その他」メニューから「文字起こし」を選択すると画面下に別窓が開き、各国語に翻訳された字幕が表示される(画面内に表示される字幕とは別)

[原文へ]

(翻訳:滑川海彦@Facebook Google+

新生Microsoftの展望―市場は引き続きサティヤ・ナデラのリーダーシップに好感

Microsoftがサティヤ・ナデラをCEOに選んだのは3年前になる。以來、Microsoftは運命の逆転を果たした。10年間にわたる不完全燃焼状態を脱し、成長株の地位を取り戻した。昨年もその勢いは続いた。

2016年にMicrosoftはクラウド・ベースのサービス提供企業への変身を続け、そのために複数の新たなプラットフォームをサポートした。LinkedInを262億ドルで買収するという大胆な賭けに出た。ハードウェアではSurfaceデバイスの拡充が続いた。こうした動きはすべてウォールストリートに歓迎された。Microsoftは Surface StudioでAppleのお株を奪った。デザイナーや各種のプロ向けデスクトップ機はこれまでAppleが独占的な強みを見せている分野だった。またHololensもVRの世界にMicrosoftが確固たる足場を築く努力として注目された。

株式市場は 2016年のMicrosoftをコアとなるサービスの運営に加えて、未来の分野にも大規模な投資をて行い巨大テクノロジー企業への道を歩んでいると見たようだ。

実際投資家のこうした考えは数字に反映されている。力強いリーダーの下で力強い成長がMicrosoftに2017年に向けての勢いをつけた。Azureクラウド・サービスは堅調だ。クラウド化の進行はAmazon AWSもテコ入れし、ウォールストリートも珍しく興奮した。Office生産性ツールはWindows以外のプラットフォームのサポートに本腰を入れるにつれてさらに快調だ。

ナデラのMicrosoftがいかに徹底的に変身したかは昨年11月にLinux Foundationに参加したことでもわかる。市場もMicrosoftがこれまでのしがららみを大胆に振り捨て、伝統と決別するつもりであることを認めた。 新戦略の採用には当然大きなリスクも伴うが、これまで企業の根幹を支える生産性ツールとして利益を産んできた会社に新しい成長の可能性を与える。

ナデラはMicrosoftの変身が必至になった時期にCEOに就任した。 モバイル・ビジネスは失敗し、全社的なりソースの再配分が避けられなくなっていた。変革は始まっていたが、ごく初期段階だった。改革は株価に対して上向きのようだった。しかし他社(Googleでさえ)と同様、賭けが結果を出すまでには時間がかかる。この間、Microsoftの売上の伸びはさほど目立つレベルではなかった。

大きな賭けには大きなリスクが伴う。2016年11月にMicrosoftは急成長中のビジネス・チャットのスタートアップ、Slackに対抗してTeamsというコラボレーション・ツールをリリースした。2016年初めにMicrosoftはSlackを80億ドル前後で買収することを検討していた。しかし結局資源を社内のSkypeとTeamsに振り向けることにした。Microsoftがエンタープライズ・コラボレーション分野に取り組むのはこれが初めてではない。2012年にはTwitterのエンタープライズ版、Yammerを12億ドルで買収している。だがMicrosoftはこの分野への参入で目立った成果を挙げていない。Slackが現在得ているような賞賛や清新なイメージを得ることに失敗している(なるほどSlackの成長はやや減速しているし、好印象はシリコンバレー所在企業だという点も影響しているだろう)。

MicrosoftはGoogleの失敗を教訓としているかもしれない。GoogleはNestやGoogle Fiberのような互いに関係が薄い垂直統合的分野に莫大なリソースを投じた。その結果、GoogleのCFO Ruth Poratはこうした新たな分野への投資にあたって「今後さらに慎重でなければならないだろう」と述べるに至った。Microsoftの新分野への賭けは、これに比べると同社のコア・ビジネスとの親近性が高い。そうであっても、エンタープライズ・チャットというような過去に失敗した分野への再参入にあたって非常に慎重な判断が求められるだろう。

そのような側面はあるが、株価は結局、成長率の問題となる。ウォールストリートでは新分野への賭けにGoogleやAppleのようになるのではないかと懸念する声があったが、Microsoftの成長をそうした声を吹き飛ばした。2016年にMicrosoftの株価は12%もアップした。過去2年では34%の上昇だ。それ以前、ほぼ10年にわたって時間が止まったような停滞状態にあり、投資家を失望させてきた大企業にしては驚異的な復活といえる。

2016年にMicrosoftは伝統的なエンタープライズ向けの巨人であるだけでなく、 コンピューティングがパソコンというデバイスの外に大きく拡張する時代に適合した未来をデザインする企業に生まれ変わった。Microsoftは自社OSが独占するハードウェアの世界に閉じこもった企業ではない。あらゆる主要プラットフォーム上で作動する多数のプロ向けサービスをサポートし、文字通りインターネット世界のバックボーンのひとつになろうとしている。

これに加えて、今やこの業界のほとんどプレイヤーが実験を始めている機械学習というトレンドがある。2016年9月のMicrosoft Igniteカンファレンスでナデラは基調講演のほとんどすべてを機械学習にあてた。ナデラは既存のデータを機械学習テクノロジーに適用し、Office 365のようなサービスを大幅に効率化するMicrosoftの計画を説明した。またMicrosoftは昨年初めに独自のバーチャル・アシスタントCortanaの利用をサードパーティーのデベロッパーに開放した。

こうした動きにはMicrosoft独自の部分もあるが、20017年にはGoogle Assistant、Amazon Alexa、Apple Siriなどのアシスタントの利用が急速に拡大し、ユーザーとの対話性に変革がもたらせることが予想させることに対するMicrosoftの回答といえるだろう。今年は既存サービスに機械学習の成果をシームレスに接続することでユーザーにとっての利便性を大きく高めることが各社にとって2017年の勝敗を決するカギとなるだろう。

Microsoftにとってこの部分は逃げ道のない主戦場であり、コアとなるサービスの改善のために避けて通れない道筋だ。昨年初めにMicrosoftはAIによる入力予測に基づくキーボード・テクノロジーのスタートアップ、SwiftKeyを買収した。 Officeのような企業業務の根幹となる大型の生産性ツールの改良には巨大な資源が必要だ。ことに自然言語処理能力を備えたツールのとシームレスな統合が強く必要とされている。

他社の戦略と比較した場合、Microsoftのやり方は多様性に富んでいる。Amazonはクラウド化に賭けている。Appleは新しいハードウェアと、たとえばApple Musickのようなオンライン・サービスの拡大で成長の勢いを引き続き維持するつもりだ。株式市場は多様性を好む。ナデラのMicrosoftが株式市場に好感される理由は多様性のあるアプローチにも大きな理由があるだろう。

〔日本版〕Graphiqの対話的グラフは2番目が「一時的に表示できない」とされた。この株価グラフはTechCrunch Japanトップ・ページのタイトル脇サムネールに画像として貼っておいた。対話的に操作するには原文参照。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

ザッカーバーグ家でホームAIが作動中―声はモーガン・フリーマンだった

FacebookのCEO、マーク・ザッカーバーグが「2016年の決意」として自分でプログラミングしたホームアシスタントAIのJarvisが作動中だ。ザッカーバーグは月曜日にこの開発について詳しく書いた記事を投稿しているが、火曜には作動の様子を収めたビデオを公開した。Jarvisがザッカーバーグ家でマーク、妻のプリシラ、娘のマックスをそれぞれ認識してさまざまな機能を発揮しているようすがよく分かる。

このビデオを見るとJarvisプラットフォームはかなり有能な音声認識と自然言語処理システムを備えた家庭用コマンドセンターのようだ。ザッカーバーグが自分で書いただけあってザッカーバーグ家の状況に合わせて高度なカスタマイズがされている―それとJarvisの声は他ならぬモーガン・フリーマンだ。この大スターを自分専用の声にできたのは、いかにザッカーバーグであるにしても大ヒットだろう。

Fast Companyによれば、ザッカーバーグがホームAIの計画を公表したとき、「誰の声がいいか?」という人気投票をしたところ、モーガン・フリーマンがトップだったのだという。ザッカーバーグは自身が加わって設立したBreakthrough賞の授賞式でフリーマンに会ったときに声の出演を依頼した。出演料が支払われたのか、払われたとすればその額や時期といった詳細は明らかにされていない。

お金といえば、ビデオの中で「ニッケルバックの曲はない」と言っているところをみると、Jarvisは5000万人の人間より賢いに違いない。

〔日本版〕 ビデオでJarvisは訪問者を顔認識してマークの両親と判断している。また娘のマックスが部屋から出ようしていることも認識している。 記事末のNickelbackはカナダの人気ロックバンド。バンド名はカナダの5セント硬貨の通称から付けられたとされる。ジャスティン・ビーバー同様、一部のロックファンからはとかく批判されがち。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

ザッカーバーグが作ったホームAIのJarvisは、あなたの音楽の好みを学習する

d400df3c0e3f42d0962faed72be98515

2016年、マーク・ザッカーバーグは野心的な個人的プロジェクトを設定していた。照明の制御、訪問者の監視、家電の操作など、自宅での作業を自動化するための人工アシスタントを構築することだ。ザッカーバーグはFacebook上で、ある意味「想像していたものよりも簡単」だったと述べている – この記事を読んでいる人のそれなりの割合が、そんなことはAmazon Echoのような既存のデバイスでできるのだから驚くほどのことでもないと考えることだろう。

公平を期すために言うならば、ほとんどの(全員?)Echoオーナーは、自分自身のためのAlexaサービスを最初から構築したりはしないが、まさにそれこそがザッカーバーグのやったことだ。彼自身のパーソナルJarvisをPython、PHP、そしてObjective Cを使ってコーディングし、言語処理や音声認識、そして顔認識などを組み込んだ機械学習技術とりこんでいる(Jarvisはコミック「アイアンマン」に登場する人工知能キャラクター)。

FacebookのCEOはまた、Sonos、Spotify、Samsung TV、Crestronのスマートホーム照明システム、Nestのビデオカメラなどの、買ってきた状態では必ずしも相互に通信をすることが想定されていない沢山のコネクトデバイスを取り扱う必要があった。これらのデバイスをすべて接続したあと、ザッカーバーグはあたかも他の人に頼むように話す言葉で機器を制御できるようにするために、自然言語要求を翻訳する手段を構築する必要があった。さらに、これらの要求は文脈で理解されなければならなかった。たとえばザッカーバーグの妻でChan Zuckerberg Initiativeの共同議長であるプリシラ・チャンが「私のオフィスで」何かをするよう頼んだ場合、それは彼女の夫がまったく同じ要求をした場合とは違うアクションを引き起こさなければならない。

ザッカーバーグがJarvisにやってもらうことのできるより面白いことの1つは、まだ市場には存在していない機能だが、実際に音楽の彼の好みを認識し、わずかな入力で再生する適切なトラックを自動的に選択することだ。Jarvisは以前に演奏された音楽をチェックして選択を行う。またザッカーバーグがより具体的な指示をしたい場合は「何か明るい曲を再生」といったような一般的な用語を使用して雰囲気を変えるよう求めることもできる。このシステムはまた、チャンの好みを別途追跡し、彼女のためにも同じことをすることができる。

ザッカーバーグがJarvisとテキストでやりとりするFacebookメッセンジャーボットを構築したことも注目に値する。そして全体的には声を使うよりもテキストを使ったコミュニケーションの方が望ましいと述べている、これは主に家の中にいる他の人の邪魔にならないようにするためだ。

ザッカーバーグはプロジェクトのまとめとして「AIは私たちが想像しているよりもさらに近く、同時にさらに遠いものです」と書いている。こう書いた理由は主に、特定のドメイン機能では大きな進歩を遂げているものの、あるドメインでの学習結果を他のドメインの問題に適用しようとする際にはあまり上手くいかないからである。言い換えれば本当に有能な汎用AIはまだまだ遠い道のりだということだ。

それでもザッカーバーグは、彼が2016年にJarvisの構築に100時間前後を費やして、かなり有用なシステムを生み出したことに触れ、さらに彼の特定のセットアップに縛られないより多くのホームオートメーション機能を実現することができたときには、最終的にはシステムを公開するかもしれないと述べている。彼はまた、これが新しい将来のFacebook製品の基礎を証明する可能性があるとも述べている。とはいえこれはちょっと生意気な態度だろう、なにしろFacebookの技術者たちが少なくともある種のAlexa型の競合相手をいろいろ研究しているのはほぼ確実なのだから。もし彼らがそうしていないとしたら、それは相当に近視眼的だ。

そして、 悲しいことにロバート・ダウニー・Jrへの言及もなかった

[ 原文へ ]
(翻訳:Sako)

AIが搭載された研究者向けの高機能検索エンジンSemantic Scholar

s2

科学論文はかなりの頻度で発行されており、主要な分野の最先端にいる人が論文の情報を追おうとすると、それだけでフルタイムの仕事になってしまうほどだ。しかし、論文サーチエンジンのSemantic Scholarは、自動で論文を読み込み、トピックやその影響力、引用回数などの情報を取り出す機能を備えており、ユーザーは簡単に最新の論文や探しているものをみつけることができる。

もしもあなたが科学者であれば、きっとこのようなサービスを求めていたことだろう。Google  ScholarやPudMedも便利なリソースではあるが、メタデータに関しては、著者や論文の引用回数や実験対象となる有機体、使われている共変数など比較的基礎的なものしか含まれていない。

Semantic Scholarは、特定分野の論文を10万本以上読み込んだデータを参照し、重要なフレーズを探しながら、新しい論文の文章全てを分析する。自然言語処理能力も備えているため、ある論文が独自の実験を基に書かれているのか、他人の実験について論じているのか理解することができ、そこから実験方法やマテリアル、動物の種類、テストを行った脳の部位など重要な情報を取り出すことができるのだ。さらに可能な場合は図表を引っ張ってきて、後で検索やソートができるようにその内容まで読み込もうとする。

semantic_illoまた、Semantic Scholarは同じトピックについて書かれた他の論文の情報も参照するため、例えば、どの関連論文もしくは引用元の論文が分析対象の論文と関連性が高いかや、分析中の論文を参照してその後どのような研究が行われたか、といったインテリジェントな判断もできるようになっている。さらにはTwitterとも連携しているため、ユーザーは気になる論文の著者や部署・学部に直接メッセージを送ったり、その後の議論がどのように展開されていったか確認したりできる。

検索スピードは早く、検索結果の関連度合いも高い上、簡単に検索結果をソート・深堀りすることもできる。このような論文を参照することの多い科学者にとって、Semantic Scholarの機能は大きなアドバンテージだ。実際に昨年ベータ版が公開されてから、すでに何百万回もこのサービスが利用されている。

semantic_scholarSemantic Scholarが一番最初に特化した分野は、コンピューターサイエンスだった。しかし、今後はバイオメディカルにも対応していくと本日発表され、最初のフォーカスは神経科学になるようだ。神経科学に関する情報が貯まったあとは、PubMedのバイオメディカルに関する論文全てを2017年中にSemantic Scholarに読み込ませる予定だ。もちろん有料で提供されている他のサービス上にもたくさんの論文が掲載されており、ElsevierやSpringerといった企業がそれを無料で開放するとは考えづらい。しかしそのような企業とも交渉にあたっているところだとSemantic Scholarは語っていた。

Semantic ScholarをつくったAllen Institute for Artificial Intelligence(AI2)は、数十人程度の小さな組織であると同時に、アメリカ最大の非営利AI研究機関でもある。彼らのモットーは、「公共の利益のためのAI」で、純粋かつ直接的に社会に貢献できるよう、AIテクノロジーを発展させることに注力している。

「医療界のブレイクスルーを、科学論文の検索のように面倒なプロセスのために遅らせるわけにはいきません。私が考えているSemantic Sholarのビジョンは、科学者がオンライン上にある何百万という数の論文を効率的にチェックし、爆発的に増え続ける情報にもついていけるような強力なツールをつくることです」とファウンダーのPaul Allenはプレスリリースの中で語った。

また、AI2のシアトルのオフィスを訪ね、CEOのOren Etzioniに話を聞いたところ、彼はSemantic Scholarが最終的に仮説生成エンジンになる可能性を秘めていると説明してくれた。彼の言う仮説生成エンジンとは、研究者の仕事を奪ってしまうほど高度なものではなく、むしろ大局的な「この手法は、感覚皮質では有効だけど、運動皮質では誰も試したことがないようだから、もしかしたらそっちを試してみた方がいいかもね」と意見を述べる教授のようなものを指している。

さらにEtzioniは、他の分野でもAI関連のプロジェクトを率いており、その多くでも自然言語処理技術が利用されている。例えばEuclidは、「3つの立方数の合計で最小の正の数は?」のように、普段私たちが使っている言葉で表現された数学の問題を理解することができる。また、別のプロジェクトでは、4年生の子供が日頃解いているような、読解問題から構成された標準テストを解くことを目標にソフトの開発が進められている。このようなプロジェクトは意外に難しいと同時に、チュータリングソフトやテストを自動で生成するソフトのように、便利なサービスにつながる可能性があり興味深い。

Semantic Scholarは誰でも試すことができるが、コンピューターサイエンスや神経科学の分野にいない人だと、検索結果はあまり役に立たないだろう。しかし、もしもあなたがそのような分野の研究をしているのであれば、Semantic Scholarを天から与えられたツールのように感じるかもしれない。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

MicrosoftのConcept Graphは言葉や文から概念をつかみ、コンピューターに常識を持たせる

information coming out of a smart phone

今日(米国時間11/1)はMicrosoft Researchが、自然言語処理における“知識”という問題の、解へ向かう努力の一環を公開した。同社によると、言葉に対する人間の理解とコンピューターの理解を分かつ最大の要因が、背景的知識とその正しい活用方法の有無だ、という。

Microsoftがこれまで年月をかけて開発してきた知識データベースProbaseが、今度一般公開されるMicrosoft Concept Graphのベースになっている。Probaseは540万の概念を擁し、12万の概念を擁するCycなど、他の知識データベースを圧している。

Microsoft Research's distribution of concepts in the Concept Graph.

Microsoft ResearchのConcept Graphにおける概念の分布

情報が上図のようにすべて結び付けられ、それが、確率付きの解釈と共にテキストの分析を支える。複数の解釈を確率により排除していくやり方は、人間が、「これはないな、あれはないな」と素早く排除しながら自分の結論に達するやり方と、非常によく似ている。

たとえば私が“the man ran from the stranger with the knife”と言えば、あなたなら、男が武装した見知らぬ人から走って逃げている、と解釈するだろう。でもこの文には、男がナイフを手に持って見知らぬ人から走って逃げている、解釈もありうる。しかしながら、(1)〜〜から走って逃げる、は恐怖を含意し、(2)ナイフは恐怖に結びついている、という知識(カテゴリー知識)があれば、あなたの最初の、もっとも単純でストレートな解釈が、いちばん優勢(高確率)になるだろう。それが間違っていた可能性も、あるにはあるけど。

MicrosoftのConcept Tagging Model(概念にタグ付けする方式)は、このことを利用して、テキストのカテゴリーをそれと同じ確率の考えに結びつける。上の例では、ナイフは家庭用品や武器も指すが、しかし文脈としては武器である確率が高く、博物館から盗まれた17世紀のバターナイフではないだろう。

家庭用品や武器は、比較的よくあるカテゴリーだが、博物館の美術工芸品はかなりロングテールだ。Microsoftの大規模なモデルでは、確率の高いものと、極端にありえないものの両方を検討し、その際、属性や下位の文脈、関係などを考慮に入れていく。

今日リリースされたバージョンは、入力されたテキストのありうるカテゴリーのランク(確率ランク)を作る。Microsoftのそういう、初等レベルの概念化能力は、MI, PMI, PMIk, 典型性(Typicality)など他の方法とともに、選好ランクの生成や、適切なカテゴリー付けに利用されるだろう。

今後のバージョンは、彼らの言う“単一インスタンスの文脈付き概念化”の能力を持つだろう。それは、“見知らぬ人”と“ナイフ”を結びつけて、意味を示す。さらに将来的には、チームは“短文の概念化”能力を実現したい、と考えている。それにより、検索や広告やAIにおいて、アプリケーションの視界をさらに拡大するだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

文章が読めるチャットボットを開発するMaluuba

7978175055_fcd47665e5_o

MaluubaがSiriのようなパーソナル・アシスタントを最初にローンチしたのは、4年前サンフランシスコで開催されたTechCrunch Disruptのイベントにおいてだった。それ以来、同社は1100万ドルの資金を調達し、そのテクノロジーを多数の携帯製造会社にライセンスした。それらの会社はそのテクノロジーを使って、自社の携帯にパーソナル・アシスタント機能を実装している。

Maluubaの製品部門のトップであるMo Musbahによると、同社は直近の2年間を、ディープラーニングを自然言語処理の局面で利用する方法の開発に投じてきた。それに関連して一例を挙げると、同社は最近モントリオールに研究開発の為のオフィスをオープンした。「そこにおける私たちのビジョンは、ディープラーニングでの世界最大の研究施設を作ることです」とMusbahが言った通り、同社が野心に欠けるということはなさそうだ。

同社が研究開発に注力する余力があるのは、同社のボイス・アシスタント関連のOEMビジネスが着実に収益をもたらしてくれるからだ。本日同社はこの研究開発の成果を始めてお披露目してくれた。

2016-09-22_1358

同社の研究チームは過去数年間に渡り、文章を与えれば、その文章について自然言語形式で尋ねることが出来るようなシステムを構築してきた。今あなたが読んでいるこの文章を例にとれば、「Maluubaの製品部門のトップは誰?」といった風に質問することができ、システムは正しい答えを返してくる。

現在残念ながらまだ一般公開には至っていないものの、Maluubaの動作はこんな具合だ。

実際のところ、この問題を解決するのは大変難しい。というのも、このシステムは多くのトレーニングの恩恵を受けることなく、うまく動く必要があるからだ。この種の機械学習こそが今日のパーソナル・アシスタントをずっと賢いものにする手助けになるものだと研究チームは信じているのです、とMaluubaの研究部門のトップであるAdam Trischlerは私に語った。「我々が気づいたことが2つあります。まず最初に、いま使われているパーソナル・アシスタントは根本的に機能してません。外から知識を持ってくることは出来ません」と、彼は言った。「次に、会話がほとんど出来ないという点が挙げられます。我々は会話をしたいし、それができるシステムこそより強力なシステムと考えています」

ここで彼が言っている問題とは、例えばSiriやグーグル・アシスタントなどにそれらのサービスの守備範囲外の質問をした場合、ユーザーはそのウェブサイトに飛ばされてそこで検索をすることになる。もしアシスタントが実際にそれらのまとまりのない文章を理解できれば、そのサービスの答えることができる質問の数はずっと多いものとなるだろう。リアルタイムにそれを実現できるのなら、なお良い。Maluubaのテクノロジーを使えばそれが実現でき、それは非常に大きな前進だ。とりわけ、システムが外部の情報に頼らずに、与えられた文章を解析することだけで質問に答えることができるとすれば尚更だ。
[原文へ]

(翻訳:Tsubouchi)

Google、ニューラルネットワーク機械学習を検索翻訳に適用―第一陣は中国語/英語

2016-09-29-machine-translation-ai-shutterstock_181640888

ある言語を別の言語に翻訳するのは難しい作業だ。言語の自動翻訳システムを開発することはコンピュータ処理の目標の中でも非常に困難な部分だ。一つには、取り扱う対象となる語句の数が膨大になるからであり、それらを統べる規則を発見することは非常に難しい。幸いなことに、ニューラルネットワークは膨大かつ複雑なデータの自動的な処理が得意だ。 Googleは機械学習を利用した自動翻訳を長年にわたって開発してきたが、昨日(米国時間9/27)からその第一陣を公式にスタートさせている

このシステムはGNMT(Googleニューラル機械翻訳=Google Neural Machine Translation)と呼ばれる。GNMTの最初のサービスは、中国語/英語の検索の自動翻訳だ。これは既存の検索システムを基礎としてニューラルネットワークを利用して改良したものだ。以下自動翻訳がどのように発達してきたか、その歴史を歴史を簡単に振り返ってみたい。

語句単位の直接置き換え

子供にせよコンピュターにせよ、いちばん直接的で簡単なのは単語やフレーズを単純に別の言語に置き換えることだろう。この方式ではニュアンスはもちろん、文の意味さえまったく失われることがある。しかしこの単純置き換え方式は対象となる文章が何について述べているか大まかな雰囲気を最小の労力で示してくれる。

言語は語句の組合せで成り立っているので、論理的に考えて、自動翻訳の次のステップはできるかぎり大量の語句とその組合せの簡単なルールを収集し、翻訳作業に適用することだ。しかしそのためには非常に多量のデータを必要必要とする(単なる二ヶ国語辞書ではとうてい足りない)。たとえば同じrunという動詞一つ取ってもrun a mile〔1マイルを走る〕、 run a test〔テストを実施する〕、run a store〔店を運営する〕ではまったく意味が違ってくる。この違いを見分けるためには膨大な例文の統計的処理が必要になる。しかしコンピューターはこうした処理が得意だ。そこで必要なデータとルールが収集されれば語句ベースの自動翻訳を実用化することができる。

もちろん言語ははるかに複雑だ。しかし単純な語句ベースの置き換えの次のステップでは複雑性やニュアンスが飛躍的に増大し、その処理に必要なコンピューティング・パワーも比例して増大する。しかし複雑なルールセットを理解し、それに基づいた予測モデルを作るのはニューラルネットワークの得意とするところだ。自動翻訳ではこの分野が長年研究されてきが、今回のGoogleのGNMTの一般公開は他の研究者に大きなショックを与える進歩だろう。

GNMT(Googleニューラル機械翻訳)は機械学習の翻訳への応用として最新かつ格段に効果的な手法だ。GNMTは文全体を視野に入れながら個々の語句にも細かい注意を払っている。

Google's animation shows how the parts of a Chinese sentence are detected and their relevance to the words to be translated weighed (the blue lines).

アニメによる中国語の翻訳の説明。中国語の単語が探知されると翻訳されるべき言語との関連で重み付けがなされる(青い線)。

全体を眺めながら細かい部分も意識しているという点で、われわれが画像を認識するときの頭脳の働きに似ている。しかしこれは偶然ではない。ニューラルネットワークは人間の認識のプロセスを模倣して対象が何であるか判別できるよう訓練される。したがって画像をゲシュタルトとして認識することと文の意味を認識することの間には単なる表層的なもの以上の類似点がある。

興味ある点だが、ニューラルネットワークの応用としては、言語のみに特有な点はほとんどない。このシステムは未来完了形と未来進行形の区別はできないし、語句の語源やニュアンスについても知らない。すべては数学モデルであり、統計処理として実行される。いわゆる人間の感性は入って来ない。翻訳という人間的作業をメカニカルな統計処理に分解してしまう手際には感嘆せざるを得ないが、ある種の気味の悪さも感じる。もちろんGNMTはそのようなメカニカルな翻訳で十分であり、それ以上の技巧や深い解釈は必要とされない分野に対応したシステムだという点に注意が必要だろう。

技巧を取り除くことによって技術を進歩させる

GNMTついての論文には、計算処理量の縮減という技術的ではあるが、重要な進歩がいくつか紹介されている。計算量のオーバーヘッドが大きくなり過ぎるというのは言語処理のシステムでよく見られる陥穽だ。

例えば、言語システムはめったに使われない珍しい単語によって窒息することがある。使用頻度の少ない語句は他の語句の文脈の中に適切に位置づけることが難しい。GNMTは珍しい語句をほぼ同じ意味で使用頻度の高い語句に分割し、置き換えることによってこの困難を迂回する。システムは置き換えられた語句を他の語句との関連で組織する。

正確性をある程度犠牲にすることによって実際の計算時間が短縮される。この処理にはニューラルネットワークを訓練することを念頭に置いて設計されたカスタム・ハードウェアであるGoogleテンソル計算ユニットが用いられる。

機械学習におけるインプット・システムとアウトプット・システムは大きく異る。しかし両者が接触するインターフェイスを通じて情報をやり取りし、協調して訓練されるることによって統合的な結果を生成するプロセスだという点は共通だ。ともあれ私が理解できた範囲ではそういうことになる。論文にはさらに詳しい情報が掲載されているので、そういう情報が必要な読者は参照されるとよいだろう。

結果としてニューラルネットワーク機械学習システムはは語句ベースの置き換えシステムをはるかにしのぐきわめて正確な結果をもたらす。翻訳品質は人間の作業のレベルに近づく。自らのビジネスの本質に関わる検索という分野でGoogleがウェブとアプリで動作するシステムを一般公開するのであれば高品質でなければならないというのはよく理解できる点だ。しかもターゲットは中国と英語という変換作業が非常に困難な組合せだ。

image00

スペイン語とフランス語についても良好なテスト結果が得られているという。おそらくここ数ヶ月のうちにGNMTはそれらの言語に拡張されるはずだ。

ブラックボックス化というトレードオフ

こうした手法のデメリットの一つは、機械学習を利用した予測モデルに往々にして生じる問題だが、内部でどのような処理が行われているのか実際のところ誰も確かめることが出来ないという点だ。

GoogleのCharina ChoiはTechCrunchの取材に対して「GNMTは他の大規模なニューラルモデル同様、膨大なパラメーターの集合であり、訓練の成果がどのような内部処理となっているのか見通すことが難しい」と述べた。

もちろんこれはGNMTをデザインしたエンジニアがこのシステムが何をしているのか理解できないという意味ではない。しかし語句ベースの置き換え型翻訳は、結局のところ人間が個別パーツをプログラムしている。したがってある部分が間違っていたり時代遅れになっていることが判明すれば、そのパーツをまるごと削除したりアップデートしたりできる。ところがニューラルネットワーク利用システムの場合、何百万回もの訓練セッションを通じてシステム自身が自らをデザインするため、何かがうまく行っていないことに気付いても、簡単にその部分を置き換えることができない。訓練によって新しいシステムを作り出すのは困難を伴う作業となる。もちろんそれは実行可能だし、場合によっては短時間しかかからないはずだ(また、そのように構築できるなら新たな課題が発見されるたびに自らを改善していくシステムとなっているだろう)。

Googleは機械学習に同社の将来の大きな部分を賭けている。今回公開されたウェブおよびモバイルでの自動翻訳検索はGoogleのニューラルネットワーク応用システムの最新かつもっとも目立つ一例だ。ニューラルネットワークはきわめて複雑、難解でいく分か不気味でもある。しかしこの上なく効果的であることを否定するのは難しい。

画像: razum/Shutterstock

〔日本版〕原論文はコーネル大学のアーカイブ・サイトにアップされたPDFファイル。誰でも無料でダウンロード可能。名前から判断すると研究者のうち3人は日本人(日系人)らしい。ただし日本語については音声認識における語句切り分け問題に関して言及があるだけで、日本語のGNMT翻訳については特に触れられていない。しかし従来の例から考えて日本語のGNMT応用についても研究は進んでいるはず。近い将来何らかの発表があるものと思われる。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

自然言語によるチャットボット技術を提供するAngel.aiをAmazonが買収

screen-shot-2016-09-20-at-17-43-07

昨日(米国時間9/19)はGoogleが、会話によるインタフェイスを提供するAPI.aiを買収したが、チャットボット方面の人材を求めている大手テク企業はGoogleだけではなさそうだ。本誌TechCrunchが得た情報によると、Angel.ai(元GoButler)が、少なくともその一部が、Amazonに買収された。

そのeコマース巨大企業によると、同社は確かにAngel.aiの協同ファウンダーでCEOのNavid Hadzaadを社員として迎えた。スポークスパーソンは曰く、“NavidがAmazonで仕事を始めたことを確認する。その初日は昨日(米国時間9/19)だった。現時点ではこれ以外に共有すべき情報はない”。

LinkedInで確認するとHadzaadの新しい職務は: “Head of New Bot Products at Amazon”だ。Amazonにおけるボット製品担当、と明記されている。Angel.aiの社員も数名Amazonに入り、またAngel.aiの技術やデータも買収の対象になったようだ。

Angel.aiは2015年の7月に、シリーズAで8百万ドルを調達しているが、今回の買収が投資家に大きなリターンをもたらすことはなさそうだ。そのラウンドをリードしたのはGeneral Catalyst Partners、これにLakestar, Rocket InternetのGlobal Founders Capital, Slow Ventures, BoxGroup, Ashton KutcherとGuy OsearyのSound Ventures, そしてCherry Venturesが参加した。

GoButlerはユーザーが何でもリクエストできる仮想アシスタントをローンチしたが、その後何度か方向性を変えて、今のAngel.aiの形…自然言語技術をサードパーティデベロッパーに提供…に落ち着いた。

Angel.aiのCEO Hadzaadがかつて言った“会話型コマース”を、Amazonも指向しているようだから、そのためのチャットボット技術者が欲しかったのだ、と思われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

自然言語によるコンピューターとの会話を実現するAPI集のAPI.AIをGoogleが買収

api

Googleが今日(米国時間9/1)、API.AIのチームをスカウトしたことを公表した。API.AIは、Siriのような自然言語で会話できるボットをデベロッパーが作るためのツールを提供している。

コンピューターと違って人間には、まあまあのコミュニケーション能力がある。だれかが、“the girl saw a man with the binoculars”と言ったら、われわれは文脈的知識を動員して、「女の子が双眼鏡で男を見た」のか、それとも「女の子が双眼鏡を持ってる男を見た」のか、どちらであるかを正しく判断できる。

ロボットに同じことをやらせるのは、とても難しい。誰かが“get me a lift”と言ったらそれは、「同乗(相乗り)させてくれ」と言ってるのか、それとも「(Uberのライバル)Lyftを呼んでくれ」と言ってるのか? こういう曖昧さが加わると、同じひとつのことを言うのに、無限に多くの言い方がある。コンピューターにとっては、超難題だ。

API.AIは、デベロッパーたちが限りなく車輪を再発明するのを防ぐために、この難問を解決するボットを作るためのツール、というかAPIを提供する。それらは、音声認識や意図認識、文脈(コンテキスト)管理などのAPIで、デベロッパーはそこに、ユーザーの業種業界に特有の知識を付加することもできる。たとえば“deep dish”(深皿)とか“Chicago-style”(シカゴふう)などは、ピザ配達ロボットが必ず理解すべき言葉だ。

API.AIは現在、英語、中国語、フランス語、ドイツ語、スペイン語など15の言語/方言を扱える。

同社のホームページ上のカウンターの数字によると、API.AIはこれまで、30億件のAPIリクエストを処理している。またGoogleによると、自分の仕事にAPI.AIを使ったことのあるデベロッパーは6万を超えている。

今回の買収は、価額などが公表されていない。Crunchbaseによれば、API.AIはこれまで、約860万ドルの資金を調達している

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Amazonのネット接続スピーカーEcho Dotが、50ドルになって帰ってきた

dot_family

すでにそれがやってくることは知っていた – Amazonが今週の初めにうっかり投稿したTweetのおかげで。しかし、ついに公式に発表された:Amazonのネット接続スピーカーEcho Dotが49.99ドルという低価格で戻ってきた。このAlexa(Amazonの自然言語UI)を搭載したデバイスは、より大きなAmazon Echoの中にあるものと、ほとんど同じ機能を提供する。Amazonの音声ベースアシスタントを通して、音楽を再生したり、ニュースを聞いたり、天気をチェックしたり、照明を点けたり、タイマーをセットしたり、アプリを使ったり、その他のことを行うことができる。

Echo Tapと一緒に今年3月に一度発表されたEcho Dotは、ネット接続スピーカーのEchoファミリーをより低価格で提供しようとするAmazonの最初の試みだった。

Dotが生まれた理由は、多くのAmazonの顧客が自分自身のスピーカーとEchoに接続したいと問い合わせをしてきたからである ‐ そうすれば、自宅のホームエンターテイメントシステムを声で制御できるようになるし、Alexaへの話しかけにも用いることができる。

このデバイスは、Bluetoothまたは3.5ミリ径のステレオプラグを介してあなたのエンターテイメントシステムに接続することができ、そして声を使ってAmazon Music、Prime Music、Pandora、Spotify、iHeartRadio、iTunesその他の音楽を再生することができる。

それに加えてDotの大きな利点は、複数のデバイスを買って家中に置いておき、Alexaが身近のデバイスから反応するようにできるということだ。これは子供が叫んだり、テレビが鳴り響いたりしているような、落ち着きのない騒々しい家では有利に働く。近くに複数のスピーカーを持つことで、Alexaはあなたの声を良く聞くことができるようになる。

この機能は新しいDotでは更に改善されている、より高速なスピーチプロセッサと、ESP(Echo空間知覚)と呼ばれる機能のおかげだ。ESPは、どのDotが1番あなたに近くて、あなたの声に反応すべきなのかを、デバイス自身が決定するために役立つ。Amazonは、ESPの性能はこの先も向上していくとアナウンスしている。それによって複数のEchoデバイスが同時に応答するという問題も解決していく筈だ。

それ以外の点では、Echo Dotは大きなEchoに似通っている。Echoと同様に7つのマイクアレイを内蔵し、Echoがサポートする全てのスマートホームデバイスをコントロールする。

以前の89.99ドルという価格では、Dotは悩まずに買えるといったものとは言えなかった。そして2つ以上の購入を考えた場合、予算を気にする買い手を躊躇わせるものがあった。

50ドルなら、価格の心配は少なくなる。

Amazonはまた、バルクで購入することを奨励するために、Dotの割引パックを用意している。あなたが6台のパックを購入した場合には、実質的に5台分の価格で1台を無料で手に入れることになる。一方、12台パックを購入した場合には、2台分が無料だ。

Dotはまた、あなたの家の装飾により良くマッチするように黒と白の2色が用意されている。デザインも新しく、よりコンパクトになったとAmazonは言っている。Echoにも同様に、新たに白が用意された。

[ 原文へ ]
(翻訳:Sako)

Tableauが作るデータ視覚化図表に自然言語の説明文を自動的につけるNarrative ScienceのChromeエクステンション

narrativescience2

(ビッグ)データ分析のTableau Softwareが、シカゴの自然言語生成(natural language generation NLG)ツールのデベロッパーNarrative Scienceとのパートナーシップを発表した。その直後にTableauの株価は13%跳ね上がった。このパートナーシップの結果として生まれる無料のChromeエクステンションNarratives for Tableauにより、Tableauが作るデータ視覚化図表に、自動的に説明文がつけられる。

たとえば一定期間の売上と利益を表す、Tableauが作ったチャートがあるとすると、Tableau Server 10.0や無料のTableau Publicサービスのユーザーなら、このエクステンションにより、たとえばこんな説明文が生成される: “Sales and profit ratio moved in opposite directions from January 2011 to December 2014(2011年1月から2014年12月まで、売上と利益率は互いに逆方向に推移している)”。その例が、ここにある

Narrative ScienceのCEO Stuart Frankelはこう語る: “このエクステンションは、TableauとNarrative Scienceのきわめて密接なコラボレーションの成果だ。このエクステンションがない環境では、通常のTableau体験とほぼ同じ体験が得られる”。

Narrative Scienceのプロダクトの中では、Quillが特に有名だ。これは、データ、たとえばスポーツのスコア、を見せると、それの記事を作る。Narratives for TableauはQuillの応用のようなプロダクトだ、とFrankelは述べる。

Tableauのチーフプロダクトオフィサー(CPO)Francois Ajenstatによると、同社はこのプロジェクトに出資していない。今後はNarrative Science以外のところからも、類似のエクステンションをリリースする計画だ、という。

NarrativeScience1

Narratives for Tableauが生成したテキストは、ユーザーが適当に編集できる。たとえば、特定のパラグラフだけを残したり、データの主な特徴を箇条書きにする、など。もちろんテキストを好みの文体に書き換えてもよい。

Frankelの説明によると、“ユーザーの設定次第で、そのデータに関するコンテキストを書き加えたり、パッケージの取捨選択によって説明文を変えたりできる。もちろんエクステンションが生成するテキストはふつうのドキュメントにコピペしたり、変更を加えることができる”、という。説明文とTableauの対話的な視覚化を、Webページに載せてもよい。

そのChromeエクステンションは現状ではまだ公開プレビューで、今後はもっと高度なNLGをもっと深くTableauに統合することを目指している。また、現在はChromeのみだが、次の段階ではそのほかのいろんなプラットホームでデプロイできるようにしたい、とFrankelは語る。

このパートナーシップの発表の24時間前にTableauは、Adam Selipskyを社長兼CEOに任命した(正式就任は9月16日)。Tableauの協同ファウンダーで現CEOのChristian Chabotは、取締役会の会長になる。

tableau-stock

8月の初めに発表された本年第二四半期のTableauの決算報告は、経費の増嵩のため予想を下回った。今日(米国時間8/23)のニューヨーク証券取引所では、7ドル35セント(13.4%)上昇の62ドル22セントの終値となった。

Narratives for TableauはChrome Web Storeのここで入手できる。入門的ドキュメントはここにある

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebookの人工知能研究所がオープンソースで公開したfastTextは深層学習の遅さを克服したテキスト分類ソフトウェア

facebook-search

Facebookでは毎日、何十億ものコンテンツがシェアされている。その膨大な量とペースに漏れなく遅れなく対応できるためにFacebookは、さまざまなツールを駆使してテキストを分類している。多層ニューラルネットワークのような従来的な方法は正確だが、ニューラルネットワークは訓練が大変である。

分類に正確さと容易さの両方をもたらすために、Facebookの研究部門Artificial Intelligence Research(FAIR)ラボはfastTextというものを開発した。そして今日(米国時間8/18)はそのfastTextがオープンソース化され、デベロッパーはどこででも、そのライブラリを使ったシステムを実装できることになった。

fastTextはテキストの分類と、語のベクタ表現の学習の両方をサポートしている。後者には、bag of wordssubword information(部分語情報)*などのテクニックが用いられる。skip-gramモデルに基づいて語は文字のn-gramのバッグとして表現され、それらは各文字のn-gramを表すベクタで表現される。〔*: 部分語情報、‘あかい’なら、あ、か、い、あか、かい、などが部分語。〕

“カテゴリー数のとても多いデータベース上で効率的であるために、fastTextは階層的な分類を用いる。そこではさまざまなカテゴリーがフラットなリストではなく二分木構造に編成される”、FacebookのArmand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolovらがドキュメンテーションでそう述べている。

bag of wordsのbag(バッグ)は、配列やリストや木(ツリー)などなどと並ぶコンピューター上の一般的なデータ構造の一種で、名前(“袋”)の名のとおり、データに順序性がなく、この場合は各語の出現頻度を各語が情報として持つ。“語(words)”は多次元空間として表現され、クェリとカテゴリー分けされた語の集合との関係を線形代数を使って計算する。コンピューターにテキストを投じたとき、それはゼロからのスタートになる。それに対して人間の大人はすでに文法知識を持ち、どこが語の始まりで終わりかを知っている。コンピューターの計算力は強力だが、そのままでは“I love TechCrunch”と“CrunchLove iTech”の違いを認識できない。そこでこのような方法では、ことばに対する定性的な分析を、統計的手法などにより、定量的な分析へと強制的に変換する。

そして数を操作する処理が主体なので、fastTextは従来の深層学習の方法(多層ニューラルネットワーク)よりも速い。下図は、Facebookが作った比較表だ。実行時間が「秒」の単位なのは、fastTextだけである:

fastTest

fastTextは英語だけでなくドイツ語やスペイン語、フランス語、チェコ語などに対しても使える。

今月の初めにFacebookは、クリックベイトをやっつけるアルゴリズムを同社のNewsfeedに実装した。そのアルゴリズムは言葉以外の要素(繰り返しパターンなど)も点検するから相当複雑だが、デベロッパーはfastTextを利用して同様のツールを自作できる。

Facebookによると、fastTextなら、“ふつうのマルチコアのCPUを使って、10億語を10分弱で学習できる。また、50万のセンテンスを30万あまりのカテゴリーに5分弱で分類できる”、という。これはすごい、かもしれない。

今日(米国時間8/18)からFacebookのfastTextは、GitHub上で入手できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

その言葉は本気かそれとも皮肉か?、ニューラルネットワークがそれを見つける

shutterstock_94007068

テキストによるコミュニケーションには、皮肉やジョークを本気と読み誤る危険性がある。誰にも、その被害者や加害者になった経験があるだろう。そのことに相当懲りたポルトガルの研究者たちは、ニューラルネットワークを利用して、話者の意図が皮肉や嫌味であることを、判断しようとしている。

それは、日常の会話における誤解を防止することだけが目的ではない。コンピューターがメッセージのトーンと意味を正しく判断することは、いろんなことで重要だ。

たとえば、今のコンピューターには正しい感情分析ができない。誰かが何かを好きとか嫌いとか言ったとき、それが冗談か本気かを、事前に人間が知っていなければならない。英語の日常会話で頻用される感嘆詞”great!”も、それが本気か、それとも幻滅を意味する皮肉かを、未来のコンピューターの自然言語処理は正しく見分けなければならない。

でもそれは、容易な問題ではない。まったく同じ文や句読点が、話者が違えばまったく違う意味を表すこともある。たとえば、“Make America great again”(アメリカを再び偉大にしよう)を、Trumpの支持者と彼に反対する者がツイートしたら、それぞれどんな意味になるか。同じ語が、まったく違う意味を持ってしまうのだ。

研究者の一人、リスボン大学のSilvio Amirがこう書いている: “話者の意図が皮肉であることを見分けるには、語彙の意味だけでは不十分である。言葉というものを持つ人間の場合ですら、発話のコンテキスト(文脈)を正しく認識することが不可欠だ”。

彼らの論文が記述しているコンテキストの把握方法は、ニューラルネットワークを使って話者の“埋め込み(embeddings)”*を見つける。それは、コンテキストの鍵となる別の発話内容で、たとえば前のツイートの内容、関連する関心事や別の発話などだ。これらのさまざまな要素を使って話者と他者の関係や立ち位置を判定し、また(できれば)彼らが形成している集団の性質〔例: ジョークを言い合える関係〕を見つける。〔*: embeddings, 埋め込み, 言語学の概念で、発話Aの中に別の発話Bが埋め込まれていること。〕

たとえば、下の小さな雲状グラフは、Twitterの上の、政治家たちとフォロワーの関係を表している。

chart_twittersarc

同じひとつの雲に属するある人のツイートの感情が、多数のフォロワーたちのそれと一致しないときには、それが皮肉である可能性が高い。

この方法にさらに、皮肉を暗示しているテキストの要素を組み合わせると、これまでの方法に比べてやや高い確度で皮肉を見分けられるようになった。‘やや’というのは、従来の方法で85%だった確度が、約87%まで上がった、という意味だ。しかしニューラルネットワークはいったん動き出せば人間による構成や監視の労力があまり要らないので、さまざまなソーシャルネットワークの上でデプロイできるよう拡張するのも、比較的容易だろう。

普遍的な皮肉検出システムは、まだまだ遠い先の話だが、でも不可能ではない。来月行われる、コンピューターによる自然言語学習のカンファレンスCoNLLで、Amirらのペーパーがプレゼンされる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

生命科学研究分野のGoogleを目指すBioz、Esther Dysonから300万ドルを調達

unnamed2

Biozは、研究者がインターネットに公開された何千という科学関連記事を流し読みするのにかかる時間を削減し、直ちに研究に関連性の高い知見を提供しようとする、生命科学実験専用の新しい検索エンジンだ。

カリフォルニア州パロアルトに拠点を置くこのスタートアップは、自然言語処理を用いて公開されている科学論文から記事を抜粋して提供することでこれを実現している。Biozは、製品の選択、実験の計画、論文の執筆、助成金の申請、共同研究、実験と創薬の迅速化などにおいて実験者を支援するプラットフォームとなる。

科学論文の全体検索を提供する検索エンジンは、Biozが初ではない。すでにGoogle Scholarや人気のPLOS ONEによってピアレビュー済みの文献から研究者が利用できる論文を探し出すことができる。しかし、Biozは同社のビジネスモデルが他社とは一線を画したものであると考えている。

Biozは、検索結果の利用に関連して研究者に請求を行わない代わりに、ベンダーに対してクリックごとに一定料金を請求するという。この仕組みの全体像については明らかになっていない。説明は極めて怪しげに聞こえるし、ベンダー向けの広告モデルに関しては無料の競合サイトが存在するが、広報から得た情報によれば、論文を検索している間にベンダーのサイトがクリックされると、ベンダーに料金が発生するのだという。

Biozのクリック単価は、いずれ一定額ではなく生命科学分野の製品のベンダーやメーカーが入札するというGoogle Adwordsと非常に似た形になる、と共同設立者のDaniel Levitt氏は言う。

Bioz検索エンジンは、自然言語処理と機械学習を利用して、ウェブ上に散在する、数億ページにもおよぶ複雑かつ構造化されていない科学論文のマイニングを行い、論文の概要をまとめて研究者が簡単に欲しい情報をクリックして読めるようにする。

「Biozは、検索技術に革命を起こし、研究者に焦点を絞って情報を提供する」と、投資家でCialisの開発者でもあるGary Wilcox博士はBiozプラットフォームについて述べている。

Biozは、40か国にまたがる1000を超える大学およびバイオ医薬品企業の学術研究ラボや産業R&Dラボなどに所属する3万人以上のユーザーが完全に無料で同社の検索エンジンを使用しているとしている。

Biozは、すでにEsther Dysonを含む投資家からシードファンディングとして300万ドルを調達したことを発表している。

「Biozのビジネスモデルは一見すでに購入可能なものに関連するものですが、背景には『すべてに注意を払うべきである』という不文律があります」と、Dyson氏は投資の理由を説明している。「Biozは、気づかれにくいそのような外的要因をすべて把握する助けとなるのです」

[原文へ]

(翻訳:Nakabayashi)

Google、クラウド自然言語APIを公開―英語、日本語、スペイン語に対応

DUBLIN, IRELAND - APRIL 19:  (FRANCE OUT) A general view the Google European headquarters, on April 19, 2016 in Dublin, Ireland.  (Photo by Vincent Isore/IP3/Getty Images)

今日(米国時間7/20)、Googleはクラウド自然言語API(Cloud Natural Language API)の公開ベータ版をリリースしたことをブログで発表した。デベロッパーはこの新しいサービスにより、Googleが開発したセンチメント分析、 表現抽出、シンタックス解析などの利用が可能になる。

新しいAPIはこれも公開ベータ版であるGoogleの訓練ずみ機械学習API、 クラウド・スピーチAPI(Cloud Speech API)視覚API(Vision API)翻訳API(Translate API)と連携させることが可能だ。

現在、クラウド自然言語APIは英語、スペイン語、日本語のテキストに対応している。Googleによれば新APIは「業種を問わず、広い範囲の企業、デベロッパーに高効率でスケール可能なサービスを提供する」ことが目的だという。

センチメント分析や表現抽出の提供はもちろん新しいアイディアではない。表現抽出の例としてはたとえば10年近く前にスタートしたThomson ReuterのOpen Calaisがある。これはテキスト中の人名、組織名、地名、出来事名などを自動的に認識してラベル付けできるサービスだ。センチメント分析についても事情はほぼ同じだ。

それに反して、自然言語を品詞分解し、依存関係をツリー構造でパースできるシンタックス解析APIは、まだそれほど普及していない。デベロッパーが新APIをアプリにどう統合するか注目だ。当然ながら自然言語解析は チャット・ボットなどがユーザーから寄せられる自然言語によるリクエストを正しく認識する基礎となる。

自然言語APIの料金はどのAPIを利用するか、どれほどのデータを処理するかによって違ってくる。3つのAPIについての料金は以下のとおりだ。

image (3)

80種類以上の自然言語をサポートするクラウド・スピーチAPIの場合、料金は処理しようとする音声の長さに基づいて計算される。月額計算で最初の60分は無料、それを超える場合15秒ごとに0.006ドルが加算される。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

チャットボットには大きな将来性―ただし現行製品はどうしてああもダメなのだろう?

2016-05-31-chatbot

この記事はCRUNHCH NETWORKのメンバーでEvaのファウンダー、CEOのFaisal Khalidの執筆。Evaは消費者向けモーゲージに関するチャットボットを開発中。

今年に入ってチャットボットについてのニュースをあちこちで見かけるようになった。まずMicrosoftがTayを発表したが、>女性の声でしゃべるのが性差別主義的だと非難されただけでなく、悪意あるユーザーに教えられた通りにあらぬことを口走るようになってしまった。次にFacebookがMessengerのボットをリリースしたが、上々の滑り出しとはみえない。それからAppleのVivが話題となった。一見したところSiri 2.0のように思えたのも無理はなく、開発者はSiriと同じだった。

ニュースだけは賑やかだったが、驚くべきことに、本当に出来のいい製品は一つとしてなかったように思える。

もちろん「本当に出来のよい製品」の定義をめぐって面倒な議論を始めることは可能だ。しかし簡単にまとめれば、素晴らしい製品には3つの特長がある。 (1)機能が分かりやすく使い勝手がいい。 (2) 99%以上の稼働率、(3)なんであれ、ユーザーが厄介だと感じる作業を大幅に肩代わりしてくれる。

そこで最初の問題に戻る。なぜチャットボットというのはああもダメなのだろう? ダメ、というのは、私には広くユーザーから喝采を受けているチャットボットが一つも思いつかないからだ。もっと重要なことだが、アプリよりも使い方が簡単なチャットボットの例も浮かんで来ない。どうしてこういうことになっているのか、少し詳しく検討してみる必要がありそうだ。

あまりに手を広げすぎたチャットボットは失敗する

VivとSiriがこの範疇に入る。どちらも「あらゆる問題に役立つ」ことを目標としたため、個々の問題を解決する能力が落ちてしまった。「すべてに対応する」という目標がなぜ問題を引き起こすのか理解するためにはチャットボットの動作の仕組みを理解する必要がある。

チャットボットは通常、「脳」と「ボディー」の2つの部分から出来ている。

まず「脳」だが、これは自動車を考えると分かりやすい。車にはエンジンが積まれていて車を走らせる。ボディーはユーザーの必要に応じてカスタマイズできる。ほぼ同じエンジンを積んでいてもボディーはSUVであったり、GTであったり、普通のセダンであったりすることが可能だ。

チャットボットも同様で、「脳」はユーザーの人間が発した言葉の意味を受け取り、実行可能なコードを生成する。狭い範囲の目的に特化したボットの場合、人間が発することを予期する言葉も狭い範囲に限定される。

たとえば、飛行機のフライトの予約に特化したボットを考えてみよう。フライト予約に関連して人間が発する可能性のある単語は100語から200語くらいだろう。そこでこうした発言を理解するボットを開発するのは難しくない。そんなボットなら私でも1週間で書けるし、その反応は99%以上適切だろう。しかしもっと広い範囲をカバーするボットを開発しようとすれば、それだけ多数の文が処理できなければならない。Siriのように「どんな場合にも役立つ」ボットであれば、理解しなければならない文の数は無限に近くなる。

「あらゆる文を正しく理解する」というのは信じがたいほど困難な作業だ。ほとんど無限といってよいエンジニアリング上の努力と時間を必要とする。人間の子供が言語を正しく使えるようになるのに数年かかるなら、人工知能が言語を理解できるようになるにもそのぐらいかかるだろう。しかし人間でさえ常に理解が成功するとは限らない。それは自然言語にはきわめて非論理的な側面があるからだ。たとえば6歳の子供は次に何を言い出すか分からない。しかし40歳の大人が相手だったら次に何を言いそうか予測することははるかにやさしい。

チャットボットのもう一つの要素は「ボディー」だ。私が上で述べたように、こちらは比較的「やさしい」部分だ。量は巨大であっても中身は「知識」にすぎない。ターゲットとする分野にもよるが、適切なカスタマイズにはもちろん多大のリソースを必要とする。さきほど述べたようにフライトの予約に役立てたいだけなら知識の量はさほど必要ない。おそらくはTripAdvisorのAPIを使うだけで相当に実用的なチャットボットが作れるだろう。

「なんでもできる」上に「非常に優秀」であるようなチャットボットはまず存在しない

私は金融分野で役立つチャットボットの開発を行っているが、この分野のハードルは非常に高い。必要とされる知識は莫大なもので、それをボットが利用できるように整理するためには非常に時間がかかる。金融サービスのサイトを見てみればわかるが、この分野の言語は特殊だ。チャットボットは、定義上、普通の人間が話したり、しゃべったりすることを理解でき、そのように話したり、しゃべったりできなければならない。金融は当然ながら複雑で理解が難しい分野だ。金融サービスの術語や特異な表現をチャットボットが話す言葉に翻訳するのはおそろしく時間がかかり、ハードルが高い作業だ。

本当に知的な作業ができるボットを作るのも難しい

こう言えば驚く読者も多いだろうが、現行の チャットボットの大半は実は全く知的ではない。ともかく私が使ったことがあるボットは知的ではなかった。チャットボットが知的かどうかは主として次の2つの基準で判断できる。(1) サービスが自己完結的であり、利用を続けるうちに自然と賢くなる。 (2)ユーザーは文字通り自由に文を組み立てて質問ができる。

具体例を考えてみよう。MicrosoftのチャットボットのTayは知的なボットの代表だろう。話しかけれられたことを何でも理解しようと務める様子がみえる。利用時間とともに機能も向上していく、つまりいちいち命令を受けなくても、聞いた言葉からパターンを抽出し、理解できるようになるはずだ。少なくとも理屈の上からは、そうだった。では知的でないボットの例はというと、残念ながらFacebook Messengerのボットの大部分、CNNのボットなどがそうだ。これらのボットが理解できるのは事前に用意された定型的な文だけだ。

ところが注意しなければならないのは、実際に役立つ―つまり予期せぬ動きをしたりぜず期待されたとおりに仕事をこなす―ボットは知的でない製品だ。その理由はこうしたボットは事前に決められた有限の道筋しか辿らないので失敗しないのだ。

デモでクールなチャットボットのUIを書くのは面倒な作業

こkで面白い点がある。われわれが見たチャットボットのデモのほとんどは(たとえばVivなど)こうした面倒な点をまったく無視している。優れたアプリの場合、ユーザー側の入力はほとんど必要ない。何度かスワイプし何度かクリックすれば終わりだ。それで役目は果たせてしまう。キーボードからのタイプはほとんど必要ない。ところがチャットボットではそうはいかない。

チャットボットは物事の説明を練習するには良い―うまく説明できるまで質問攻めにされる

現在のところ、たいていのチャットボットは音声認識をサポートしていない。そこでユーザーはひたすらタイプ入力を強いられる。当然ながらこれはスワイプやクリックに比べて時間を食う作業だ。その結果、チャットボットはアプリよりはるかに効率が悪いという結果となる。直感には反するかもしれないが、これが現実だ。しかも入力した文をボットが理解できない場合、ユーザーは同じ質問を別の表現に変えて再入力しなければならいので、能率はさらに悪くなる。

チャットボットは失敗を運命づけられているのか?

もちろんそんなことはない。その反対だ。しかし現在チャットボットはきわめて初歩的な段階にある。 ブラウザでウェブサイトを使うのに比べて専用アプリのほうがはるかに処理が速く、使用も簡単なことは10年から15年前に分かっていた。モバイル・アプリのメリットは当時から明白だった。

ところが現在チャットボットを利用してみても、メリット―スピードと使い勝手―は明白とはいえない。 またスピードが速く使い勝手がいい場合でさえ、正確性が不足しているために仕事に使えるのかどうか確信が持てない状況だ。

個人的な意見だが、「知的でない」なチャットボットがまず実用になると思う。たとえばカスタマー・サービスでFAQに答えるような場合には役立つだろう。また金融サービスのような複雑な問題をわかりやすく説明するのにも好適だ。もしもっと複雑な問題、たとえばそれまで接触がなかった顧客が家を買おうとするような場合に、必要な情報を細大漏らさず提供できるようなボットができればその価値は計り知れない。

チャットボットは同じ質問に疲れることなく繰り返し繰り返し答えることができる。ユーザーは納得がいくまで細かく質問できるし、ボットはそれに応じて細かい点まえ説明できる。またチャットボットは、長い入力書式を代替するのにも向いていると思う。書式に延々と入力させるのはいかにも非人間的だ。ボットの方がずっと人間味があるだろう。つまり起業家がチャットボットでビジネスを考える場合、適用可能な分野は数多くあるということだ。

最後にVivについて

一部にVivについての誤解があるようだ。まずVivはSiriではない。つまり「なんにでも対応」することぉ目的とする独立のチャットボットではない。先ほどの比喩でいえば、Vivは「脳」ないし「エンジン」の部分に相当する。Vivは回答に当たってサードパーティーのAPIからの入力を前提としている。Vivは他のチャットボットないしチャットボットAPIを作動させる共通のプラットフォーム、いわばチャットボットのOSとなることを目指している。

もしVivが成功するなら、やがてチャットボットのApp Storeのような存在となるだろう。チャットボットのデフォールトのプラットフォームを狙うんはFacebook MessengerやSlack、さらにその他のSNSも同様であり、Vivのライバルになるだろう。

さてチャットボットの将来は以上述べたようになるだろうか? 実のところ私にも確信はない。私はVivのような中央集権的、OS的なチャットボットが存在するのが良いことかどうかについても確信はない。われわれは新しいアプリが必要なときはApp Storeに探しに行く。将来はチャットボットもApp Storeのような場所に探して行くことになるのだろうか? 今は分からないとしか言えない。しかしやがて判明するときが来るだろう。

F画像: photosync/Shutterstock

[原文へ]

(翻訳:滑川海彦@Facebook Google+

TechCrunch Disrupt:Siriの共同ファウンダーが音声認識で会話する次世代AI、Vivアプリをデモ

2016-05-10-tcdisrupt_ny-kittlauspg

自然言語の音声認識をベースにした人工知能インターフェイスの有用性はコンピューティングにおける新たなパラダイムシフトを起こしつつある。

今日(米国時間5/9)、ブルックリンで開幕したTechCrunch Disrupt NYのステージで、Siriの共同ファウンダー、元CEOのDag Kittlausが新しい人工知能プラットフォーム、Vivで開発されたアプリを初めて公開デモした。Kittlausによれば、Vivは「すべてに対応する知的インターフェイス( intelligent interface for everything)」だという。

VivのデモでKittlausは事実、「パラダイム」という言葉を少なくとも10回は使った。Kittlausは次世代のコンピューティングについても触れ、Vivが「さまざまな対象にいわば命を吹き込み、人間との会話を可能にするだろう」というビジョンを述べた。

目を皿のようにした大観衆の前だったにもかかわらず、ライブのデモは目立った齟齬もなくスームズに進んだ。

Kittlausはまず「今日の天気はどうなるだろう?」という質問からデモを始めた。そこから話題はVivがいかに複雑な問題に取り組まねばならなかったが説明された。

「ゴールデンゲートブリッジ付近で、明後日の午後5時以降、華氏70度(21℃)以上になるだろうか?」とKittlausはステージ上でVivに尋ねた。

Vivはこの質問に難なく答え、これに続く奇妙なほど詳細な質問にも適切に対応した。

Dag Kittlaus of Viv

このレクチャーで明らかになったVivの強みの一つはサードパーティーを歓迎するオープンな姿勢だ。Vivはデベロッパーがアプリを開発する際に組み込まれるバーチャル・アシスタントのプラットフォームだ。デモでKittlausはVivに友達に20ドル支払うよう命じた。するとVivは提携アプリのVenmoを立ち上げ、「支払」ボタンが表示された。あとは1回タップするばかりとなった。

Kittlausは「サードパーティーのエコシステム」がVivにとって決定的に重要であることを強調した。KittlausはVivが将来、「ユーザーにとって普遍的なリソース」となることを期待している。

Vivの特長の一つは「質問の積み重ねが可能」な点だ。Siriは一つ質問に答えられても、その後は何を質問されたか忘れてしまう。これに対してVivはある質問に答えた後でも何を質問されたか覚えており、最初の質問をフォローする質問を受けた場合もよどみなく適切に反応する。

TechCrunchの編集長、Matthew Panzarinoの壇上での質問に答えてKittlausは他のAIアシスタントとVivとの差異を詳しく語った。

それによると、Vivの強みの秘密は「ダイナミックなプログラム生成」にあるという。固定したプログラムにもとづいて固定した反応を返すのではなく、VivのAIは質問を理解するとそれに適切に答えるためのプログラムを動的に生成する。

Kittlauは「プログラマー側で処理コードを1行ずつ書く必要なしに、Vivは尋ねられたことに答えるための処理を行うプログラムを自ら書く。Vivの最大のメリリットはアプリのプログラマーが〔AIの詳細に立ち入らずに〕どんな反応が必要かさえわかっていればいいという点だ」と述べた。

デモを見ているうちに、必然的にSiriとの比較が頭に浮かんだ。Siriはデビュー当初、画期的な進歩だと賞賛されたものの、次第に欠点も浮き彫りになっていった。現在、Siriについて「日常の情報源として利用するには信頼性が不足している」という批判が強まっている。

この状況は、SRIで開発された人工知能テクノロジーを2007年にSiriとして実用化したのがほかならぬKittlausのチームだったという点で皮肉だ。Siriが発表されたとき、Kttlausが用いた表現は、Vivの将来を描写した表現とよく似ている。Siriは当初オープン・コンピューティングをサポートするとしており、リリース時点で45種類のサードパーティーのサービスをサポートしていた。しかしSiriはその後すぐ、2010年に2億ドルでAppleに買収され、iOS専用のアシスタントとなり、サードパーティーのサポートはすべて打ち切られた。

Vivの開発はこの4年間、どちらかというとステルス的に行われてきた。Vivは昨年、Iconiq Capitalから1250万ドルを調達したが、Forbesの記事によれば、それ以外にもFacebookのマーク・ザッカーバーグやダスティン・モスコヴィッツ、シェリル・サンドバーグ、Twitterのジャック・ドーシー、LinkedInのリード・ホフマンらに支援されているという。

Q&Aセッションでは聴衆からWashington Postが報じたようなFacebookやGoogleによるVivの買収の可能性に関する質問が出た。これに対してKittlausは「そういう噂があるようだ。誰でも記事を読むことはできる」と受け流した。

この質問はVivにしたほうがよかったかもしれない。

聴衆からはVivが広く利用可能になるのはいつかという質問が多数出たが、Kittlausは特定の日時を明かすことを避けた。ただし「最初の提携アプリは今年後半には登場するだろう」と述べた。

[原文へ]

(翻訳:滑川海彦@Facebook Google+