Javaによるディープラーニングライブラリをオープンソースで提供するSkymindが$3Mを調達

Lines and dots interconnecting, conceptual illustration.

オープンソースでJavaのディープラーニングライブラリとその一連の実装ツールを作っているSkymindが今日、Tencent, SV Angel, GreatPoint Ventures, Mandra Capital, Y Combinatorらによる300万ドルの資金調達ラウンドを完了した。Y Combinatorの2016冬季クラスで育ったSkymindは当初、Joe MontanaのLiquid 2 Venturesやそのほかの著名なエンジェルたちから資金を得ていた。

協同ファウンダーでCEOのChris Nicholsonは、ディープラーニングの研究者たちが相次いで学究の世界を去り、大手テクノロジー企業の6〜7桁社員(年俸数十万〜数百万ドル)になっていく傾向を見て、Skymindの創業を着想した。人的資本はますます希少財になりつつあるから、多くの企業はディープラーニングという新しい技術にも、既存の人的資源で対応せざるをえない。誰もが使えるオープンソースのライブラリは、このような困難な一般状況に、一石を投ずることができる、と彼は考えた。

今世界で、最も多く(約80%)のプログラマーが熟達しているプログラミング言語がJavaである。Nicholsonと彼の協同ファウンダーAdam Gibsonは、これらのプログラマーがAIの開発もできるようになるための、方法はあるだろうか?と考えた。そしてその考えがライブラリDeeplearning4jへと結実し、Skymindの核となった。

Nicholsonは、SkymindはディープラーニングのRed Hatだ、と言う。エンタープライズソフトウェアをもっぱらオープンソースで作っているRed Hatは、今では年商15億ドルを超える企業に育っている。

Fortune 100社のためのソフトウェアをオープンソースで作り続けることは、決して容易ではない。しかし、オープンソースは企業に十分な競争力を与えるだけでなく、最良のエンジニアを雇用できる機会にもなる。

Skymindは今15名を雇用しているが、本社が裕福なパロアルトやSoMaなどにあって全員がそこに勤務している、という形ではない。チームのメンバーは、日本、韓国、オーストラリアなど世界各地に散在している。そしてこれらのエンジニアの多くが、Skymindのオープンソースコミュニティに属し、ライブラリの各部分を担当している。たしかに小さな本社がSoMaにあるが、それは同社のビジネスにとって重要ではない。

Skymind

フランスの大手通信企業(年商420億ドル)Orange SAはSkymindとその実装ツールSkymind Intelligence Layer(SKIL)を使って、ディープラーニングのプロジェクトを構築している。SKILは、Hadoopなどの既存のツールとSkymindとの接続と対話をサポートする。Nicholsonによると、金融サービスやeコマースなど従来からデータ量の多い業界からの引き合いも、このところ少なくない。その中には、中サイズの企業もいる。

Google(TensorFlow)、Amazon(DSSTNE)、Baidu(PaddleOne)などの巨大テクノロジー企業はそれぞれ自社で巨額を投じてオープンソースのディープラーニングライブラリを開発し、それらを外部のアプリケーションも利用している。しかしそれらは残念ながら、Javaのライブラリではない。

Skymindのライブラリは、先月だけでも22000回ダウンロードされ、各月の前月比で20%近く伸びている。Nicholsonによると、今後はデータサイエンティストのための開発ツールも作っていきたい。そのツールには、報酬方式の機械学習の一種である強化学習(reinforcement learning)へのアクセスを、既存企業のために民主化するパッケージも含まれるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google、ニューラルネットワーク機械学習を検索翻訳に適用―第一陣は中国語/英語

2016-09-29-machine-translation-ai-shutterstock_181640888

ある言語を別の言語に翻訳するのは難しい作業だ。言語の自動翻訳システムを開発することはコンピュータ処理の目標の中でも非常に困難な部分だ。一つには、取り扱う対象となる語句の数が膨大になるからであり、それらを統べる規則を発見することは非常に難しい。幸いなことに、ニューラルネットワークは膨大かつ複雑なデータの自動的な処理が得意だ。 Googleは機械学習を利用した自動翻訳を長年にわたって開発してきたが、昨日(米国時間9/27)からその第一陣を公式にスタートさせている

このシステムはGNMT(Googleニューラル機械翻訳=Google Neural Machine Translation)と呼ばれる。GNMTの最初のサービスは、中国語/英語の検索の自動翻訳だ。これは既存の検索システムを基礎としてニューラルネットワークを利用して改良したものだ。以下自動翻訳がどのように発達してきたか、その歴史を歴史を簡単に振り返ってみたい。

語句単位の直接置き換え

子供にせよコンピュターにせよ、いちばん直接的で簡単なのは単語やフレーズを単純に別の言語に置き換えることだろう。この方式ではニュアンスはもちろん、文の意味さえまったく失われることがある。しかしこの単純置き換え方式は対象となる文章が何について述べているか大まかな雰囲気を最小の労力で示してくれる。

言語は語句の組合せで成り立っているので、論理的に考えて、自動翻訳の次のステップはできるかぎり大量の語句とその組合せの簡単なルールを収集し、翻訳作業に適用することだ。しかしそのためには非常に多量のデータを必要必要とする(単なる二ヶ国語辞書ではとうてい足りない)。たとえば同じrunという動詞一つ取ってもrun a mile〔1マイルを走る〕、 run a test〔テストを実施する〕、run a store〔店を運営する〕ではまったく意味が違ってくる。この違いを見分けるためには膨大な例文の統計的処理が必要になる。しかしコンピューターはこうした処理が得意だ。そこで必要なデータとルールが収集されれば語句ベースの自動翻訳を実用化することができる。

もちろん言語ははるかに複雑だ。しかし単純な語句ベースの置き換えの次のステップでは複雑性やニュアンスが飛躍的に増大し、その処理に必要なコンピューティング・パワーも比例して増大する。しかし複雑なルールセットを理解し、それに基づいた予測モデルを作るのはニューラルネットワークの得意とするところだ。自動翻訳ではこの分野が長年研究されてきが、今回のGoogleのGNMTの一般公開は他の研究者に大きなショックを与える進歩だろう。

GNMT(Googleニューラル機械翻訳)は機械学習の翻訳への応用として最新かつ格段に効果的な手法だ。GNMTは文全体を視野に入れながら個々の語句にも細かい注意を払っている。

Google's animation shows how the parts of a Chinese sentence are detected and their relevance to the words to be translated weighed (the blue lines).

アニメによる中国語の翻訳の説明。中国語の単語が探知されると翻訳されるべき言語との関連で重み付けがなされる(青い線)。

全体を眺めながら細かい部分も意識しているという点で、われわれが画像を認識するときの頭脳の働きに似ている。しかしこれは偶然ではない。ニューラルネットワークは人間の認識のプロセスを模倣して対象が何であるか判別できるよう訓練される。したがって画像をゲシュタルトとして認識することと文の意味を認識することの間には単なる表層的なもの以上の類似点がある。

興味ある点だが、ニューラルネットワークの応用としては、言語のみに特有な点はほとんどない。このシステムは未来完了形と未来進行形の区別はできないし、語句の語源やニュアンスについても知らない。すべては数学モデルであり、統計処理として実行される。いわゆる人間の感性は入って来ない。翻訳という人間的作業をメカニカルな統計処理に分解してしまう手際には感嘆せざるを得ないが、ある種の気味の悪さも感じる。もちろんGNMTはそのようなメカニカルな翻訳で十分であり、それ以上の技巧や深い解釈は必要とされない分野に対応したシステムだという点に注意が必要だろう。

技巧を取り除くことによって技術を進歩させる

GNMTついての論文には、計算処理量の縮減という技術的ではあるが、重要な進歩がいくつか紹介されている。計算量のオーバーヘッドが大きくなり過ぎるというのは言語処理のシステムでよく見られる陥穽だ。

例えば、言語システムはめったに使われない珍しい単語によって窒息することがある。使用頻度の少ない語句は他の語句の文脈の中に適切に位置づけることが難しい。GNMTは珍しい語句をほぼ同じ意味で使用頻度の高い語句に分割し、置き換えることによってこの困難を迂回する。システムは置き換えられた語句を他の語句との関連で組織する。

正確性をある程度犠牲にすることによって実際の計算時間が短縮される。この処理にはニューラルネットワークを訓練することを念頭に置いて設計されたカスタム・ハードウェアであるGoogleテンソル計算ユニットが用いられる。

機械学習におけるインプット・システムとアウトプット・システムは大きく異る。しかし両者が接触するインターフェイスを通じて情報をやり取りし、協調して訓練されるることによって統合的な結果を生成するプロセスだという点は共通だ。ともあれ私が理解できた範囲ではそういうことになる。論文にはさらに詳しい情報が掲載されているので、そういう情報が必要な読者は参照されるとよいだろう。

結果としてニューラルネットワーク機械学習システムはは語句ベースの置き換えシステムをはるかにしのぐきわめて正確な結果をもたらす。翻訳品質は人間の作業のレベルに近づく。自らのビジネスの本質に関わる検索という分野でGoogleがウェブとアプリで動作するシステムを一般公開するのであれば高品質でなければならないというのはよく理解できる点だ。しかもターゲットは中国と英語という変換作業が非常に困難な組合せだ。

image00

スペイン語とフランス語についても良好なテスト結果が得られているという。おそらくここ数ヶ月のうちにGNMTはそれらの言語に拡張されるはずだ。

ブラックボックス化というトレードオフ

こうした手法のデメリットの一つは、機械学習を利用した予測モデルに往々にして生じる問題だが、内部でどのような処理が行われているのか実際のところ誰も確かめることが出来ないという点だ。

GoogleのCharina ChoiはTechCrunchの取材に対して「GNMTは他の大規模なニューラルモデル同様、膨大なパラメーターの集合であり、訓練の成果がどのような内部処理となっているのか見通すことが難しい」と述べた。

もちろんこれはGNMTをデザインしたエンジニアがこのシステムが何をしているのか理解できないという意味ではない。しかし語句ベースの置き換え型翻訳は、結局のところ人間が個別パーツをプログラムしている。したがってある部分が間違っていたり時代遅れになっていることが判明すれば、そのパーツをまるごと削除したりアップデートしたりできる。ところがニューラルネットワーク利用システムの場合、何百万回もの訓練セッションを通じてシステム自身が自らをデザインするため、何かがうまく行っていないことに気付いても、簡単にその部分を置き換えることができない。訓練によって新しいシステムを作り出すのは困難を伴う作業となる。もちろんそれは実行可能だし、場合によっては短時間しかかからないはずだ(また、そのように構築できるなら新たな課題が発見されるたびに自らを改善していくシステムとなっているだろう)。

Googleは機械学習に同社の将来の大きな部分を賭けている。今回公開されたウェブおよびモバイルでの自動翻訳検索はGoogleのニューラルネットワーク応用システムの最新かつもっとも目立つ一例だ。ニューラルネットワークはきわめて複雑、難解でいく分か不気味でもある。しかしこの上なく効果的であることを否定するのは難しい。

画像: razum/Shutterstock

〔日本版〕原論文はコーネル大学のアーカイブ・サイトにアップされたPDFファイル。誰でも無料でダウンロード可能。名前から判断すると研究者のうち3人は日本人(日系人)らしい。ただし日本語については音声認識における語句切り分け問題に関して言及があるだけで、日本語のGNMT翻訳については特に触れられていない。しかし従来の例から考えて日本語のGNMT応用についても研究は進んでいるはず。近い将来何らかの発表があるものと思われる。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

子どもの言語障害の早期発見を機械学習が支援、家庭でスマホで検診ができる

shutterstock_435914203

言語障害の検診は早めに、しかも複数回やれ、と言われる。でも、すべての子どもをタイミングよく検査できる設備と要員が完備している地域は、そう多くない。しかし、ここでご紹介するMITの研究結果が正しければ、少なくとも基本的な検査は、自動化され、家庭でもできるようになるだろう。

サンフランシスコで行われたInterspeech カンファレンスで、同校のコンピューター科学者たちが、その新しいテクニックを説明した。まだ開発の初期的な段階だが、かなり期待を持てそうだ。

神経の障害のために、会話(発話と相手の言葉の理解)がうまくできない子どもたちは、ある種のテストで一定のパターンを示す。それは、複数の画像を見せ、それらについてお話をさせるテストだ。休止や、特定の時制や代名詞でのつまづき、そういった小さなことが、深刻な問題の指標であることもある。

院生のJen GongとJohn Guttag教授が作ったそのシステムは、まず、子どもたちのそんなお話の録音を多数、機械学習システムに聞かせる。そのデータ集合を細かく分析することによって、システムはいくつかのパターンを学習する。それらは、健常者のパターン、発達障害に顕著なパターン、初期の言語障害を示すパターン、などだ。それらは、これまでの研究で確証されているパターンなので、問題はない。

専門教育を受け、訓練を積んだ専門家に代わるものではないが、でも専門家をアプリに詰め込むことはできない。システムは、現状で精度も実用レベルに達しており、どんなスマートフォンからでもできる検診なので、障害の早期発見早期治療に貢献するだろう。

でも、まだまだやるべきことはある。

“大量の良質なデータにより、今後ともシステムを訓練していく必要がある”、とGongは述べている。“子どもたちの発達過程はきわめて多様だから、健常と障害の両方について、いろんな子どもたちのデータを集めることが、システムのより良質な判断力を育てる”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Appleがまたまた機械学習企業を買収、今度はオープンソースプロジェクトFiloDBのTuplejump

apple-hq

Appleはこのところ、マシンラーニング(機械学習)の企業を買いまくっている。昨年末にはPerceptioを買い、わずか数か月前にはTuri、そして今度はインドとアメリカにまたがる機械学習企業Tuplejumpを買収した。

Appleがまた買うらしい、という噂は前からあった。AppleにTuplejumpの買収について確認を求めたら、例によって、イエスでもないノーでもない、という答えが返ってきた。それは、買った、というサインなのだ:

Appleは小さなテクノロジー企業をときどき買収するが、一般的にその目的や計画については議論しない。

Tuplejumpを知ってる人いる? 知らなくて当然。機械学習の企業に、いわゆる有名企業はほとんどいない。データサイエンティストなら知ってるかもしれないけど。TuplejumpのWebサイトは買収後に撤去されたが、Wayback Machineがとらえたそのaboutページには、こう書かれている:

数年前に人びとは、企業が生成するデータの量が手に負えないほどの大きさになりつつあることに気づいた。この大量のデータを扱う新しいタイプの企業集団が登場してきた。弊社は、そういう、いわゆる‘ビッグデータ’技術の初期的採用者のひとつである。弊社はFortune 500社の企業によるこれらの技術の採用を支援してきたが、そこでたちまち理解したのは、それがきわめて複雑であることと、その複雑な技術を単純化することの重要性だった。

かくして弊社の、データ管理技術を単純化し、それらを極限まで使いやすくするための探求が始まった。弊社は、使いやすくて、スケーラブルで、人びとが巨大なデータ集合に対して難しい問を投ずることのできる技術を、構築している。

買収の条件(価額など)は、わからない。

聞くところによると、Appleがとくに関心を寄せているのは、オープンソースの“FiloDB”プロジェクトで、Tuplejumpはそれを開発しつつ、機械学習と、大量の複雑なデータの、リアルタイム・ストリーミングのレベルでの分析に応用しようとしていた。FiloDBのGitHubページによると、プロジェクトの最初のリーダーはEvan Chan、そしてChanのLinkedInページには、彼が2015年の8月以降Tuplejumpにいた、とある。

FiloDBは今後もオープンソースのプロジェクトとして存続するのか? そのリポジトリはこれまでTuplejumpのアカウントに置かれていたが、最近独自のリポジトリを持ち、最近の数週間でも新しいコードがこのプロジェクトへコミットされている(開発は生きている)。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleはTensorFlowによる画像キャプションモデルをオープンソースに、物認識から状況認識への進化をねらう

Fans using smartphones at a concert

ぼくの世代〔John Mannes, 1995/11生〕は、ほぼ全員がInstagramにはまっている。でもぼくは、2015年にこのプラットホームを去った(ごめんなさい)。理由は単純で、どの写真をポストするか、なかなか決められないこと、そして、簡潔で魅力的なキャプションを考えるのに、いつも苦労するからだ。

Google TensorFlow Captioning

画像提供: Google

でも、ぼくと同じ問題を抱えているひま人は、Google TensorFlow〔昨年オープンソース化〕の画像キャプションモデルを利用すれば、そのくだらない第一世界問題に終止符をうてるだろう。ぼくも、それが楽しみだ。右の、“A person on a beach flying a kite.”(ビーチで凧をあげている人)なんか、すごくビューティフルでクリエイティブだよねー。〔皮肉〕

ジョークは置いておくとして、GoogleのBrainチームの研究員社員たちが作ったこの技術は、なかなかのものだ。“Show and Tell”(見せる/教える)というキュートな名前のこのプロジェクトの精度は93.9%だそうだ。精度は、89.6%、91.8%とバージョンを重ねるたびに上がってきた。分類というタスクは、精度が少し上がっただけで有用性が大幅に向上する。

そこまで到達するためにチームは、視覚と言語の両方でニューラルネットワークを訓練してきた。用いた教材は、画像と、それに人間がつけたキャプションだ。そのおかげでこのシステムは、画像中の物(砂、凧、人)を認識するだけでなく、説明的な文章を生成できる。精度の高いモデルを作るための鍵は、物と物の関係、という要素を導入したことだ。たとえば上の写真では、男の上に凧があるのではなくて、男が凧をあげているのだ。

Google TensorFlow Image Caption

>画像提供: Google

チームは、このモデルは教材中の語句をオウムのように真似しているのではない、と主張する。たとえば左の例では、複数の画像のパターン(左図の左)を合成して、これまで見たことのない画像(左図の右)のためのキャプションをオリジナルに作っている。

この画像キャプションモデルのこれまでのバージョンは、一教材につきNvidia G20の上で3秒の訓練時間を要していた。しかし今日オープンソース化されたバージョンでは、その1/4、0.7秒だ。昨年はMicrosoft COCOと横並びにまでこぎつけたが、今のバージョンはそれよりさらに高性能、ということだろう。

数か月前にラスベガスで行われたComputer Vision and Pattern Recognitio(コンピュータービジョンとパターン認識)カンファレンスでGoogleは、このモデルについて説明し、画像中の物を認識できるだけでなく、人間がキャプションをつけた画像で訓練することにより、画像中のばらばらの要素を組み合わせてキャプションを作れる、と述べた。

物をコンテキスト(それが置かれている文脈、状況)に結びつけることは人工知能の長年の難関だったが、このキャプションモデルはそれの解決に向けての第一歩かもしれない。コンピューターが画像や映像を見て状況を認識できるようになったら、たとえば、警察から逃げようとしている人と、そのおそろしい場面から逃げようとしているたまたま居合わせた人とを、正しく区別できるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

「ボット倫理」が問題になるのはこれから

The meeting of the toy of the robot of the tinplat

【編集部注】著者のAmir ShevatはSlackの開発者リレーションの責任者。

ボットは私たちの生活の一部になってきている。朝目覚めると、私はAlexaにブラジルのサンバを再生するように伝え、Amyにミーティングのセットアップを任せ、Slackで現在の状況とレポートを知る。ボットビルダーたちと同様にユーザーたちも、ボットが私たちの生活の不可欠な一部であることを理解し始めている。しかし、これらの新しいハイテク友人たちを支配するルールは何だろう?

所有権

人びとが訊ねるべきでありながら、結局訊ねることのない1つの大きな質問は、「このボットは私をサーブしているのか?あるいはサービスプロバイダーをサーブしているのか?」というものだ。言い換えれば、「このボットは私の関心を中心に振る舞っているのか、それとも他の誰かの関心が中心にあるのか?」ということだ。食品注文ボットは高価だったり/低品質だったりするアイテムを推薦してくるのか、あるいは最適価格の高品質食品をお勧めしているのか?人事部(HR) ボットは私をサーブしているのか、それとも会社なのか?保険ボットは保険金請求を行おうとする私を手助けしてくれるのか、それともそれを妨害しようとしているのか?

知的財産権の問題も存在している:ボットによって作られた、あなたの写真をコラージュに仕立てた作品/写真は、誰が所有しているのか?あなたのショッピングの嗜好を所有しているのは誰なのか?

パーソナルアシスタントボットはユーザーの立場でヒントを出し、一方業者代理ボットに話しかければ、業者の立場でヒントが出されてくる。ユーザーとサービスプロバイダの違いは常に明らかとは言えず、またしばしば想定もされなければ、考えられることもない。GmailやFacebook上の写真を考えてみよう ‐ 誰がそのデータを所有しているのか?同じ質問は私たちボットにも向けられる。

私の所有権に対する立場は – 私はユーザーによる所有権に意味がある場合もあれば、サービスプロバイダーが所有権を明確に主張できる場合もあると考えている。

鍵となるのは、誰が何を所有していて、どれが利用者の選択によって提供されているサービスなのかが、明確で透明であることだ。

プライバシー

所有権がどうであるかに関わらず、プライバシーの問題が存在する。あるボットは、情報を他のボットや人間の監督者と共有することができるのか?情報は匿名化されるべきか?ユーザーは忘れられる権利を持っているのか?基本的に、ユーザー/ボット間に機密保持契約はあるのか?

プライバシーに対する私の立場は ‐ 特に断りのない限り、ボットは暗黙的にあなた個人のプライベートな情報を機密として扱うように委託されたものと考える(Chris Messinaは、法執行機関の行為や緊急避難の際には幾つかの例外があることを指摘してくれた)。透明性も同様に鍵となる。Slackにボットを投入する際には、私たちは開発者に対してプライバシーポリシーを作成し、公表することを要求している。

一般的に ボットビルダーは、ユーザ情報を可能な限りプライベートな状態に維持する必要がある。

広告のためのデータの使用

これは、プライバシーと所有権のサブセットであり、かつ議論の対象として非常に重要なトピックである。ボットビルダーたちは、今もまだボットを収益化する方法を模索しているならばボットは広告を配信することはできるのだろうか?広告を最適化するために、直接またはAPIを介して、ボットはあなたの提供したデータを使用することはできるのだろうか?

広告に対する私の立場は – 私は、ユーザーに利益をもたらす強烈で明示的な目的がないかぎり、ボットは広告を表示すべきではないと考えている。例えB2Cプラットフォームに限ったとしても。私は ボットが、新しいトラッキングピクセルになるところを見たくない。ボットは、明示的にそうするように指示されない限り、何かをクリックして購入するようにユーザーを促すべきではない。

罵倒と共感

このトピックは、おそらく独立した記事を必要とするだろう。ボットの会話特性のために、彼らははるかに罵倒の対象になりやすい。Botnessと呼ばれるボットビルダーの集会では、ほとんどのボット開発者が、人びとはあらゆる種類の罵倒を試みると報告している。ボットを呪う言葉を投げつけるとことから実際にボットに被害を与えるところまで。

これは重いトピックであり、双方向の課題である。

ボットは罵倒対象なのか?

ボットは他の物体と同じようなものなのか?彼らは、現代社会の新たな「サンドバッグ」なのだろうか?ボットは人間にとって呪いと罵倒の対象なのだろうか?

ボットの罵倒に対する私の立場は ‐ 「罵倒できる」ことと「罵倒する」こと、私は両者に微妙な違いを観る。少なくともAIが個性と感情を手に入れるまでは、あなたは本当の意味でボットを罵倒することは「できない」。 ボットは気にもせず、あなたの呪いの言葉も、ユーザーが入力しがちな他のちんぷんかんぷんな文言と一緒にフィルタリングされるだけだ。一方私は社会として、私たちはボットを罵倒してはならないと思っている。ボットを罵倒することで、人間は他人に対しても罵倒を行い易くなると考えている。これは明らかに困ったことだ。

人間はサービスを共感をもって扱うべきだ – 一般的に、共感を失うことは、人間にとって悪い傾向なのだ。開発者は如何なる罵倒の言葉も、無視するか、丁寧に包まれた反応で対応する必要がある。

ボットが人間を罵倒する必要があるのか?

ボットは人間にスパムを送ったり嫌がらせをすることはできるのか?ボットは人間に害を与えることはできるのか?あるいは口答えをしたり?ボットは呪いの言葉を投げ返す必要があるのか?ソフトウェアは、自分自身を守るための権利を持っているのか?

攻撃的なボットに対する私の立場は – 私はすでにボットは人間に害を与えるべきではないことを物語る事実について書いている;そこには、スパム、ハラスメント、その他の色々な形の痛みが含まれている。私はボットもAIも同じように、こうしたタイプの攻撃を正当化できる理由はないと考えている(セキュリティに関する議論はまた別にある)。また、私は正面からユーザーに答えようとすることが、人間の攻撃性を和らげる最も効果的な方法だとも思っていない;単純に「そのリクエストは処理できません」と返したり、人間の罵倒を単に無視したりすることの方が、より効果的なUXとなるだろう。

一般的に、私は会話インタフェース内の共感が、ボットのデザインと、よくあるベストプラクティスの柱の一つであるべきだと思っている。

ジェンダーと多様性

ボット女性のボットまたは男性のボットであるべきだろうか?人種的に多様なボットを持つ必要があるだろうか?宗教的に多様なボット持つ必要は?

ジェンダーと多様性に関する私の立場は – 私は、開発者は多様性についてとても真剣に考えるべきだと思っている。ボットは性別を持つべきではないと思うボット開発者もいる – これは英語圏の国では上手くいくかもしれないが、その他の多くの言語圏では上手くいかない。すべてのものが性別を持っている言語が沢山存在している – 物体や人物を性別に言及することなく参照することができないのだ。だから、英語ボットは「it」で良いかもしれないが、多くの国ではそうではない。

会話UIは人間に向かい合うことを想定しているので、ユーザーは性別スペクトル上のどこかにボットを位置づけようとする (他の多様性の属性も同様だ)。

開発者は何をすべきか?私は、もし可能なら、開発者はユーザーにボットの性別(およびその他の多様性の属性)を選択できるようにすべきだと思う。その例の1つが、x.aiのAmy/Andrewボット構成だ。

人間-ボット/ボット-人間のなりすまし

私が話している相手は、ボットなのか、それとも人間なのか?このボットは、人間のように行動しようとしているのか?ユーザーは、人間またはソフトウェアに話しかけているという事実について、知っているまたは気にすべきなのだろうか?

「人間なりすまし」に対する私の立場は – エンドユーザーにとって、人間に対して話しているのか、それともボットに対して話しているのかの区分がとても重要である主要なユースケースが、健康から金融まで沢山存在していると思っている。

一般的には、透明性がベストプラクティスだと考える。そして人間は(一般的なガイダンスとして)ボットのふりをするべきではない(その逆に関しても同じである)。

透明性と共感が、すべての問題への解決策

以上に挙げた課題のほとんどは、今日業界では対応が行われていない。もちろん悪い意図からそうなっているわけではなく、単に意識の欠如によるものだ。共感性と透明性を念頭に、開発者がこれらの問題に対処すれば、楽しく倫理的な体験をユーザーに提供することができるだろう。

[ 原文へ ]
(翻訳:Sako)

FEATURED IMAGE: YAGI STUDIO/GETTY IMAGES

「AI時代」の子どもたちはロボットの夢を見るか?

Little boy holding his daddys hand, wearing box over his head with robots face drawn on it.

編集部:Crunch Network ContributorのRemi El-Ouazzaneは、最近Movidiusに加わった。前職ではTexas InstrumentsのOpen Multimedia Applications Platform (OMAP) 部門担当およびグローバル業務部長を務めた。

想像してみよう、ここに5歳の女の子がいる。母親はSiriに、父親はAlexaに話しかけているのを毎日のように見ている。こうしたやり取りは、その子の目にはどのように映っているだろうか。最近の子どもたちは、心を持っているような、あるいは関わり合いの対象として実在物のようにすら見えるコンピューターを目の当たりにしているのだ。今の子ども世代にとってのマシンというもの - そして世界そのもの - の認識は、当然私たちのそれとは大きく違っているのではないだろうか。

人工知能(AI)は、今日最も前途有望なテクノロジーのひとつだ。たとえ私たちの生活様式、経済の動向、社会が機能する方法に衝撃的な変化をもたらす可能性が低かったとしても、そのことに変わりはない。膨大な量のデータと、それを分析する計算力のおかげで、テクノロジー企業はまるでゴールドラッシュの様相を見せるAI分野で進歩を遂げている

ディープ・ニューラル・ネットワークの活用のような新しいアプローチは、AI分野では画期的な成果をあげた。その一部は、次の10年では起こらないだろうと予測されていたほどだ。Googleが囲碁の世界チャンピオンを負かしたのは有名なだし、今後も推論や計画の組み合わせによるディープラーニングの進歩、あるいは創造性とアートのエミュレーションすら含め、さらに多くの事例が登場することだろう。

機械学習のアプローチはAIへと進化を遂げつつあり、医用画像から株取引にまで応用されている。それによりマシンはビッグデータの多大なる利点を保ちつつ、より人間らしい方法で思考できるようになるのだ。

2016年現在、私たちの多くがコンピューターの使用における次世代の始まり — AI革命 —  に立っていると信じている。この「人工知能の時代」が「モバイルの時代」を継承すると仮定するならば、このことは「ジェネレーション I」(情報化時代)を継承する子どもたちにとって、何を意味するのだろう?「AIの時代」に育つことの意味とは?そして社会全体として、私たちはこの変化をどのように促進し、この進歩が善用されるようにできるだろう?

現在のオートメーションに関する議論は、すでに対立があることを示している。それが自動運転車、工場のオートメーション、あるいはロボット手術についてであろうと、この話題に不安あるいは疑念すら抱いてかかる大勢の人々がいるのだ。

人が行っている仕事の大部分をマシンが遠隔で再現するなんて突拍子もない考えだと多くの人が思っている。というのは、マシンたちの優雅さに欠けた進歩の過程を目にしてきたからだ。今生きている大人なら、日常生活にコンピューターが存在していなかった世界を、また黎明期における成長痛の目撃例を思い出せるだろう。分厚いマニュアルやクラッシュ画面、2000年問題のバグに苦しめられた、あの時代だ。今の子どもたちが目にする直感的かつ堅ろうで、信頼できる現在のシステムと比較になるだろうか。

子どもたちはもう間もなく、マシンを「エンジニアリングの偉業」ではなく、「感覚をもった存在」として認識しながら育っていくだろう。

しかし、一部の人々がいくら懐疑的になったところで、事実を否定することはできない。AIが工程を改善し、安全と効率を向上しているという見方は広く認められている。やがて車のハンドルをマシンに明け渡さないと軽率あるいは公然の無責任として受け取られる日が来るだろう。法的な観点では、1975年(41年前)のKlein対米国連邦判例がすでに先例となっている。この件ではパイロットが自動操縦装置を解除し、手動操縦を選択したことが怠慢とみなされたのだ。人々が車の自動運転を解除して手動で運転することを選び、怠慢とみなされて訴えられる日まで、あとどれだけかかるだろう?

TeslaのCEO、イーロン・マスクは、自社の自動運転機能がアメリカ国内の自動車平均よりも10倍安全であると示せた時点で「ベータ版」と書かれたシールをはずすと述べた。しかし将来的にシールが取れたとしても、統計的に10倍安全なオプションを意図的に避けているという理由で、「無責任な行動をとっている」と手動ドライバーを非難するのは難しいだろう。AI世代ならばそんな説得工作がなくても、マシンに主導権を明け渡すのではないだろうか。

オートメーションを受け入れたあかつきには、社会における生産活動と労働の捉え方は根本的に変化するだろう。AI世代が生活のあらゆる面でオートメーションを取り入れれば、経済はそれに適応せねばならないし、実際に適応の道筋をたどることになるはずだ。富の再分配、私企業、あるいはユニバーサルな生活賃金のような概念について対処する必要も出てくるだろう。技術的かつ知的な苦闘のあとには、もっと大変な作業が待ち受ける。コンピューターが発明される200年も前に生まれた1人の男の著述に根付いた経済システムと「自動化を認めた世界」を順応させる、あるいはまるごと入れ替えるという哲学的な課題だ。

I世代がiPadとスマートフォンを生まれながらに受容したのと同様に、AI世代は、AIの備わったマシン - 精神と、思考(として認識される)能力が宿るマシン、さらには人工的な共感性やカリスマすら備わったマシン - を当たり前のように受容するだろう。

社会が大きくて根源的な問いに答えを出さねばならない一方で、AI世代としても自分たちの私生活でどのようにAIを取り入れるのか考える必要が出てくる。チャットボットとの会話や仮想デートの利用は、今でこそ「不気味」の領域に入ってしまうが、iPhone上のSiriや、キッチンに置いたAlexaに話しかける両親のもとで育った子どもたちにとっては、移ろいやすい人間関係を避け、シミュレートされた関わり合いに興味をもつのも、敷居は低いだろう。

未来の世代にとっては「ロボットの権利と保護」という発想も、大して違和感がなさそうだ。当然のことながら権利には責任がついてまわる。いつの日か自動運転車が殺人の罪で訴えられるようになるだろうか。あるいはお手伝いロボットが刑事的な違法行為で起訴されるのだろうか。冷笑する前にちょっと思い出してほしい。私たち自身の司法システムがサルを裁こうとしたのは、ほんの少し前のことだったではないか。

子どもたちはもう間もなく、マシンを「エンジニアリングの偉業」ではなく、「感覚をもった存在」として認識しながら育っていくだろう。彼らにとっては、「何がAIを『真のAI』たらしめるのか」という哲学的な議論が争点になるだろう。なぜなら、実際に「何が」AIを動かしているのかに気づくよりもずっと前に、マシンが人間らしい方法でインタラクションする世界(そう、驚くべきことに人間「だけ」に向かって!)で彼らは育つのだ。本物そっくりな人格や共感のシミュレーションのおかげで、マシンの擬人化はさらに簡単になるはずだ。

車輪の発明を目の当たりにした私たちの祖先は、おそらく「車輪ってけっこう便利だな」とは思っただろうが、その後も数多くの技術の進歩にとって重要な役割を果たすことになるなどとは思いもしなかったはずだ。私たちは、というと、AIが未来の世界に影響をもたらすだろう、と、かろうじてその方法を想像し、うっすらと感じ取ってはいるように思える。しかし、人間社会がここで述べたような課題にどのように向き合い、「必ずしも人類だけが知的な存在ではない世界」に順応するかは、時間のみが知るところだ。

画像提供: SALLY ANSCOMBE/GETTY IMAGES

原文へ

(翻訳:Ayako Teranishi / website

Microsoftの人工知能Cortanaで、冷蔵庫がもっとスマートに

liebherr-stage-refrigerators-and-freezers-1

MicrosoftがLiebherr(リープヘル)の家電部門と共同で冷蔵庫をもっとスマートに、もっと速く、もっと強く作り替えようとしている……おっと失礼、「よりスマートに」だけでした。2社による新たなコラボレーションにより、Microsoftはコンピュータビジョン技術(いわばコンピュータの目)をMicrosoft Cognitive Services Computer Vision API経由で提供し、冷蔵庫が自分で庫内にある物体を見分けられるようにするという。

なぜ「庫内に入っているものを判別する冷蔵庫」が必要なのだろう? 何か買い忘れて、またスーパーマーケットに走らなくてもいい、というのは1つの理由だろう。ここで用いているディープラーニングのアルゴリズムは、何百万点という食品パッケージの画像データを処理した蓄積に基づいて、新しい食品も学習できるという。いずれ市販された暁には、実世界のユーザーから収集したデータを使ってもっとスピーディーで、もっとスマートになるに違いない。

他社製の冷蔵庫では遠隔から庫内を確認できたりもするが、MicrosoftのデータサイエンスチームはLiebherrと直接協力して、この試作機を「学習する」冷蔵庫に育て上げた。そのおかげで、わざわざスーパーでの買い物中につながりの悪い携帯通信経由で低解像度の画像を表示して、人間の目で庫内の食品をチェックしなくても済むようになっている。

この冷蔵庫、現段階では試作品なので、まだ当面は現状の「知性のないまぬけな食品クーラーボックス」で何とかしのぐしかない。けれどももし、今すぐにでもちょっぴりMicrosoftのついた冷蔵庫を導入してみたい、ということであれば、こんな選択肢もあるようだ。

原文へ

(翻訳: Ayako Teranishi / website

Facebookの人工知能研究所がオープンソースで公開したfastTextは深層学習の遅さを克服したテキスト分類ソフトウェア

facebook-search

Facebookでは毎日、何十億ものコンテンツがシェアされている。その膨大な量とペースに漏れなく遅れなく対応できるためにFacebookは、さまざまなツールを駆使してテキストを分類している。多層ニューラルネットワークのような従来的な方法は正確だが、ニューラルネットワークは訓練が大変である。

分類に正確さと容易さの両方をもたらすために、Facebookの研究部門Artificial Intelligence Research(FAIR)ラボはfastTextというものを開発した。そして今日(米国時間8/18)はそのfastTextがオープンソース化され、デベロッパーはどこででも、そのライブラリを使ったシステムを実装できることになった。

fastTextはテキストの分類と、語のベクタ表現の学習の両方をサポートしている。後者には、bag of wordssubword information(部分語情報)*などのテクニックが用いられる。skip-gramモデルに基づいて語は文字のn-gramのバッグとして表現され、それらは各文字のn-gramを表すベクタで表現される。〔*: 部分語情報、‘あかい’なら、あ、か、い、あか、かい、などが部分語。〕

“カテゴリー数のとても多いデータベース上で効率的であるために、fastTextは階層的な分類を用いる。そこではさまざまなカテゴリーがフラットなリストではなく二分木構造に編成される”、FacebookのArmand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolovらがドキュメンテーションでそう述べている。

bag of wordsのbag(バッグ)は、配列やリストや木(ツリー)などなどと並ぶコンピューター上の一般的なデータ構造の一種で、名前(“袋”)の名のとおり、データに順序性がなく、この場合は各語の出現頻度を各語が情報として持つ。“語(words)”は多次元空間として表現され、クェリとカテゴリー分けされた語の集合との関係を線形代数を使って計算する。コンピューターにテキストを投じたとき、それはゼロからのスタートになる。それに対して人間の大人はすでに文法知識を持ち、どこが語の始まりで終わりかを知っている。コンピューターの計算力は強力だが、そのままでは“I love TechCrunch”と“CrunchLove iTech”の違いを認識できない。そこでこのような方法では、ことばに対する定性的な分析を、統計的手法などにより、定量的な分析へと強制的に変換する。

そして数を操作する処理が主体なので、fastTextは従来の深層学習の方法(多層ニューラルネットワーク)よりも速い。下図は、Facebookが作った比較表だ。実行時間が「秒」の単位なのは、fastTextだけである:

fastTest

fastTextは英語だけでなくドイツ語やスペイン語、フランス語、チェコ語などに対しても使える。

今月の初めにFacebookは、クリックベイトをやっつけるアルゴリズムを同社のNewsfeedに実装した。そのアルゴリズムは言葉以外の要素(繰り返しパターンなど)も点検するから相当複雑だが、デベロッパーはfastTextを利用して同様のツールを自作できる。

Facebookによると、fastTextなら、“ふつうのマルチコアのCPUを使って、10億語を10分弱で学習できる。また、50万のセンテンスを30万あまりのカテゴリーに5分弱で分類できる”、という。これはすごい、かもしれない。

今日(米国時間8/18)からFacebookのfastTextは、GitHub上で入手できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

AIが目に見えないUIを実現する

humanrobotoverlap

【編集部注】著者のMartin Legowiecki氏はドイツ在住のクリエイティブテクノロジーディレクター。

私たちと環境の相互作用は、例えばあなたがお馴染みのバーに入って、バーの椅子に腰掛ける前にはもう好みの飲み物を手にしていることができている、という位に簡単であるべきだ。バーテンダーはあなたを知っていて、どの飲み物が好みかを正確に把握しているし、まさにいまドアを開けて入ってきたことも知っている。明示的な「相互作用」はなくても、それは多くの相互作用から成り立っている。

私たちが機械と対話する方法、そして機械が私たちと相互作用する方法を、私たちは再定義している最中だ。AIの進化は、機械=人間そして人間=機械の新しい対話手段を可能にする。伝統的なインタフェースは、単純化され、抽象化され、そして隠される ‐ それらは背景に溶け込み全ての一部となる。究極のUIはUIではない。

誰もがゲームに参入してきているが、成功はまだわずかである。私たちは、考える方法を基本的に変える必要に迫られている。

チームをクロストレーニングせよ

技術者、UXデザイナー、コピーライター、そしてデザイナーとしての私たちの役割は、変わらなければならない。何をどのように構築するのか – スクロールページ、ボタン、タップとクリック – こうしたものは旧来の概念の延長線上にある。これらの概念は、馴染みがあり、実績もあって、まだまだ有用だ。しかしいまや、私たちに耳を傾け、「感じ」、そして私たちに話しかけてくる新しいユーザ対話モデルを、私たちは必要としている。

技術者はよりUXデザイナーのようである必要があり、またその逆も要請される。彼らは、少なくともある程度の標準や、ベストプラクティス、そして新しいツールを確立するまで、より緊密に協力し役割を重ね合わせる必要がある。

デシジョンツリーは不要

上の例で示したバーテンダーは、多くのUIが目指し始めているものである。一方でそれは、(隠されたルールやアルゴリズムに基づいて行われる傾向のある)透過的な利用者体験を生み出すために必要な、より多くの責務の存在を示している。しかし更に言えばそれは、重要かつ有意味な情報だけが利用者に提示されるオープンエンドな体験を構成する場で、私たちに信じられない程の自由度を提供してくれるのだ。

たとえば、私たちのAIアシスタントに「遅くなると妻に伝えてくれ」と命令するためには、システムは意図をその理解するだけでなく、妻が誰であって、かつ彼女に連絡する最適な手段が何かを知っているほど、スマートである必要がある。本質的でない情報は不要だ、そして選択肢の一覧も、追加の質問も同様に。私たちはこれを「意味のある最小限の対話」(Minimum Viable Interaction = MV)と呼んでいる。

あなたのためのインターフェイスが現れる

私たちは機械へ話しかけることから始める ‐ コマンドではなく、メニューでも、風変わりなショートカットキーでもなく ‐ 私たち人間の言葉を使って。自然言語処理は信じられないほどの進歩を見せていて、ついに機械に話しかけるために、自分たちが機械になる必要はなくなった。私たちは、最新のチャットボットとチャットし、Google Voiceを使い、あるいはSiriに話しかける。音声認識の精度は、96パーセントという信じられない高さに向上した。

この世界は最初のクリエイティブなコンセプトとそのまま組み合わせるにはダイナミック過ぎるのだ。

残りの数パーセントはそれほど多いように思えないかもしれないが、それが完璧な体験を与えるか損なうかを決める部分だ。誰が言ったことでも、どのような言い方をしても(たとえ変わったアクセントがあろうとも、言葉と言葉の間に空きがあっても、あるいは大量「あー」とか「うー」が挟まっていたとしても)、いつでも100パーセント認識できるシステムを想像して欲しい。Amazon Echoによる遠距離認識でタップとクリックを置き換えて、UIは溶けて見えなくなる。それは目に見えず、ユビキタスで、自然なものになる。

しかし、まだそこまでには達していない。今のところ、私たちはこうした期待される能力のギャップを隠すための、スマートな方法を考案しておくことができる。機械を実際よりもスマートに見せるためのロジックや巧妙な応答をプログラムするために、膨大な時間が投入されている。UIが見せる1つのミスで、イリュージョンは台無しになる。

状況認識力

目に見えないUIを現実のものとするためには、システムはもっと私たちのことを知る必要がある。現段階では、状況認識力はやや限られている。たとえば、Googleマップを使って道案内を請う場合、システムは現在あなたが居る場所を知っていて、ニューヨークにいる場合とカリフォルニアにいる場合とでは異なる結果を返してくるといった使われ方をしている程度だ。

私たちの携帯電話や時計、その他のモバイルデバイスには、山盛りのセンサが装備されている。それらは私たちを人間を、現在必要な安価なセンサーマシンにする。私たち自身がシステムの動作に必要な知識やデータを収集するのだ。

しかし、たとえすべてのセンサーとデータが得られたとしても、私たちが本当に必要としている体験を生み出すために、機械は私たちについてもっと知り、周りで何が起きているのかを検知する必要がある。一つの解決策は、より多くの情報を収集するために複数のデバイス/センサーのパワーを組み合わせることだ。しかし通常これは、対象とするユーザーを絞り込んでしまう ‐ 顧客に売り込むのは簡単なことではない。素早く機転を利かせなければならない。変更し、調整し、繰り返す。この世界は最初のクリエイティブなコンセプトとそのまま組み合わせるにはダイナミック過ぎるのだ。

新しい体験を開発し、新しいテクノロジーを探求し、古いパラダイムを壊して適合を続けていくうちに、つい昨日まで可能ではなかったことが、今日はメインストリームになって行くだろう。

[ 原文へ ]
(翻訳:Sako)

Appleが機械学習とデータサイエンスの企業Turiを買収

turi

噂では、AppleがTuriを買収したらしい。Turiは、同社自身の言葉によると、“デベロッパーとデータサイエンティストのための機械学習プラットホーム”だ。

Appleに問い合わせたら、同社が買収を確認するときの、昔からワンパターンの、あまり内容のない答が返ってきた:

“Appleは小さなテクノロジー企業をときどき買収するが、一般的に、その目的や計画については議論しない”。

Appleは買収の財務的条件についてもコメントしなかったが、Geekwireは2億ドル以上、と言っている。

AppleがAIや機械学習の分野で買収をするのは、これが初めてではない。2015年には、機械学習と画像認識のPerceptioを買収している。

Turiは、機械学習関連のプロダクトを作っているだけでなく、Data Science Summitというカンファレンスも主催している。その名のとおり、データサイエンスのカンファレンスだ。

Turiは、前の社名が“Dato”、さらにその前は“GraphLab”だったが、商標争いが原因で今年の7月に今の名前になった。

Turiは顧客たちに、同社のプロダクトが可利用なのは7月末まで、と通知していた。それが、買収のサインだったのだ。またTuriのブログは、今やロードしない

しかしTuriのチームは、クパチーノのAppleの本社へ移るのではなく、シアトルにとどまるらしい。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

その言葉は本気かそれとも皮肉か?、ニューラルネットワークがそれを見つける

shutterstock_94007068

テキストによるコミュニケーションには、皮肉やジョークを本気と読み誤る危険性がある。誰にも、その被害者や加害者になった経験があるだろう。そのことに相当懲りたポルトガルの研究者たちは、ニューラルネットワークを利用して、話者の意図が皮肉や嫌味であることを、判断しようとしている。

それは、日常の会話における誤解を防止することだけが目的ではない。コンピューターがメッセージのトーンと意味を正しく判断することは、いろんなことで重要だ。

たとえば、今のコンピューターには正しい感情分析ができない。誰かが何かを好きとか嫌いとか言ったとき、それが冗談か本気かを、事前に人間が知っていなければならない。英語の日常会話で頻用される感嘆詞”great!”も、それが本気か、それとも幻滅を意味する皮肉かを、未来のコンピューターの自然言語処理は正しく見分けなければならない。

でもそれは、容易な問題ではない。まったく同じ文や句読点が、話者が違えばまったく違う意味を表すこともある。たとえば、“Make America great again”(アメリカを再び偉大にしよう)を、Trumpの支持者と彼に反対する者がツイートしたら、それぞれどんな意味になるか。同じ語が、まったく違う意味を持ってしまうのだ。

研究者の一人、リスボン大学のSilvio Amirがこう書いている: “話者の意図が皮肉であることを見分けるには、語彙の意味だけでは不十分である。言葉というものを持つ人間の場合ですら、発話のコンテキスト(文脈)を正しく認識することが不可欠だ”。

彼らの論文が記述しているコンテキストの把握方法は、ニューラルネットワークを使って話者の“埋め込み(embeddings)”*を見つける。それは、コンテキストの鍵となる別の発話内容で、たとえば前のツイートの内容、関連する関心事や別の発話などだ。これらのさまざまな要素を使って話者と他者の関係や立ち位置を判定し、また(できれば)彼らが形成している集団の性質〔例: ジョークを言い合える関係〕を見つける。〔*: embeddings, 埋め込み, 言語学の概念で、発話Aの中に別の発話Bが埋め込まれていること。〕

たとえば、下の小さな雲状グラフは、Twitterの上の、政治家たちとフォロワーの関係を表している。

chart_twittersarc

同じひとつの雲に属するある人のツイートの感情が、多数のフォロワーたちのそれと一致しないときには、それが皮肉である可能性が高い。

この方法にさらに、皮肉を暗示しているテキストの要素を組み合わせると、これまでの方法に比べてやや高い確度で皮肉を見分けられるようになった。‘やや’というのは、従来の方法で85%だった確度が、約87%まで上がった、という意味だ。しかしニューラルネットワークはいったん動き出せば人間による構成や監視の労力があまり要らないので、さまざまなソーシャルネットワークの上でデプロイできるよう拡張するのも、比較的容易だろう。

普遍的な皮肉検出システムは、まだまだ遠い先の話だが、でも不可能ではない。来月行われる、コンピューターによる自然言語学習のカンファレンスCoNLLで、Amirらのペーパーがプレゼンされる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebookの新アルゴリズムはクリックベイトを判定―トラフィック稼ぎの釣り記事は排除へ

2016-08-05-fb-clickbait1

Facebookはニュースフィードの表示アルゴリズムに新しくアンチ・クリックベイト機能を追加し、順次公開していく。この新機能のおかげで、 重要な情報を歪めたり、隠したり、誇張したりするページや記事へのリンクはニュースフィードに表示されなくなる。

Facebookは人力で何万という記事のクリックベイト指数 〔clickbaitiness score〕を算定し、このデータを用いて新しいアルゴリズムを訓練した。これにより、システムは「ベッドの下を覗くとなんとこれがいました! 大ショック!」、「ニンニクを靴に入れた結果が信じられないことに」、「犬が配達人を吠えた―その結果が大爆笑もの」といった記事を自動的に発見できるようになった。

このアルゴリズムは単なる二分法で「これはクリックベイト」、「これはクリックベイトではない」とラベルを貼るのではなく、記事の悪質さの度合いに応じてクリックベイト指数を付与する。仕組みはメールのスパムフィルターと似ており、主として通常の記事にはめったに使われない迷惑記事特有の表現を探す。

個々の記事のクリックベイト指数が高いほどアルゴリズムはその記事へのリンクを掲載、共有したFacebookページ、あるいはウェブサイトを全体として罰する。つまりこうしたページやサイトの表示順位がダウンする。Facebookのニュースフィード・プロダクト・マネージメント担当副社長、Adam Mosseriは私の取材に答えて、「毎日50回も投稿している場合、1回くらいクリックベイトが混じっていても問題はない。逆に一日中クリックベイトをアップしているスパマーの場合影響は非常に大きいはずだ」と説明した。

さいわい「パブリッシャーがクリックベイトを投稿するのを止めればリンクのトラフィックも元に戻る」とMosseriは言う。アルゴリズムはFacebookページとウェブサイトのドメインの双方のレベルで違反者を特定するので、スパマーはページに掲載する記事のURLを細かく変えることでクリックベイト発見アルゴリズムを逃れることはできない。

これまでもクリックベイトはニュースフィードで最大の苦情の原因だった。一部のユーザーはこれをニュースフィードの表示アルゴリズムのバグとしてレポートを出している。今回のアルゴリズムのアップデートはFacebookが最近発表したニュースフィードの価値〔News Feed Values〕という考え方に沿ったものだ。 価値の判定に用いられる5つのカテゴリーのひとつは「コミュニケーションの正統性(“Authentic Communication)」だ。これは「友達と家族を優先」する。先月のフィード・アルゴリズムの変更で新たなパブリッシャーの表示順位が下げられたのもこの考えに基づくものだ。

Facebookはクリックベイト対策の詳細を他のソーシャルメディアやサービスのデベロッパーと共有していくという。「われわれがどういう方法を採用しているか他社が研究し、採用することを歓迎する」とMosseriは語った。

しかしFacebookはこの情報を一般に公開するつもりはないという。「ドキュメントの大部分はクリックベイトと判定されるタイトルの例なので、スパマーに悪用されるおそれがあるからだ」という。

以前、Gizmodoは匿名の情報源のデータを基に「Facebookはトレンドから保守的な記事を不当に排除している」と主張したことがあった。それと関係があるのかどうか、Facebookの文書中のクリックベイトのサンプルのドメイン名はGizmotecho.comだった。〔下のポールペンの画像。誇大宣伝の例としてFacebookが作ったもの〕

Facebook Clickbait

Facebookは2014年にもユーザーのリアクションに基づいたアンチ・クリックベイト・アルゴリズを導入している。このアルゴリズムはユーザーが「いいね!」をして記事を見に行ったものの、すぐにFacebookに戻って「いいね!」を取り消したリンクを探すものだった。

この2月のアップデートではユーザーがクリック先のサイトに滞在した時間をクリックベイトの判定に用いるようになった。多数のクリックがあるのに滞在時間の合計が少なく、後まで残った「いいね!」の数も少ないサイトが対象だった。今日のアルゴリズムの改良は、個々の記事がクリックベイトであるかどうか判断するだけでなく、パブリッシャーそのものをスパマーとして特定するところに主眼がある。

Facebookはパブリッシャーがクリックベイトと判定されることを避けるための方法を紹介している。 Facebookは「赤絨毯の上でつまづいて転んだのはなんとあの人」などという情報の重要部分をタイトルから隠し、続きを読むためにクリックさせる手法を避けるよう求めている。また「このボールペンは絶対、決してインクが切れません。購入は早い者勝ち!」といった誇張もクリックベイトと判定される可能性があると警告している。

当然ながらニュースのパブリッシャーはニュースフィードのアルゴリズムの変更に神経質になっている。リンクのトラフィックに大きな違いが出てくるからだ。先月、「ページより友達を優先する」という方針が発表されたことはパブリッシャーを不安にさせていた。

今回のクリックベイト対策が功を奏するなら、正当と認められたパブリッシャーの掲載するニュースへのトラフィックはアップするだろう。投稿されたURLがクリックベイトではないと安心できればクリックするユーザーは増えるはずだ。

9月12日から14日にかけて開催されるのTechCrunch Disrupt SFでFacebookのAdam Mosseri副社長がニュースフィードについて講演する予定。

画像: Bryce Durbin

[原文へ]

(翻訳:滑川海彦@Facebook Google+

バラの花を「薔薇」ではなく種名「rosa rubiginosa」で認識するMicrosoftの花認識システム

flower-project-diagram

残念なことに、われわれ全員が植物学者になることはできないが、でもスマートフォンがあれば、珍しい花の名前ぐらい分かるかもしれない。たとえばMicrosoft Research Asiaが作ったコンピュータービジョンシステムは、数千種類の花の種を、写真だけから特定できる。

そのSmart Flower Recognition System(Microsoftらしい命名だ)は、偶然から始まった。同研究所のYong Ruiと、Chinese Academy of Scienceの植物学者たちがあるセミナーでたまたま出会った。植物学者たちは、Ruiの画像分析の仕事に関心を持ち、今世の中に出回っている何百万枚もの花の写真を、正しく分類できるのでは、と感じた。

季節は春だった。若き研究者の思いつきが、学際的なコラボレーションへと発展した。

そのシステムは…当然ながら…機械学習を利用している。Caffeと名付けられた畳み込みニューラルネットワーク(convolutional neural network, CNN)が、80万枚の花の画像で訓練された。花の画像が一連のフィルターを通って、いくつかの特徴点を強調され、それによってさまざまな花の種を、それぞれ異なる種として区別できるようになる。〔convolutional neural networkでGoogle(ぐぐる)と、CaffeやOpenVCに関する日本語記事が見つかります。〕

flower_rec_process

ある種の曲線や、ある種の暗点、ある種の比率、などなどを見分けていくニューラルネットワークの推理は、人間が自分が知っている形や色を直観的に認識する過程と変わらない。

“この花認識エンジンを使って植物学者たちは、中国の植物の分布を効率的に知ることができる。また、花についてもっとよく知りたいと思っている一般の人にも役に立つ”、とRuiは語る。

Smart Flower Recognition SystemがWebサービスとして一般公開される可能性について、Ruiに聞いてみた。今では実験的な機械学習システムの多くが、そうしている*。彼から答が得られたら、まっさきにあなたにお伝えしよう。〔*: スマホのアプリもある。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google、機械学習を利用した「ふきだしズーム」を公開―Play Booksのコミックが読みやすくなった

2016-07-22-bubble-zoom

たいていの人はまだ紙の印刷物でコミックを読んでいる。しかし『ジャスティス・リーグ』を読むのにスマートフォンやタブレットを使う読者も増えている。

昨年GoogleはAndroidのPlay Booksストアのコミックの表示をアップデートしてストーリーを追いやすくした。今日(米国時間7/21)、Googleはコミックのユーザー体験をさらに改良した。今回のアップデートはセリフのふきだしの表示を拡大して小さな画面での可読性を高めるというものだ。

GoogleのPlay Booksのプロダクト責任者、Greg Hartrellは私の取材に対して「われわれは前回のアップデートに対してユーザーから寄せられた意見を詳しく調べた。コミックの読者は新しいユーザー体験を歓迎していたが、スマートフォンの小さい画面ではふきだしのセリフが依然として読みにくいという不満が強かった。そこでGoogleではコミックの視覚的体験を損なわずに吹き出しを読みやすくするテクノロジーを開発することにした」と述べた。

BZ_Justice_League_DC_2016-07

Google PlayチームはGoogleグループ内の機械学習専門家の助けを借りてBubble Zoomを開発した。これはコミックのページを解析し、コマとふきだしの枠線を認識するアルゴリズムだ。この「ふきだしズーム」では、ピンチ&ズームのような煩わしい手間をかけず、簡単にふきだしを拡大表示させることができる(ピンチで拡大した場合、どのコマを見ているのか分からなくなってしまうのが苛立たしかった)。ふきだしを認識できるというのは非常に高度な機械学習で、コミックへの応用としてこれまででベストだろう。

拡大するには画面右側をタップするか音量ボタンを押せばよい〔Play Booksでは画面中央をタップすると「ふきだしズームをオフにできる」という注意が表示される〕。

現在のところ「ふきだしズーム」が有効なのはMarvelとDCのコミックのコレクションだけだ(合計2800冊がGoogleのストアに登録されている。現在このコードを入力すると50%の割引が適用されるSDCC2016〔日本からは利用できないもよう〕)。Hartrellによれば、チームはすでに数百万ページを機械学習させており、将来は他のコミックにもこの機能を拡大する予定だという。また新機能の拡大が比較的ゆっくり行われていることについて、「『われわれは問題を解決した。あらゆるスタイルのコミックを認識できるようになった!』と世界に向かって宣言したいからだ」と述べた。

「ふきだしズーム」は今のところAndroidでのみ利用できる。iOSに新機能が追加される日付は明らかにされていない。Hartrellによれば Googleは当面、Androidでの読書体験の向上に集中していくという。

〔日本版〕「ふきだしズーム」は日本のPlay Booksアプリでも有効になっている。画面右側をタップするとストーリーの順にふきだしが次々に拡大表示される。音量ボタンはダウンで順方向、アップで逆方向にズームの対象が移動する〔機種によって違いがあるかもしれない〕。Googleの機能であるためDCやMarvelのAndroidアプリではサポートされていない。

YbYqSQoJBBn3pHjW5YOtkwI_iJl1bq8XWg_vDlP8vOxYPPCYXg18CWnRW-AK91hrR70SNg=s2048

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Googleが囲碁の世界チャンピオンに勝ったDeepMindをデータセンターの省エネに利用、冷房費用を40%削減

hal9000

DeepMindは地球上でもっとも複雑なゲームの名人かもしれないが、でも彼は、Googleのデータセンターのエネルギー問題を解決できるだろうか。ところが、できるのだ。しかも、強力に。

データセンターの電力の用量は、需要や気候条件などさまざまな要因に依存し、電力使用効率の最大化のためにそれらの変数を調整あるいは予測することは、とても難しい。Googleは機械学習をこの問題に適用し、ニューラルモデルの構築により、AIがこれらの要因のすべてを常時把握/監視できるようにした。

それにより研究者たちは、DeepMindという生きてる獣をそのままデータセンターに放ち、結果を直ちに検証できるようになった。そのため、冷房に使用する電力利用を従来の40%下げることができ、その状態が今も維持されている。

DC_PUE

Googleはこれまでも自社におけるエネルギーの使用を懸念して、再生可能エネルギーの利用や、エネルギー利用の効率化に努力してきた。だからDeepMindの起用も、その流れの上にあり、単独の突出的なプロジェクトではない。DeepMindが行った複雑なパラメータ群の同時的多面的最適化AI技法は、そのほかのシステムやデータセンターにも応用できる。そうなれば同社は、得意満面となるだろう。

DeepMindはこのエネルギー節約AIについて、詳細なドキュメントの発行を予定している。Web上に公表されたら、この記事にそのリンクを載せよう。

参考記事(DeepMindの医療利用、規制でつまずく)〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google、クラウド自然言語APIを公開―英語、日本語、スペイン語に対応

DUBLIN, IRELAND - APRIL 19:  (FRANCE OUT) A general view the Google European headquarters, on April 19, 2016 in Dublin, Ireland.  (Photo by Vincent Isore/IP3/Getty Images)

今日(米国時間7/20)、Googleはクラウド自然言語API(Cloud Natural Language API)の公開ベータ版をリリースしたことをブログで発表した。デベロッパーはこの新しいサービスにより、Googleが開発したセンチメント分析、 表現抽出、シンタックス解析などの利用が可能になる。

新しいAPIはこれも公開ベータ版であるGoogleの訓練ずみ機械学習API、 クラウド・スピーチAPI(Cloud Speech API)視覚API(Vision API)翻訳API(Translate API)と連携させることが可能だ。

現在、クラウド自然言語APIは英語、スペイン語、日本語のテキストに対応している。Googleによれば新APIは「業種を問わず、広い範囲の企業、デベロッパーに高効率でスケール可能なサービスを提供する」ことが目的だという。

センチメント分析や表現抽出の提供はもちろん新しいアイディアではない。表現抽出の例としてはたとえば10年近く前にスタートしたThomson ReuterのOpen Calaisがある。これはテキスト中の人名、組織名、地名、出来事名などを自動的に認識してラベル付けできるサービスだ。センチメント分析についても事情はほぼ同じだ。

それに反して、自然言語を品詞分解し、依存関係をツリー構造でパースできるシンタックス解析APIは、まだそれほど普及していない。デベロッパーが新APIをアプリにどう統合するか注目だ。当然ながら自然言語解析は チャット・ボットなどがユーザーから寄せられる自然言語によるリクエストを正しく認識する基礎となる。

自然言語APIの料金はどのAPIを利用するか、どれほどのデータを処理するかによって違ってくる。3つのAPIについての料金は以下のとおりだ。

image (3)

80種類以上の自然言語をサポートするクラウド・スピーチAPIの場合、料金は処理しようとする音声の長さに基づいて計算される。月額計算で最初の60分は無料、それを超える場合15秒ごとに0.006ドルが加算される。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

ホテルや旅館に最適なプライシングを提案「MagicPrice」の空が数千万円を調達

magicprice_top

需要と供給のバランスで価格は変動するのが市場の仕組みだ。インターネットのおかげで価格の変動は捉えやすくなったが、大量のデータを比較検討して価格を決めるのは、それはそれで難しい。リクルートホールディングスが運営する渋谷のオープンイノベーションスペース「TECH LAB PAAK」発のが手がける「MagicPrice」は、ホテルや旅館などの宿泊施設に自動で最適な宿泊料金を提案するサービスだ。空は本日、500 Startups Japan、Incubate Fund、千葉功太郎氏から数千万円規模の資金調達を発表した。「MagicPrice」は先週末からベータ版をリリースし、サービスの参加施設を募集している。

MagicPriceの利用を開始するには、ホテルはまず施設名や所在地などの情報を入力して登録を行う。MagicPriceのダッシュボードから宿泊施設が提供している客室の種類と総客室数の設定を行い、過去の宿泊料金のデータをアップロードを完了すると、MagicPriceが価格の解析を始める。MagicPriceは過去データだけでなく、宿泊施設の所在地の付近に存在する他のホテルの料金などを合わせて解析することで最適な料金を算出する仕組みだ。部屋の種類別に最適価格がダッシュボードのカレンダー上に反映される。カレンダー上部にある青と白の印は日ごとの予約状況(青いライン)と予約のポテンシャルの予測(白色)を表示している。MagicPriceには機械学習が搭載されていて、使うほどに価格算出の精度が増していくという。

MagicPrice_01

多くのホテルでは担当者がエクセルなどを使って、手作業で宿泊料金を管理していると空の代表取締役である松村大貴氏は説明する。価格決めに関して参照している情報も少なく、担当者の長年の経験と勘に頼っている状態なのだそうだ。MagicPriceは、アルゴリズムで大量の過去データと周辺地域の情報を解析することで、その宿泊施設にとって最適な価格を提案し、価格のミスマッチによる機会損失を減すことを目指している。

また、宿泊施設は予約を受け付けるのに自社サイトを始め、オフラインやオンラインの旅行代理店を複数利用している場合が多い。担当者は各サイトの価格を手動で変更したり、あるいは旅行業界でサイトコントローラーと呼ばれる、複数の予約サイトを一括で管理できるサービスを使用しているがそれでも価格の変更には手間がかかる。MagicPriceのベータ版は、最適価格を提示するに留まるが、年内にローンチ予定の正式版では、そうした複数の予約サイトに自動で最適価格を反映する機能を提供すると松村氏は言う。今後は解析する情報も増やし、最適料金を算出するアルゴリズムの精度も高めたい考えだ。例えば、近くで行われるイベントなど、需要と直結する情報などを読み込んで解析することを視野に入れているという。

SORA_Team

松村氏は起業するにあたり、いくつものビジネスプランを考え、このプラシング最適化のサービスに辿り着いたという。プライシング事業に着目したのは、ビジネスにとって価格を変更することはコストがかからない上、ビジネスへの影響が大きく、そこにポテンシャルを感じたからだそうだ。中でも旅行業界を選んだのは、売り手も買い手も価格変動に慣れ親しんでいる業界であること、そしてヒアリングをしていくうちにテクノロジーの活用が進んでいないことが分かったからと話す。「旅行メディアは増えましたが、旅行業界のためのテクノロジーは少ないのが現状です」と松村氏は話し、旅行業界で多く発生している手作業を自動化することを考えたという。また、松村氏はもともとアドテクの会社に勤めていた経験があり、MagicPriceで目指すのはウェブ広告に近いサービスのあり方だという。例えば、GoogleやFacebookのウェブ広告ではユーザーが予算や目標額だけを設定するだけで、個別にどこに何を出稿するかを選ぶ必要はない。自動で出稿が行われ、ユーザーは結果だけを確認すれば良い。そのように広告業界で当たり前にできていることを、旅行業界でもできるようにしたいと話す。MagicPriceの目標は、担当者の最適な価格決めをサポートすることではなく、全自動で宿泊施設にとっても旅行者にとっても嬉しい価格の決定から運用まで行うようになることだという。

今回の資金調達では人員強化に充てるという。先週末からMagicPriceのベータ版を無料で宿泊施設に提供しているが、直近は参加ホテルを募り、フィードバックを得てサービスを改善していくことに注力すると話す。まずは宿泊料金でサービスの実用性を証明し、ゆくゆくは航空券、イベント、レジャーなどプライシングが重要となる業界にも展開していきたいと話す。

今回の資金調達は、リード投資家を務める500 Startupsにとって自社で設計したシードステージの投資契約書「J-KISS」を用いた初の投資案件だという。「J-KISS」は、シードステージのスタートアップの資金調達の時間とコストを節約するための投資契約書で、交渉すべき条件を最小限に抑えている。松村氏は今回の「J-KISS」を利用した資金調達について「初期の段階で評価額の議論をせずにすみ、すぐにお金を入れて、プロダクトを作り始めることができるスキームです。スタートアップにとっては有難いスキームで、もっと広まれば日本市場にとっても良い影響があると思います」と話している。また、今回の資金調達に参加しているコロプラ、共同創業者兼取締役の千葉功太郎氏は、今年3月に開催され、空も登場したTECH LAB PAAKのデモデーで審査員を務めたのをきっかけに出資を決めたという話だ。このデモデーで空は「コロプラ賞」と「オーディエンス賞」を受賞している。シードステージでの資金調達を短縮する投資契約書が使われ始めたこと、そしてデモデーが起業家と投資家の出会いを促進する役割を果たしてきていることは、新しいアイディアやイノベーションが育つ土壌が徐々に整ってきていることを象徴していると言えそうだ。

Googleがフランスの画像解析スタートアップMoodstocksを買収

DUBLIN, IRELAND - APRIL 19:  (FRANCE OUT) A general view outside the Google European headquarters, on April 19, 2016 in Dublin, Ireland.  (Photo by Vincent Isore/IP3/Getty Images)

Twitterはプラットフォームにおける写真と動画のユーザー体験を向上させるため2週間前にMagic Ponyを買収し、機会学習の精度を高めようとしている。Googleも同じ道をたどる。本日、Androidと検索大手は、Moodstocksを買収したと発表した。Moodstocksはパリに拠点を置くスタートアップで、機械学習によるスマホの画像認識技術を開発し、「画像版Shazam」と呼ばれるAPIを開発者に提供している。

MoodstocksのAPIとSDKは近いうちに使用できなくなると、同社はホームページの声明で伝える。「私たちは、Goolgeで卓説した画像認識ツールを構築することに注力します。現在Moodstocksを有料で使用しているカスタマーに対しては、サブスクリション期間満了までは使用を続けられることを保証します」。

買収の詳細は開示されていない。またMoodstocksがこれまでいくら調達したかも定かではない。Crunchbaseにはベンチャーキャピタルから調達した資金は記されていないが、 2010年私たちが始めて同社のことについて書いた時、ヨーロッパの投資家から50万ドルをシードで調達したと伝えた。ちなみにTwitterは少し前に買収した、イギリスのMagic Ponyに対して1億5000万ドルを現金で支払っている。

Magic Ponyは創業から短く、広く買収対象となりうる段階で買収されたが、Moodstocksは2008年からモバイル端末での画像認識精度の向上を目指し取り組んできた。「私たちの夢は、カメラをスマートセンサーにすることで、周りのことを理解できるよう機械に目を与えることです」と同社は買収発表/さよなら/初めましての挨拶を兼ねた声明で伝える。

当初Moodstocksは自社開発のコンシューマーアプリを制作していたようだ。SNSのようなアプリだ。ユーザーは本などのメディアの写真を撮り、そのメディアに対して自分のコメントをつけることができる。他のユーザーの写真の個別の「フィンガープリント」を合致させる画像認識技術で、コメント同士をリンクさせるというものだ。

面白いアイディアだが、人気は出なかった。そこでMoodstocksはその技術を他の開発者に提供する方向にピボットした。少なくとも1つのアプリ「Moodstocks Scanner」は、開発者がアプリに機能を実装する前にSDKを試すツールに変わった。

Googleは、開発者がアプリに画像サービスを実装できるよう自社でもSDKをローンチするかどうか示していない。また、このテクノロジーをGoogleがコンシューマー向けサービスに活用するかも分からない。分かっていることは、MoodstocksのチームはGoogleのフランスにある研究開発運用拠点に参加することだ。Moodsotcksはが共同創業したスタートアップだ。

短い声明で、Googleのフランスのセンターを率いるVincent Simonetは、MoodstocksはGoogleに高精度な画像検索をもたらすことを期待していると伝える。すでにGoogleが提供しているサービスを改良するという。「画像認識の面で、大きく前進することができました」と彼はフランス語で伝えている。「しかし、この分野ではまだまだ改良できる部分が多くあります」。

Moodstocksの取り組みが、引き続きスマホ向けに留まるのか、他のところで活用されるのかはわからない。Moodstockの機械学習アルゴリズムが活用できる箇所は多くある。例えば、Google検索で検索単語と一致、あるいは関連する画像を見つけるために「学習」することができる。Googleは、このテクノロジーを、例えばGoogleフォトなどの既存アプリに活用することもできるだろう。

あるいは、将来ローンチするプロダクトに採用するのかもしれない。ただ、スマホなら分かりやすいユースケースが目の前にある。小さな端末のタッチスクリーンだとテキスト入力はやや手間がかかる。また、ユーザーは自分で撮った品質の低い画像から類似したものを探そうとするだろう。両方の課題に対し、強力な画像認識ツールは便利だ(例えば、何かの写真を撮って、それを検索「キーワード」として使用するような場合だ)。

Googleはフランスで他にもスタートアップの買収を行っている。例えば、スマホのパフォーマンスを向上させるFlexyCoreなどだ。また、顔認識のJetPacPittPattなど、複数の画像関連テクノロジーも買収している。他の大手テクノロジー企業もこのエリアでテクノロジーの買収を行っている。今年には、Amazonが静かに、AIやニューラルネットワークを活用する写真認識テクノロジーを開発するスタートアップOrbeusを買収している。

[原文へ]

(翻訳:Nozomi Okuma /Website

赤ちゃんの睡眠でお悩みなら「Nanit」にお任せ

nanit

もしシンプルなカメラが捉えた映像を機械学習が分析して、フェンスに近づいてくる人物の警戒レベルを教えてくれるとしたらどうだろう。もし同様にして食料品店の売り場で買い物をしている人の行動を分類できるとしたら?例えば、買う気があるのか、決断停止中か、はたまた探しているものをちゃんと見つけられているのか。画像認識と解析速度の向上のおかげで、単に観察するだけではなく、人間の行動を分類できるスマートカメラはモノのインターネットの次のステップなのかもしれない。

Nanitはそう言った市場に進出した最初の企業の1つだ。Dr. Assaf Glazerは、自分自身が父親でもあるが、彼と彼のチームは親にとって最も大変な仕事の内の1つ、つまり赤ちゃんが夜しっかり寝るようにすること、が少しでも楽になるようにすることを目標に掲げている。

Nanit Product

カメラをベビーベッド上に固定するには3オンスのカメラを10.5ポンドのスタンドに取り付ける。アカデミアとコネクションのあるテクノロジー系スタートアップは往々にして、最適なニッチ市場を見つけ出したり一般の消費者にテクノロジーを分かりやすく説明する点で苦労することがある。Glazerは200以上ものデザインを検討し独自性のあるデザインを採用した。睡眠不足の親は装置を充電したり電池を替えたりといったことに煩わされることはない。この低電圧で動く装置に関しては、ただ壁のコンセントに挿すだけで良い。

NanitのアプリはオプションのNanit Insightsを付けることで赤ちゃんの睡眠パターンの分析を行い、直感的に理解出来るカテゴリーに分類し、例えば睡眠中の乳児の動きをヒートマップで表示したりしてくれる。残念ながら、そう言った解析オプションを付けない場合は、Nanitはベビーベッドからの映像のライブストリーミングにしか使えない。Nanit Insightsは4つの主要な睡眠測定値について色別に可愛くラベル付けして表示してくれる。それらは、睡眠パターン、親がベッドに来る回数、寝つき、そして睡眠時間だ。

コンピュータ科学的に言えば、Nanitは機械学習を一般家電に応用した点が謳い文句だ。一般にこのような画像解析では、ほとんどの場合で変数の数が膨大になり、行動解析はほとんど不可能となる。幸運にも、Nanitの開発チームにとって、ベビーベッドのマットレスのサイズはほとんどが似たり寄ったりだ。そのおかげで、カメラの変数が標準化できるのでコンピュータはその空間を小さなサイズに分けることで正確な分析が可能になった。

nanit-thumb2

Nanitのベビーモニターの箱を開けると、まず簡単な機械のキャリブレーションをする必要がある。それが終わって一旦カメラをスタンドに設置するとシステムを調整する必要は二度とない。

加えて、Nanitには便利な夜間灯、ホワイトノイズや様々な自然の音を流してくれる装置、ケーブル管理システムが付属する。睡眠以外にも、赤ちゃんモニターは湿度、温度、音、動きを測定、記録可能だ。

Nanitに投資しているのはUpfront VenturesからMark Susterがリードを務め、その他RRE、645 Ventures、Jacobs Technion-Cornell Institute、Flex、Jerry Yang’s AME Cloud Venturesが参加している。同社はこれまでシードラウンドで660万ドルの資金を調達した。

このスマートベビーモニターの市場は活発な状況が続いている。OwletMimoSproutlingなどの会社は乳児用ウェアラブル機器を製造しているが使える部品やセンサーには制約がある。親の多くは自分の子供の服にトータルでアップルウォッチにも相当するものを埋め込もうとは思っていない。また、Dropcamのような装置は行動分析まではしてくれない。Dropcamでできるのはライブ映像を中継してピクセルの情報として他の機器上で表示することだけだ。Nanitのベビーモニターを使えば、新しいセンサーを増設することなく新たな分析機能を追加することが可能な点がとても強力だ。Glazerのゴールは、Nanit Insightsをさらに改良することで、データに基づきその家庭に最適なペアレンティングのアドバイスを提供することだ。

Screen Shot 2016-06-15 at 9.00.40 AM

ただ、行動科学に興味がある人はNanitのベビーモニターを面白いと感じるかもしれないが、この装置が親に情報を与えるだけでなくその行動にも影響を及ぼし得るという可能性を考えることはとても重要だ。

Nanitが子育てに良いとされている慣行に影響を与えるかもしれないと考えるきっかけになったのは、子供が一度起きてから再びどれだけ自分だけで寝付くことができるかがNanitで測定可能になったことが発端だ。この知識があれば、子供が起きても、特に必要がなければベビーベッドに急行することはないし、逆にベッドに行ってしまえばさらに子供を起こしてしまうことにつながる。

Nanitは本日よりインターネットによる直販での先行販売を開始する。同社は最初の1万5000台を、消費者の手に届くまでの時間を短縮すべくアメリカ国内で製造する予定だ。その後、生産拠点は国外に移転する予定だ。

先行発売は279ドルでNanit Insights1年間のサブスクリプションを50ドルで付けることができる。先行販売期間終了後はベイビーモニターが349ドル、Nanit Insightsは100ドルとなる。Nanit Insightsのオプションの更新にあたっては30日間考慮する期間が与えられる。

[原文へ]

(翻訳:Tsubouchi)