SalesforceのAIがソーシャルメディア上に自社製品が写ってる画像を見つけてくれる

企業が自分の社名やブランド名、製品名などへの言及をソーシャルメディア上に探すことは前から行われているが、画像中にロゴや製品が写っているのを見つけることは、当時はできなかった。しかしSalesforceの人工知能Einsteinは最近、そんな能力を持つに至った。

同社が今日発表したEinsteinのVision for Social Studio機能はマーケターに、言葉を探す場合と同じやり方で、ソーシャルメディア上に製品等の関連画像を探す方法を提供する。そのためにこのプロダクトは、Einsteinのとくに二つのアルゴリズム、画像分類アルゴリズムとオブジェクト検出アルゴリズムを利用する。前者はビジュアルサーチにより、製品やブランド名を画像中に見つける。そして後者は、それらが載っていた品目を同定する(例: 雑誌のページの上)。

最近のAIはとりわけ、感知や認識の能力が優れている。それは、画像の認識能力を訓練するアルゴリズムが進歩したためだ。最近では電子計算機の計算能力のコストは大幅に下がっており、そこに大量の画像をネット経由で放り込んでもそれほどの費用にはならない。そのために、大量の画像データでAIを教育訓練することが、誰にでもできるようになったのだ。

Salesforceのマーケティング担当VP Rob Beggによると、それ(画像認識とそのための訓練)は、人間よりもマシンに適した仕事でもある。“企業のマーケティングという視点から見ると、今のソーシャルメディア上のツイートやポストはものすごく多い。しかしAIは、その大量の情報の中にわれわれが求めるものを見つけることが得意だ”、と彼は語る。

彼によるとたとえば、ネット上に車に関するポストは山ほどあるが、でも今やっている広告キャンペーンと関連性のあるものは、ほんのわずかしかない。AIは、その、わずかしかないものを、簡単に見つけてくれる。

Beggが挙げるユースケースは三つある。まず、自分たちの製品を人びとがどのように使っているかが、分かること。第二に、画像中に隠れている自社製品やブランドを見つけ出すこと。そして三つめは、俳優やスポーツ選手など有名人が自社製品を使っているシーンを見つけること。

EinsteinのVision for Social Studioは、訓練により、今では200万のロゴと、60のシーン(空港など)、200種の食品、そして1000種のオブジェクトを認識できる。どの企業にとっても、はじめはこんなもので十分だ。ユーザーがカスタマイズすることは現状ではできないから、特定のロゴやオブジェクトを認識しないときは、今後の、カスタマイズ可能バージョンを待つべきだ。

Beggによると、Vision for Social Studioはマーケターのような技術者でない者でも容易に利用でき、彼/彼女にビジュアル認識ツールという新しいレパートリーが加わる。この新しい機能は、Salesforce Social Studioのユーザーなら今すぐ利用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleはTensorFlowによる画像キャプションモデルをオープンソースに、物認識から状況認識への進化をねらう

Fans using smartphones at a concert

ぼくの世代〔John Mannes, 1995/11生〕は、ほぼ全員がInstagramにはまっている。でもぼくは、2015年にこのプラットホームを去った(ごめんなさい)。理由は単純で、どの写真をポストするか、なかなか決められないこと、そして、簡潔で魅力的なキャプションを考えるのに、いつも苦労するからだ。

Google TensorFlow Captioning

画像提供: Google

でも、ぼくと同じ問題を抱えているひま人は、Google TensorFlow〔昨年オープンソース化〕の画像キャプションモデルを利用すれば、そのくだらない第一世界問題に終止符をうてるだろう。ぼくも、それが楽しみだ。右の、“A person on a beach flying a kite.”(ビーチで凧をあげている人)なんか、すごくビューティフルでクリエイティブだよねー。〔皮肉〕

ジョークは置いておくとして、GoogleのBrainチームの研究員社員たちが作ったこの技術は、なかなかのものだ。“Show and Tell”(見せる/教える)というキュートな名前のこのプロジェクトの精度は93.9%だそうだ。精度は、89.6%、91.8%とバージョンを重ねるたびに上がってきた。分類というタスクは、精度が少し上がっただけで有用性が大幅に向上する。

そこまで到達するためにチームは、視覚と言語の両方でニューラルネットワークを訓練してきた。用いた教材は、画像と、それに人間がつけたキャプションだ。そのおかげでこのシステムは、画像中の物(砂、凧、人)を認識するだけでなく、説明的な文章を生成できる。精度の高いモデルを作るための鍵は、物と物の関係、という要素を導入したことだ。たとえば上の写真では、男の上に凧があるのではなくて、男が凧をあげているのだ。

Google TensorFlow Image Caption

>画像提供: Google

チームは、このモデルは教材中の語句をオウムのように真似しているのではない、と主張する。たとえば左の例では、複数の画像のパターン(左図の左)を合成して、これまで見たことのない画像(左図の右)のためのキャプションをオリジナルに作っている。

この画像キャプションモデルのこれまでのバージョンは、一教材につきNvidia G20の上で3秒の訓練時間を要していた。しかし今日オープンソース化されたバージョンでは、その1/4、0.7秒だ。昨年はMicrosoft COCOと横並びにまでこぎつけたが、今のバージョンはそれよりさらに高性能、ということだろう。

数か月前にラスベガスで行われたComputer Vision and Pattern Recognitio(コンピュータービジョンとパターン認識)カンファレンスでGoogleは、このモデルについて説明し、画像中の物を認識できるだけでなく、人間がキャプションをつけた画像で訓練することにより、画像中のばらばらの要素を組み合わせてキャプションを作れる、と述べた。

物をコンテキスト(それが置かれている文脈、状況)に結びつけることは人工知能の長年の難関だったが、このキャプションモデルはそれの解決に向けての第一歩かもしれない。コンピューターが画像や映像を見て状況を認識できるようになったら、たとえば、警察から逃げようとしている人と、そのおそろしい場面から逃げようとしているたまたま居合わせた人とを、正しく区別できるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

PepperPayは、商品を画像認識するレジ係ロボット

pepperpay

画像認識技術が進歩すれば、スマートフォンやタブレットで物体の認識が可能になり、人間の目やバーコードスキャナーに頼る必要がなくなる。TechCrunch Disrupt SFハッカソンの参加プロジェクト、PepperPayは、レジのチェックアウトに画像認識を利用する。

PepperPayを塔載したデバイスを持つロボットの前で商品をかざすと、撮影してそれが何であるかをすぐに識別する。あとは支払いを済ませ、長い列に並ぶことなく店を出ていくだけだ。

チェックアウトの自動化は、リアル店舗の経費を節減し顧客満足度を向上させる。多くの食料品店がセルフチェックアウトを提供しているが、バーコードのスキャンは慣れない利用者にとっては苦痛だ。

商品を持って写真を撮るだけになれば、チェックアウトのスピードは向上し、特殊なハードウェアも大幅に削減できる。

gallery-1

PepperPayを作ったのは、Dave Idell、Adam Chew、Nisha Garigarnの3人で、IBM Watsonの画像認識技術とPayPalの取引サービスを利用している。Walgreensで長い行列を見て、自分たちのアイデアを使えば簡単に解決できるはずたとこのシステムを思いたった。

PepperPayのデモには、Aldebaran社の人間型ロボット、Pepperが使われたが、iPadに載せた簡易バージョンでも十分機能する。いずれPepperPayのようなテクノロジーが普及すれば、ロボットやAIが人間を置き換えることによる失業問題に対処する必要がでてくるだろう。

[原文へ]

(翻訳:Nob Takahashi / facebook

複雑な画像のキャプション(説明文)を自動生成するシステムをGoogleが研究開発中

画像認識技術はここ数年で長足の進歩を遂げ、中でもGoogleはその進歩の成果の一部をエンドユーザーにも提供している。どれぐらい進歩したかを知るためには、たとえばGoogle Photosで自分の画像を検索してみるとよいだろう。でも、物や情景を認識することは、最初の一歩にすぎない。

9月にGoogleは、今や人気のディープラーニング(deep learning, 深い学習)手法を使った同社のやり方が、単一の物の画像を認識するだけでなく、一枚の画像中のさまざまな物(果物籠にいろんな種類の果物がある、など)を分類できることを、みんなに見せた

それができたら次は、画像を自然言語で説明することに挑戦したくなるだろう。Googleはそれを、今トライしている。Google Researchのペーパー(小論文)によると、写真に下の例のようなかなり長い説明文をつけられるように、自分自身を教えるシステムを開発した。今すでにそれは、相当正確だそうだ。

Googleの研究者たちが述べているところによると、この問題への典型的なアプローチはまずコンピュータヴィジョンのアルゴリズムに仕事をさせ、その結果を自然言語処理に渡して説明文を作らせる。それで十分なようだが、しかし研究者たちは、“最新のコンピュータヴィジョン技術と言語モデルを一体化した単一のシステムを訓練して、画像を与えると人間可読な説明文を直接作り出す方がよい”、と言っている。Googleによると、このやり方は二つの再帰型ニューラルネットワーク(recurrent neural network, RNN)を組み合わせた機械翻訳で有効だった。翻訳と写真のキャプション付けはちょっと違うが、基本的なやり方は同じだ。

Googleのやり方が完璧、という意味ではない。機械翻訳のクォリティを人間による翻訳と比較する指数BLEUスコアでは、コンピュータが作ったキャプションは27〜59点ぐらいのあいだだ。人間は69点ぐらいになる。でも、25点に達しないほかのやり方に比べると、大きな進歩だけど。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))


メッセージングアプリFlybyがGoogleの”Project Tango”を初めて消費者製品に応用

【抄訳】

テキストとビデオを共有するためのメッセージングアプリFlybyが、Googleの”Project Tango”の画像認識能力を利用する初の消費者向けアプリになる。このプロジェクトは高度な3Dセンサを搭載したAndroid携帯の上で、自分の周囲の世界のビジュアルマップを作る

“Project Tango”には視覚系のソフトウェアを作っているパートナー企業が数社あり、Flyby Mediaもその一つだ。Tangoの技術がFlybyアプリに組み込まれて、広く消費者の手に渡ることになる。

同社はCole Van NiceとOriel Bergigが2010年に創業し、画像認識技術の開発を始めた。同社のCEO Mihir Shahは元TapjoyのCEOで、その後、この社員20名でニューヨークとパロアルトにオフィスのある、特殊なビジュアル技術を専門とする企業にCEOとして招かれた。

そのShahは、同社がTapjoyのような広告技術ではなく消費者製品を手がけるようになったことを、喜んでいる。“前からやりたかったのは、世界中の消費者が、コンテンツとメッセージによって現実そのものを扱える状態を作り出すことだった”、と彼は言う。“犬なら犬、猫なら猫とか、単にジェネリックな画像ではなくて、今の現実の状況そのものを表す画像を作り出すことは、これまでの最大の難題だった”。

Flybyにおいて、”状況”(context)とは現実世界のことだ。

このアプリを使うときユーザは、現実世界のオブジェクトを自分の携帯を使ってスキャンする。帽子、看板、ハンドバッグ、コーヒーカップ、ビル、刺青、ポスターなどなど、身の回りの何でもよい。そしてそれらのオブジェクトは保存されていたオブジェクトの仲間に加わる。

そして友だちは、それらのオブジェクト宛にメッセージを送る。これは単にジェネリックにテキストと添付画像を送る従来のメッセージに比べると、おもしろいコミュニケーションになる。メッセージングをもらった側は、部屋のあちこちを動き回ってどのオブジェクトにメッセージングが来たのかを探す。そして当のオブジェクトの近くまで来たらProject Tangoの技術がそのことを認識してアラートする。そして再びそのオブジェクトをスキャンすると送られてきたビデオが再生される。

こんなめんどくさいことの、どこがおもしろいのか、といぶかる読者もおられると思うが、分かりやすいユースケースを一つ挙げておこう。初めて使う複雑な電子製品が送られてきました。でも取扱説明書はありません。ところが、どこかのダイヤルやスイッチなどに手が行くたびに、メッセージング着信のアラートが鳴って、そのダイヤルやスイッチの用途、使い方をビデオで見せてくれるのだ。あるいは、世界的に有名などこかの遺跡観光地へ行きました。ガイドは一人もいません。でも、どこかの石柱に近づいたとき、ジャーン、携帯のアラートが鳴って説明のビデオを見られるのだ。古代の王墓の一つに近づくと、やはり説明のビデオが再生される。等々。

このように、Tangoの3D技術では、3D画像というメディアと、その画像の元となっている現実の世界や状況を、コミュニケーションで結びつけることができるのだ。

【後略】




[原文へ]
(翻訳:iwatani(a.k.a. hiwa))