Googleはファッションの画像検索をPinterestふうにする…お得意の機械学習技術を駆使

Googleには、Pinterestの野望に検索を乗っ取られる気はない。同社は最近、モバイルのWebとAndroidアプリで“類似アイテム”(Similar Items)機能をローンチして、ユーザーが自分の好きな製品をもっとたくさん見れるようにした。ハンドバッグでもサングラスでも靴でも、何でもだ。そして今日(米国時間4/13)はそのアイテムを、小物だけでなくアパレルにも広げた。それには“スタイルのアイデア”(Style Ideas)という新しい機能があって、ファッションアイテムをあこがれのライフスタイル的な画像で見せるのだ。

でもこの“あこがれの”というやつは、Pinterestが何年も前からやっている。ファッションアイテムに、ほかの製品を組み合わあせたりして、あわよくば、そっちも買わせたいのだ。しかもP社はビジュアル検索という技術まで発明して、画像中の製品や、ユーザーのカメラのファインダーに今映っているもので、検索できるようにした(類似品や関連製品を)。

こういう、買い物のための品物探しの検索を、Googleなどの一般的な検索エンジンから取り上げて自分のものにしたい、というP社の野望があった。たとえば、黒いブーツが欲しいなと思ったら、Pinterestへ行けば画像で検索できる。そして、いいのが見つかったら、もうGoogleに用はない。そのまま、お店のリンクをクリックすればよいのだ。

そこで、Googleはあわてる。その前にはGoogleは、一般消費者のモバイル化にも悩まされた。Google検索の、‘デスクトップのWebで検索する’というパターンが、もはや優勢ではなくなった。次は、検索でもP社に負けるのか…。

対策のひとつとして出てきたのが、今度の“スタイルのアイデア”という機能だ。

Googleの説明では、AndroidアプリやモバイルWebでファッション製品の画像を閲覧していたら、画像検索の画面がアップデートされて、その製品を実生活の中でかっこ良く見せる画像が表示される。たとえばハイヒールの写真を見ていたら、モデルがその靴を履いているファッション写真が表示されるだろう。

ファッション製品の検索では、検索結果の中に、似たようなアイテムや、実際にそれを身に着けている合成画像や実写画像が表示される、とGoogleは言っている。

そういう、“スタイルのアイデア”の画像は、人間が介入せずにアルゴリズムが選ぶが、ここでGoogleお得意の機械学習技術が、類似物(ときには同一物)の発見で活躍する。

また、一般的にアパレルの画像検索では、類似アイテムのカルーセルが大きくなった(多品目になった)。2か月前には、財布とサングラスと靴だったが、今では、アウターウェア、ドレス、シャツ、パンツ、スカート、ショーツが加わった。これらは、自分の好きなデザインのが選べるだけでなく、価格の安いものも見つかる。

Googleによると、スタイルのアイデアと、類似アイテムのどちらも、アルゴリズムが画像にランクをつける。そして製品の特徴がはっきり分かる画像や、完全な着こなしになってる画像、そして権威あるファッションサイトの画像、などが上位にランクされる。

GoogleがPinterest対抗策をやるのは、これが初めてではない。2015年には画像検索に“コレクション”(collections)機能を加えて、ユーザーが検索結果の気に入った画像をまとめて保存できるPinterestの機能に対抗した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの機械学習専用カスタムチップはGPU/CPUマシンの15〜30倍速い…同社ベンチマークを発表

【抄訳】
Googleが同社の機械学習アルゴリズムを高速に実行するカスタムチップを独自に開発したことは、前から知られていた。その Tensor Processing Units(TPU)と呼ばれるチップが初めて公開されたのは、2016年の同社のI/Oデベロッパーカンファレンスだったが、詳しい情報は乏しくて、ただ、同社自身の機械学習フレームワークTensorFlowに向けて最適化されている、という話だけだった。そして今日(米国時間4/5)初めて、同社はこのプロジェクトの詳細ベンチマークを共有した。

チップの設計をやってる人なら、Googleのペーパーを読んで、TPUの動作に関するややこしいすばらしい詳細情報を理解できるだろう。でもここで主に取り上げたいのは、Google自身のベンチマークの結果だ(客観的な第三者の評価ではない)。それによるとTPUは、Googleの通常の機械学習のワークロードを、標準のGPU/CPU機(IntelのHaswellプロセッサーとNvidia K80 GPUs)より平均で15〜30倍速く実行できた。また、データセンターでは電力消費が重要だが、TPUのTeraOps/Wattは30〜80倍高い。将来は高速メモリの使用により、これよりもさらに高くなるという。

なお、これは実際に使われている機械学習モデルを使った場合の数字であり、モデルの作成は関わっていない。

Googleによると、一般的にこの種のチップはconvolutional neural networks畳み込みニューラルネットワーク、画像認識などによく使われる)向けに最適化されることが多いが、Googleのデータセンターのワークロードではこの種のネットワークは全体の約5%にすぎず、大多数はmulti-layer perceptrons(多層パーセプトロン)のアプリケーションだ、という。

【中略】

Googleには、TPUを自分のクラウドの外で可利用にする気はないようだが、しかし同社は、これを勉強した誰かが将来、彼らが作る後継機により、“バーの高さをさらに上げる”ことを期待する、と言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

コンピュータービジョンで家具を特定するGrokstyleは200万ドルを調達済

こんな技術があればいいのに、といつも思っていたことの1つは、携帯電話を何かに向けて写真を撮れば、それが何であるかということと、どこでそれが買えるかを教えてくれるような機能だ。そんな私の贅沢な大量消費の夢が叶い始めているようだ。Grokstyleはその夢の実現に取組んでいる企業の1つだが、同社の技術はどんな角度の写真からでも家具や家庭の装飾品を自動的に特定してくれる。

基本的なアイデアは以下のようなものだ。アプリやウェブインターフェイスを開き、写真を撮影するかアップロードする。椅子でもランプでもお好みのものを選ぶことができる。好きな角度、好きなスタイルで構わない。Grokstyleサービスは、即座に最も似通ったものを答えてくる。そのものだけでなく、それに似通ったものも一緒に。

これはもちろん、インテリアコーディネーターにとってとても便利な機能だが、一般の買い物客も役立てることができる。Restoration Hardwareで素敵なランプを見かけたが、それに500ドルは支払えない?おそらくCB2には似たような何かがあるだろう…Grokstyleは個々の店の在庫を示し、類似品や相当価格のものをチェックできるようにする。

ビジネスとしては、同社は小売アプリやウェブインターフェイスが呼ぶことのできるAPIとしてそのサービスを提供する。そして多くのデザイナー、部屋、地域を組み合わせた深い知識を使って、例えば、今見たカウチとこのエンドテーブルがお似合いだ、といったことを勧めることもできる。

当然だが、こうしたことの中心にはコンピュータービジョンとマシンラーニングが置かれている。それが何の写真なのかを判別し、対象の輪郭を抽出し、寸法を測り、色やその他の特徴を調べ、同社が集めた数百万ものライブラリとマッチングを行う。

「私たちの会社はコーネル大学での研究からスタートしました」と共同創業者兼CEOのSean Bellが言う。「私たちは『それは何か?』という問に焦点を当てました。そして、その問題のための最高の技術を開発したのです」。

それは簡単なことではない。照明、組み合わせ、奇妙な角度…ユーザーの意図は言うまでもない。テーブルを撮影したのか、それともその隣の椅子が狙いだったのか?それはクルミなのかサクラなのか?

簡単だろうが何だろうが、彼らはそれらを実現した。そして得られたシステムは本当に素早く動作するのでまるでトリックがあるようにも見える(そうではないが)。動作中のプロトタイプの動画を以下に示そう。

共同創業者のKavita Balaが研究所を率い、大学院生のBellが加わった。そして彼らはGrokstyleの技術基盤を2015年のSIGGRAPHで発表した。大変な将来性が見込まれたので、コーネル大の公式な承認の下、彼らは自身の会社をスピンアウトすることを決めた。

「コーネル大学における起業活動は、ここ数年でとても重要になって来ています」とBala。「私たちは時代の波に乗っています、大学は私たちの成功を望んでいるのです」。

もちろん、この活動の一部は、お金を持っている人びとと関係している。Grokstyleは国立科学財団からの22万5000ドルの助成金でスタートし、様々なファームやエンジェルたちから合計200万ドルを集めた。取りこぼしはしたくないので、Seanによるサマリーを引用することにしよう。

Canaan Partners、Amino Capital、Neuron.VC、Krishna Bharat(元Google News責任者)、Amit Singhal(元Google検索責任者)、Luc Vincent(Lyftのエンジニアリング担当副社長)、Red Bear Angels(コーネル大エンジェルネットワーク)、その他のエンジェル投資家たち。

CB Insightsは彼らをAI 100リストに取り上げて賞賛している。今日のAIスタートアップの数を考えると、決して小さな扱いではない。現在は家具の世界に集中しているが、決してそこが物語の終わりではない。

「私たちは、このアルゴリズムは一般化できるものだと思っています」とBala。「複数のひとがユースケースとしてテレビを挙げています。もし適切なパートナーをご存知なら…」。

この手の技術が、ファッション、旅行、その他の高度に視覚的なマーケットにどれほど良くマッチするかは言うまでもない。家具の場合、バラエティには富んでいるものの、対象は少なくとも静止しているし比較的硬い。風にたなびく織物や、バースツールチェアがずっと同じ位置にあり続けるかどうかを心配する必要はない。しかし彼らは靴とハンドバッグあたりから、手を出すのかもしれない。

現在同社はパートナーシップの獲得と運営(相手が誰かは教えて貰えなかった)に取組んでいる。そして「本当に多数のエンジニア」を雇うことで、アルゴリズムの正確性と柔軟性に取組んでいる。

Grokstyleのシステムと、彼らの取り組み(そしてAPIアクセス)に関しては、同社のウェブサイトで情報を得ることができる。

[ 原文へ ]
(翻訳:Sako)

群衆写真中の小さな顔の位置を特定する新技術

顔が鮮明でカメラに近ければ、風景の中でそれらの位置を特定することは容易だ。しかし、個々の顔が小さな、グループ写真の場合はどうだろう?これが、私が思うに、ロボットにはより難しいのだ。

カーネギーメロン大学のロボット工学の准教授Deva Ramananと、ロボット工学のPh.D.学生であるPeiyun Huは、映像のコンテキストを評価することでこの課題に挑んでいる。単に2つの眼と口だけを見る代わりに、システムは体、腕、脚、その他の、顔が近くにあることを示唆する部位も探す。

「それは誰かの手に持たれた爪楊枝を特定するようなものです」とRamanan。「もしだれかが爪楊枝を使っているのだろうというヒントがあるなら、爪楊枝の位置特定は比較的容易です。その目的のために、指の方向や、手の動きや位置が主要な手掛かりとなります」。

システムを使うと「エラーが半分に減り」、発見された顔の81%が本当の顔だった(「従来の手法では29から64%の発見率だった」)。例えばこの手法を使うと、携帯電話があなたと猫の顔を取り違えることはない。このシステムはまた、群衆の中の小さな顔を見つけ、よりよい人数の数え上げを行うことができる。

リリースから:

彼とHuが開発した手法は、人間の視覚が構成される方法に似たやり方でコンテキストをエンコードする「中心窩記述子」(foveal descriptors)を用いている。人間の視覚の中心が、視力が最高になる網膜の中心窩に焦点を当てているように、中心窩記述子は小さなイメージの断片に対して、周囲がよりぼかされた状態のシャープなディテールを提供する。

周辺画像をぼかすことで、中心窩記述子は、高いフォーカスの中の画像の断片の理解に対する、十分なコンテキストを与える。一方計算量はそれほどは多くはならない。これによってHuとRamananのシステムは、小さな顔が含まれているかどうかを判定する際に、断片から比較的離れたピクセルを利用することができる。

さて、おそらく私たちは、いまや群衆の中に何人の人がいるかが分かるようになった。例えば、サッカーの試合、パーティ、そして就任式に。

[ 原文へ ]
(翻訳:Sako)

専門知識なしで動画からオブジェクト検出 ― Matroidが本日ローンチ

画像が何千語分もの情報をもつとしたら、ビデオはその数字にフレームレートを掛けあわせた分の価値があることになる。本日ローンチしたコンピュータービジョンのMatroidは、誰もがビデオの中に含まれた情報を活用できるようになるサービスだ。直感的に操作できる同社のWebプラットフォームを利用することで、ビデオに映る人物やその他のオブジェクトを検出するディテクターをつくることができる。

Matroid創業者のReza Zadeh氏はスタンフォード大学で非常勤の教授を務める人物。彼が最初にこのビジネスの構想を思いついたのは約10年前だった ― そして今、彼は民主化が進むコンピュータビジョンの分野に参入することとなった。Matroidの得意分野は、医療画像などの中にある情報を取り出すことではなく、ビデオからオブジェクトを検出することだ。

Matroidのユーザーは、オブジェクトを検出するディテクターを構築するためにTensorFlowやGoogle CloudのVideo Intelligence APIを利用する必要はない。必要なのは、みずからが用意したトレーニングセットをアップロードするか、何百万もの画像からなるMatroidのライブラリから必要なものを選択することだけだ。Matroidはトレーニング・プロセスの最中に画像や動画を処理することができる。インプットの処理には複数のニューラルネットワークが利用されている。Matroidにビデオをアップロードすると、そこに映る重要なオブジェクトに四角形の枠を重ねるように指示される。そうすることでディテクターをトレーニングすることができるのだ。

Metaroidを使って監視カメラ用のディテクターをつくり、殺人容疑がかけられた人物の無罪を証明するという例を考えてみよう。映画「My Cousin Vinny(邦題:いとこのビニー)」のJ・ペシを救うのだ(日本版注:いとこのビニーは、J・ペシが演じるビニーがスーパーマーケットを訪れた際に強盗殺人犯に間違われてしまうというストーリー。ビニーの愛車はメタリックミント色のビュイック・スカイラーク)。そのために必要なのは、1964年製のビュイック・スカイラークの画像と自動車のコマーシャルビデオなどを使ってディテクターをトレーニングすることだけだ。そして、そのディテクターを使ってスーパーマーケットの監視カメラにビニーの愛車が映っているかどうか確かめればいい。

MetaroidはNielsenなどの企業と手を結び、テレビや他のメディアの動画コンテンツから有益な情報を抜き出すビジネスを展開する予定だ。Appleを例にすれば、iPhoneやMacBookがHBOのテレビドラマに登場する回数を数えるなどのユースケースが考えられる。しかし、Metaroidが活躍するのは広告関連の分野だけではない。例えば、監視カメラの映像を確認するという作業の一部をMetaroidによってオートメーション化することができる。動物や風に揺れる木を無視して、人間や自動車だけを検出するディテクターをつくればいいのだ。

Metaroidはこのユースケースからマネタイズしようとしていて、ストリーミング動画のモニタリングに課金する予定だ。また、データを社外に持ち出すことを嫌う企業に対しては、ローカルに動作するアルゴリズムを有料で提供する。また、Metaroidはビデオに映る光エフェクトを検出したいなどの特定のニーズにも対応できる。YouTube動画に映るバットマンを検出するのは無料だ。

Metaroid創業者兼CEOのReza Zadeh氏

Zadeh氏率いるMetaroidのチームは現在、コンピュータービジョンのマーケットプレイスを構築しようとしている。これが実現すれば、エキスパートたちがより高度にカスタマイズされたディテクターを販売できるようになる。ディベロッパーたちを惹きつけるため、彼らはビジュアライゼーション・ツールを同社のプラットフォームに追加する予定だ。また、同社はTensorFlowを使ったツール内部の大半を公開している。

「ディテクター分野で最大のシェアを持ちたいと考えています」とZadeh氏は話す。

Matroidがサステイナブルな価値を提供するためには、コミュニティをできるだけ早く形成することが必要だ。そのため、Zadeh氏はScaled Machine Learningと呼ばれるカンファレンスを主催したり、TensorFlowの使い方を学ぶための場を設けるなど、機械学習コミュニティで盛んに活動している。

これまでにMatroidはNEAからの資金調達を完了している。Matroidがコミュニティを早期に形成し、彼らのプラットフォームのユーザーが増えてこれば、NEAはこの投資から利益を上げることができるだろう。

[原文]

(翻訳: 木村拓哉 /Website /Facebook /Twitter

Google、ビデオ中の対象を認識する機械学習API公開―Cloud Next 2017

SAPとの提携に引き続きGoogle Cloud Nextからのニュースだ。今日(米国時間3/8)、サンフランシスコでスタートしたカンファレンスでGoogleは新しい機械学習APIを発表した。このAPIはビデオ中の対象を自動的に認識し、検索可能にする。

新しいVideo Intelligence APIを利用するとデベロッパーは ビデオから対象物を自動的に抽出する能力を備えたアプリを開発できる。これまで画像認識APIはクラウド・サービスでのみ利用でき、しかも多くは静止画だけを対象にしていた。しかしGoogleのAPIを使えばデベロッパーはユーザーがビデオを検索して情報を引き出すようなアプリを開発できる。つまりflowerやdogなどのキーワードでビデオを検索できるようになる。

ビデオ中のエンティティの抽出に加えて、このAPIはシーンの転換を認識し自動的なタグづけを可能にする。

ただしビデオそのものはGoogleクラウドに保管されている必要がある。こちらでデモを見ることができる。

Google CloudのAIおよび機械学習担当チーフ・サイエンティストのFei-Fei Liのキーノート講演によれば、画像処理は静止画の先へ進みつつあるという。ビデオは機械学習の開発者にとって長らく困難なターゲットだった。新しいAPIは静止画の画像認識同様んび簡単にビデオから情報を引き出すことを可能にする。

さらにGoogleのクラウド機械学習エンジンはTensorFlowフレームワークを用いてデベロッパーが独自のカスタム機械学習モデルを構築できるようにする。Gogleによればこのエンジンは今日、一般に公開された。

キーノートでLiは、Googleは「社内で開発した機械学習テクノロジーの一般への普及を図っている。 今回もVision APIの公開もその例だ」と述べた。

〔日本版〕Googleが用意した説明ページのデモでは動物園、Google本社の自転車などを撮影したサンプルビデオにAPIを適用して処理した結果を見ることができる。APIの利用例のサンプルコードも掲載されている。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

いまさら聞けないライダー(Lidar)入門

wtf-is-lidar

その昔、人びとは目から放たれた見えない光線が世界を照らし、それが見るものへの視覚をもたらしているのだと考えていた。もちろん、それは間違いだったのだが、だからといってそれが「見る」ための完璧な方法ではないということではない。実際、それこそがライダーの基本アイデアなのだ。ライダーは、今や考古学から自動運転車に至るまでその有用性が証明されたデジタルイメージ手法である。

ライダー(Lidar)は頭字語の1種で、通常は「light detection and ranging(光による検知と測距)」の略語とされる。まあ最初の2語の間に「imaging」を差し込みたい人もいるだろうけれど。ソナーやレーダーと響きが似ているのは偶然ではない、それらは皆同じ原理である「反響定位法(echo location)を採用しているのだ。まあ、コウモリにできるのだから、私たちにできない理由はないだろう。

エコーで見る

基本的な考え方は単純だ。何かを世界に発射し、それが戻ってくるまでにどれ位の時間がかかっているのかを追跡する。コウモリは音波を使っている。短いきしみ音が環境で反射して、木や虫がどれくらい離れているかによって、耳に戻ってくる時間が異なってくる。それをソナーに転用するには少しばかりの想像力が必要だ、それはより大きな音声パルスを周りの水に向けて発射し、エコーを聞く。もし音波が水中を進む速度を正確に知っていたなら、そして音波が何かに反射して戻ってくる迄にどれくらいかかるかを正確に計測できるなら、反射したものが何であれ、そこまでの正確な距離を知ることが可能だ。

lidar-scanned-sick-lms-animation

おそらく記事の内容は、このGIFに要約されている。

そこからレーダーへの進化はそれほど大きなものではない、ほとんど同じようなことを電波を使って行うのだ。私たちが、飛行場や大きな船の上で、くるくる回るのを見るレーダーアンテナは、電波のビームを発射しているのだ。そして電波は固体に(特に飛行機のような金属に)当たると反射して、それがレーダーアンテナによって検出される。そして私たちは大気中の光の正確な速度を知っているので、飛行機までの距離を計算することができる。

さて、電波は長い距離に渡って固体をみつけるためには大変素晴らしいものなのだが、幾つかの欠点も存在する。例えば、電波はいくつかの物質は反射せずに通り抜けてしまうし、物理学が関係してくるのだが、100フィート(約30.5メートル)程度以下の距離では扱いが難しいのだ。一方、音波には反対の問題がある。それは急速に減衰し速度も相対的に遅い。このため十数フィート以上離れているものを見つけるためには不向きなのだ。

ライダーは有利な点の多い技術だ。ライダーシステムは、レーザーを使って可視スペクトル外の光のパルスを発射し、そのパルスが戻ってくる時間を計測している。ある特定のパルスが反射した方向と距離を、ライダーユニットを中心とした大きな3D地図の中の点として記録する。異なるライダーユニットは、異なる手法を用いるが、一般的にはレーダーアンテナのように円形のスイープを行いながら、同時にレーザーを上下させている。

ライダーが最初に提案された1960年代は、レーザーならびに検出メカニズムは、かさばる上に動作も遅かった。今日では、小さくなった電子部品と高速なコンピューターのおかげで、ライダーユニットは1秒あたり100万回を超えるパルスの送受信が可能であり、1秒あたり何百回もの周囲検知を行うことが可能だ。

戻ってくるレーザパルスからの座標の集合である「ポイントクラウド」は、驚くほど精細で(そして美しい)、環境とその中のオブジェクト全ての輪郭を描き出すことが可能だ。

pointcloud飛行機やヘリコプターのライダーユニットは、飛行中迅速かつ正確に、地上の地形を調査することができる。また考古学者は、ライダーユニットを送り込むことで、その場所の詳細を1インチ単位で記録することができる。また最近では、自動運転車やロボットに搭載されたコンピュータービジョンシステムが、その周囲の状況を簡単に把握することができるようになった。

路上の目

ライダーが手に入れた役立つ用途は、特に最後のものによく適応している。すなわち日常世界のナビゲートだ。私たち人間は、私たちの両眼の視覚から得られる僅かに離れた画像を使って、距離を抽出する洗練された手段を持っている。しかし、もし私たち自身の目からレーザーを発射できて、その反射時間をナノ秒レベルで感知することができるなら、更に素晴らしいことだろう。

ライダーユニットは、一般的には筒状の小さな突起物である。その中ではレーザーと検出器が回転している。多くの自動運転車やプロトタイプの上についているのを見たことがあるだろう。それらは実用上十分に詳細な3Dイメージを生成するので、自動車の電子頭脳に組み込まれたコンピュータービジョンシステムは、車とトラック、自転車とオートバイ、そして大人と子供さえ区別することが可能だ。これは重要なことだ。そうしたものはみな異なる振舞を示し、車の減速を促したり、側方に隙間を空ける必要を生じるかもしれないからだ。

ここに示したビデオはやや古いものだが、車がライダーシステムで周りの何を見ているかについて、分かりやすいイメージを与えてくれる。

とはいえライダーが全てを行うわけではない。例えば、それは標識の文字は平たいので読み取ることができない。そして、もし可視性が限られている場合には、比較的容易にシステムは混乱する。豪雪、濃霧、その他ユニットの視界を妨げるものに影響を受けるのだ。よって、ライダーは他のシステムと連携して動作する必要がある。そのいとこであるレーダーやソナー(実際には超音波)、そして通常の可視光カメラも同時に利用する。ライダー自身は「バンプ(凸あり)」の標識サインを読み取ることはができないかもしれないが、可視光カメラは実際のバンプに直前まで気が付かないかもしれない。チームとして働くことで、システムは間違いなく周囲の環境に対して、人間よりも優れた意識を持つことができるようになるのだ。

高速で高精度のコンピューター知覚の世界は、複雑で急速に進化している。よってライダーの役割も、他のテクノロジーによって追越されたり、その性能を向上させられたりすることによって変わっていくだろう。しかし紀元前500年には否定された視覚の概念が、いままた脚光を浴びているのは間違いないようだ。

[ 原文へ ]
(翻訳:Sako)

AmazonのRekognition APIがあなたの年齢を当てる、いや…、当たらない?!?!

screen-shot-2017-02-10-at-10-30-27-am

自分は(たぶん)自分の歳を知っている。友だちに、自分の歳を当てさせることもできる。それになんと、Microsoftも、あなたの歳を当てられる。でもいちばん重要なのは、毎日買い物をするAmazonに、自分の歳を知ってもらうことじゃないかな。

これまでのところ、Amazonが自分の歳を何歳だと思っているか、知るためには、リコメンデーションの品目を見るしかなかった。昨日(きのう)なんかぼくは、一日の大半が、大量の短編SFを調べることでつぶれた。Amazonが、ぼくがそれを必要としている、と固く信じているからだ。そう、Amazonは、ぼくがテクノロジーの好きなミレニアル世代であることを、見事に当てているのだ。

でもこれからは、こんな、過去の事象に頼るテクニックは要らなくなる。AmazonのRekognition APIを作っている連中が今日(米国時間2/10)公開した便利な機能は、そこへ自分の写真をアップロードすると、年齢を当ててくれる。今日はたまたま、友だちの誕生日なので、Amazonのそのツールと、MicrosoftのHow-Old.netと、人間によるクラウドソーシングに、当て比べをやらせてみた。

まずAmazonだ — このWebアプリケーションは、友だちの年齢を26歳から43歳のあいだ、と推定した(上図)。彼の本当の年齢は26歳よりもずっと若いから、嬉しい結果ではない。性別と幸福状態には“appears”(〜〜と見える、思われる)という留保が付いているが、正しい確率は99.9%になってる。ぼくも、自分が43歳と思われないためには、つねに作り笑いでスマイルしているべきだろう。

screen-shot-2017-02-10-at-10-30-50-am

Amazonは大失態だったが、それでもMicrosoftよりはましだ。MicrosoftのHow-Old.netツールは、友だちの年齢を30歳と言った。参ったね。

三者の中では、人間がベストだった。ランダムに選んだ人たちに聞いてみた結果では、答の平均値が“22歳の半ば”だった。本当は、今日22歳になったばかりだから、6か月の誤差がある。

参照データを得るために、今度は自分の、顔に光がよく当たった写真でテストしてみた。やはり、誤差は大きい〔John Mannes, 1995/11/14生; 昨年まで本誌インターン〕。Microsoftは、ぼくの年齢を27歳と言ったが、ぼくの本当の年齢は友だち〔22歳〕よりも若いんだけどね!。

ご自分の写真を、ここここで試してみよう。その結果、その後のあなたの生活に起きるであろうさまざまな危機も、ご遠慮無く共有してくださってけっこうだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Instagramの画像からショッピングができるGeeneeがシリーズAで440万ドルを調達

screen-shot-2016-12-01-at-9-38-46-am

Instagramのようなプラットフォームでのコンテンツの閲覧と、オンラインショッピングとの間には大きな溝がある。インフルエンサーたちは、リンクを貼ることができないInstagramで彼らのポストをマネタイズする方法を探していた。RewardStyleと同じく、そのために生まれたのがGeeneeだ。

Geeneeは、Instagramを通してオンラインショッピングをすることを可能にするプラットフォームだ。ユーザーは気に入ったポストのスクリーンショットを撮影してGeeneeのアプリにアップロードし、そこで表示されるアイテムの中から買いたいものを選ぶだけでいい。画像認識技術を活用したGeeneeは、ポストの画像に写っているアイテムのブランド、SKU(最小管理単位)、そしてその商品を取り扱うショップを自動で判断するのだ。

Geeneeは現地時間1日、シリーズAでHighlight Communications AGなどから440万ドルを調達したことを発表した。Constantin Media AG、Stephen Cohen、Steve Titusなども本ラウンドに参加している。

現状ではファッション分野のみにフォーカスする同社だが、同プラットフォームは将来的に様々な分野に応用できると創業者のThorsten Magersは話している。

インフルエンサーがInstagramのポストをマネタイズために必要なのは、一度きりのGeeneeの利用登録だけだ。それにより同社はインフルエンサーのInstagramのプロフィールとポストにアクセスできるようになる。するとGeeneeは、それらのポストをすべてスキャンし、そのアイテムの在庫情報を取得し、そのアイテムを同社のアフィリエイト・プログラムと結びつけ、ユーザーをそのアイテムが購入可能なショッピング・ポータルへと誘導する。

「ユーザーがインスパイアされた”瞬間に”行動できる機会を与えるというアイデアです」とThorsten Magersは語る。「これまでは、ユーザーはRewardStyleから送られてくるEメールを待つか、自分自身でそのアイテムを探す必要がありました。しかし私たちのサービスでは、そのプロセスがスクリーンショットを撮るのと同じくらい簡単になるのです」。

Geeneeで買い物ができるのは、Geeneeに登録したインフルエンサーによってアフィリエイト・ネットワークに追加済みのアイテムだけだ。しかし、そのアイテムが入手不可能な状態であったとしても(古すぎるアイテムや、レッドカーペットで着用されるような新しすぎるアイテムなど)、同アプリはそれに類似するアイテムをユーザーに提示する仕組みとなっている。

RewardStyleと同じように、Geeneeは売り上げの一部を受け取り、さらにその一部をインフルエンサーに支払う。

現在のところ、Geeneeに登録しているインフルエンサーは約200名で、同社のアフィリエイト・ネットワークには5000以上のブランド、数百万点のアイテムが登録されている。

Geeneeを使ってみたいと思う読者はこのWebサイトをチェックしてほしい。

[原文]

(翻訳: 木村 拓哉 /Website /Facebook /Twitter

Amazon AIがローンチ、Alexaのような音声アプリが開発可能に

aws-logo

Amazonは本日、ラスベガスで開催している 開発者イベントre:InventでAmazon AIプラットフォームのローンチを発表した。Amazonが何年もかけて開発した機械学習の知性を社外の開発者でも利用できるようにする。最初の段階では3つのツールを提供するが、今後新たなツールを追加していく計画だという。

Amazonは機械学習の取り組みについてあまり発表してこなかったが、この分野において多くの知見があるとAmazon Web ServiceのCEO、Andy Jassyは強調する。「長くAIに取り組んできました。私たちのビジネスにはAI専任の人員が何千人もいます」という。

img_20161130_085150

Amazon AIのツールの1つは画像認識サービス「Rekognition」だ。GoogleやMicrosoftなどが提供するサービスと同じように画像に写る物を特定することができる。Amazonのツールでは、画像に写っている犬の犬種まで認識できるとAmazonは主張する。ただ、他の競合サービスでもたいてい同じことができることは明記しておきたい。Amazonのサービスはとてもコスト効率が良いとJassyは説明しているが、実際の価格帯をまだ発表していない。

img_20161130_085343

2つ目は Amazon Pollyで、これはテキストを音声に変換するサービスだ。裏では機械学習の知性を多く活用しているという。人が話しているかのような音声が作成できるとJassyは話す。「Pollyは、音声生成でこれまで課題だった部分を解決します。例えば、『live』の言葉の発音は文章によって異なります。『I live(リブ) in Seattle』と『Live(ライブ) from New York』のようにです。Pollyは同形異義語を認識して、スペルが同じでも発音が違うことを知っています」。

Pollyは男性と女性の47の音声を備え、24言語に対応している。

img_20161130_085506

3つ目のサービス「Lex」で、これが一番重要な新サービスだろう。基本的にはAmazonが手がけるAlexaを動かしているテクノロジーと同じとJassyは言う。複数回のやりとりを要するコミュニケーションにも対応する会話型アプリケーションをこれで開発することができる。開発者はLex Consoleから会話を設計し、サンプルの会話文でボットを訓練することができる。

Amazon Lexを使用してチャットボット、あるいはユーザーと生き生きとしたインタラクションを持つウェブやモバイルアプリを制作することが可能になります」とAmazonは本日の発表で伝えた。「ボットは情報を提供したり、アプリを動かしたり、作業を効率化したり、さらに他のロボット、ドローンやおもちゃの操作するのにも活用することができます」。

本日のキーノートでAmazonは、声の指示だけで航空券を予約する様子を見せた(なぜか航空券の予約がこういったサービスの定番のデモになっている)。LexはLambdaや他のAWSのサービスと深く連携し、また他の法人向け連携サービスにも対応している。他にもFacebook Messenger、Slack、Twilioとも連携可能で、これによりAmazonの端末にとどまらず、基本的に他のどのデバイスでもこれらのサービスを使ってアプリを開発することができる。

img_20161130_085550-1

[原文へ]

(翻訳:Nozomi Okuma /Website

ニューヨーク州の新しい都市計画はディストピアへの第1歩か?

14316512841_9e69101089_z

今週の初め、ニューヨーク州知事アンドリュー・クオモは、21世紀半ばの完成を目指した橋(とトンネル)に関する記者会見を開催した。知事の野心的で論争の種ともなるその計画は、高速道路の渋滞を削減し、排気ガスの低減をするためにデザインされた、一連の構想である。

この構想はまた、洪水を阻止するトンネル内バリアのデザインと、地震に備えた橋の強化も含んでいる。エネルギー消費を抑えながら、素晴らしい照明のショーを提供するために、橋のLED照明化もリスト上に載せられている。ここではJay Zの音楽に乗せてイメージが示されているが、この壮大な照明はあなたのインスピレーションを促すことだろう:

当然のことながら、構想には数多くの対テロ規制が含まれている。橋やトンネルの「構造上重要な地点」の周りには、カメラとセンサーが配置される。このNew York Crossings Projectという名前のプロジェクトには、車のナンバープレートや人間の顔を認識できる先進的な画像認識テクノロジーが取り込まれるのだ。

そうした地点に展開されたあと、このテクノロジーは空港やその他の交通ハブにも適用されることになるだろう。

人権擁護団体からの反応は予想通り迅速だった。発表の翌日New York Civil Liberties Union(NYCLU)は、計画をマイノリティ・リポートと比較しつつ、知事のクオモをディストピアだと非難している。 以下はNYCLUのスタッフである弁護士のMariko Hiroseが、フィリップ・K・ディックの作品に言及しながら述べたものだ:

知事クオモの計画は、誰が何を知っているかを政府が調査するために使える、巨大なデータベースに、何百万人もの人びとのイメージとデータを格納してしまう可能性がある。罪のない人々、特に技術の不正確さによって誤認識されやすい有色人種が、テロリストとして誤って特定されてしまうという、巨大な危険性もある。私たちは、そのことが意味する深刻なプライバシー上の懸念について何の議論も経ぬまま、マイノリティ・リポートのディストピア世界に1歩近付いたのだ。

出典 The Verge

[ 原文へ ]
(翻訳:Sako)

eBayがビジュアル検索エンジンのCorrigonを買収、買収額は3000万ドル未満との噂

ebay-campus

新品・中古を問わず何でも揃ったマーケットプレイスのeBayが、また新たに企業を買収し、同社のサイト上に掲載されている10億種類前後の商品の中からユーザーが欲しいものを見つけ出すための検索テクノロジーを強化しようとしている。eBayは本日、イスラエルを拠点とするスタートアップで、コンピュータービジョンやビジュアル検索テクノロジーの専門家を有するCorrigonを買収したと発表した。なお、eBayは買収の詳細について何も発表していない。イスラエル紙The Markerは買収額が3000万ドルであったと報じたが、私たちの情報筋によれば実際の買収額はそれよりも少なかったとされる。

Corrigonは、2008年頃にAvinoam OmerとEinav Itamarによって設立された。その後、同社がこれまでにどのくらいの資金を調達したかはハッキリしていない。Omer自身は連続起業家で、Microsoftに買収された機械学習テクノロジー企業のZoomixも彼が過去に設立した会社だ。

Corrigonは、画像内にある特定の物体を検索・認識し、それを他の画像とマッチさせたり、製品情報にリンクさせたりといったことを得意とする。eBayにおいては、その技術が画像と商品のマッチングに利用されるようになるだろう。「Corringonの専門性やテクノロジーのおかげで、販売者は自分の商品にぴったりな画像を利用できるようになり、購入者は自分がスクリーン上で見ているものと実際の商品が同一であると信用できるようになります」とeBayは記している。

これが何を意味するかというと、将来的にeBayは、販売者が自分たちで準備する画像よりも高画質の商品画像を提供できるようになるということだ。同様に、購入者も同じ機能を利用して、eBay上で欲しい商品を探し出すことができるようになる。

Corrigonのサイト上では、彼らの技術がどのように応用できるかについて詳細を確認することができる。例えば、大きな写真の中にいくつものアイテムが含まれているとして、ユーザーが画像上でマウスのポインターを動かすと、アイテム毎にポップアップリンクが表示され、ユーザーはそこから関連アイテムを購入することができるのだ。Corrigonのテクノロジーを利用すれば、アイテムの認識とリンクの作成が基本的に自動化できる。

eBayはこれまでに、機械学習やビッグデータを利用した検索機能の構築に何度も取り組んできた。今年の5月には、ビッグデータスタートアップのExpertmakerやAIを開発するSalesPredictを買収していた。

さらにeBayはずっと、自社のプラットフォームをもっと視覚的でスマートなものにしようとしており、Corrigonはその戦略にマッチしている。実のところ、eBayは2011年の時点で既に限定的なビジュアル検索機能をモバイルアプリの形で提供しており、ユーザーはスマートフォンのカメラを使って、購入したいアイテムを特定することができた。

2013年には、Pinterestのような画像中心のインターフェースへとデザインを一新し、以前のテキストベースで古風なデザインを好まないような消費者層を取り込もうとしていた。しかし、インターフェースの変更によって、画像の検索や発見、画像とのインタラクションに関しもっと高度なテクノロジーが必要になったのだ。

eBayによれば、「構造化データイニシアティブの一環として」Corrigonの技術は画像認識だけでなく、画像の識別や補正にも利用される予定だ。

「私たちがeBayのショッピング・エクスペリエンスを進化させていく中、Corrigonのテクノロジーや専門性のおかげで、利用者は欲しい商品を簡単にみつけられるようになります。これは、1年以上前、つまり私たちが構造化データに投資する以前は不可能なことでした」とeBayの構造化データ部門でヴァイスプレジデント兼ジェネラルマネージャーを務めるAmit Menipazは声明の中で語った。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

Googleがフランスの画像解析スタートアップMoodstocksを買収

DUBLIN, IRELAND - APRIL 19:  (FRANCE OUT) A general view outside the Google European headquarters, on April 19, 2016 in Dublin, Ireland.  (Photo by Vincent Isore/IP3/Getty Images)

Twitterはプラットフォームにおける写真と動画のユーザー体験を向上させるため2週間前にMagic Ponyを買収し、機会学習の精度を高めようとしている。Googleも同じ道をたどる。本日、Androidと検索大手は、Moodstocksを買収したと発表した。Moodstocksはパリに拠点を置くスタートアップで、機械学習によるスマホの画像認識技術を開発し、「画像版Shazam」と呼ばれるAPIを開発者に提供している。

MoodstocksのAPIとSDKは近いうちに使用できなくなると、同社はホームページの声明で伝える。「私たちは、Goolgeで卓説した画像認識ツールを構築することに注力します。現在Moodstocksを有料で使用しているカスタマーに対しては、サブスクリション期間満了までは使用を続けられることを保証します」。

買収の詳細は開示されていない。またMoodstocksがこれまでいくら調達したかも定かではない。Crunchbaseにはベンチャーキャピタルから調達した資金は記されていないが、 2010年私たちが始めて同社のことについて書いた時、ヨーロッパの投資家から50万ドルをシードで調達したと伝えた。ちなみにTwitterは少し前に買収した、イギリスのMagic Ponyに対して1億5000万ドルを現金で支払っている。

Magic Ponyは創業から短く、広く買収対象となりうる段階で買収されたが、Moodstocksは2008年からモバイル端末での画像認識精度の向上を目指し取り組んできた。「私たちの夢は、カメラをスマートセンサーにすることで、周りのことを理解できるよう機械に目を与えることです」と同社は買収発表/さよなら/初めましての挨拶を兼ねた声明で伝える。

当初Moodstocksは自社開発のコンシューマーアプリを制作していたようだ。SNSのようなアプリだ。ユーザーは本などのメディアの写真を撮り、そのメディアに対して自分のコメントをつけることができる。他のユーザーの写真の個別の「フィンガープリント」を合致させる画像認識技術で、コメント同士をリンクさせるというものだ。

面白いアイディアだが、人気は出なかった。そこでMoodstocksはその技術を他の開発者に提供する方向にピボットした。少なくとも1つのアプリ「Moodstocks Scanner」は、開発者がアプリに機能を実装する前にSDKを試すツールに変わった。

Googleは、開発者がアプリに画像サービスを実装できるよう自社でもSDKをローンチするかどうか示していない。また、このテクノロジーをGoogleがコンシューマー向けサービスに活用するかも分からない。分かっていることは、MoodstocksのチームはGoogleのフランスにある研究開発運用拠点に参加することだ。Moodsotcksはが共同創業したスタートアップだ。

短い声明で、Googleのフランスのセンターを率いるVincent Simonetは、MoodstocksはGoogleに高精度な画像検索をもたらすことを期待していると伝える。すでにGoogleが提供しているサービスを改良するという。「画像認識の面で、大きく前進することができました」と彼はフランス語で伝えている。「しかし、この分野ではまだまだ改良できる部分が多くあります」。

Moodstocksの取り組みが、引き続きスマホ向けに留まるのか、他のところで活用されるのかはわからない。Moodstockの機械学習アルゴリズムが活用できる箇所は多くある。例えば、Google検索で検索単語と一致、あるいは関連する画像を見つけるために「学習」することができる。Googleは、このテクノロジーを、例えばGoogleフォトなどの既存アプリに活用することもできるだろう。

あるいは、将来ローンチするプロダクトに採用するのかもしれない。ただ、スマホなら分かりやすいユースケースが目の前にある。小さな端末のタッチスクリーンだとテキスト入力はやや手間がかかる。また、ユーザーは自分で撮った品質の低い画像から類似したものを探そうとするだろう。両方の課題に対し、強力な画像認識ツールは便利だ(例えば、何かの写真を撮って、それを検索「キーワード」として使用するような場合だ)。

Googleはフランスで他にもスタートアップの買収を行っている。例えば、スマホのパフォーマンスを向上させるFlexyCoreなどだ。また、顔認識のJetPacPittPattなど、複数の画像関連テクノロジーも買収している。他の大手テクノロジー企業もこのエリアでテクノロジーの買収を行っている。今年には、Amazonが静かに、AIやニューラルネットワークを活用する写真認識テクノロジーを開発するスタートアップOrbeusを買収している。

[原文へ]

(翻訳:Nozomi Okuma /Website