高校生が作成した”SmartLens”アプリは、汎用ビジュアル検索への第一歩だ

数年前、私はカメラを向けるとそれが何かを教えてくれるようなアプリを熱望していた。結局その問題は、皆が期待していたものよりもはるかに困難だったが、そのことは高校生Michael Royzenのやる気を削ぐものではなかった。彼のアプリであるSmartLensは、何かを見て、それが何かを特定し、さらに詳細を知りたいという問題を解決しようとするものだ。正直なところそれは完璧な成功とは言えないが、ポケットの中に忍ばせておくことに抵抗はない。

Royzenが私に連絡してきたのは少し前のことだったが、私は興味深いと(実は正直疑わしいと)思っていた。GoogleやAppleのような企業もずっと失敗してきた(少くとも良い製品はリリースできていない)課題解決を、空き時間を使って作業している高校生ができるものだろうか。私は彼と喫茶店で会い、実際に動作するアプリを見て、嬉しい驚きと、ちょっとした困惑を感じた。

このアイデアは単純だ:携帯電話のカメラを何かに向けると、何千万枚ものイメージを使って訓練され、巨大だが高度に最適化された分類エージェントを利用して、アプリがその対象を識別しようとする。WikipediaとAmazonに接続することで、アプリが識別したものに関して、より詳細に知ったり購入したりすることができる。

それは1万7000以上の物体を認識する。多くの種類の果物や花、ランドマーク、道具などなど。アプリはリンゴと(少々変わった見かけの)マンゴーの区別や、バナナとプランテーンを区別すること、そしてサイドメニューとして注文したピスタチオの識別には少々苦労した。その後、私自身が行ったテストでは、近隣の植物を特定するのにとても便利であることがわかった:ツルニチニチソウ、アネモネ、カタバミなどなど、どれも迷うこと無く識別したのだ。

驚くべきことに、これらは全てオフラインで行われているのだ。画像をモバイル回線やWi-Fiを通してどこかのサーバーに送信して、解析しているわけではない。すべてがデバイス上で、1〜2秒以内に完了する。Royzenは、さまざまな情報源から自分自身の画像データベースを構築し、AWS EC2の計算時間を何日も使って複数の畳み込みニューラルネットワーク(CNN)を訓練した。

さらに、アイテム上のテキストを読んでAmazonデータベースを照会することによって、さらに多くの商品を認識することができる。それは、書籍、薬のボトル、その他のパッケージ商品を、ほぼ即座に識別し、それらを購入するためのリンクを提示する。オンライン時にはWikipediaリンクもポップアップするが、かなりの量の基本的な説明がデバイスにダウンロード済である。

注意点として、SmartLensのダウンロードサイズは500メガバイトを超えていることを指摘しておかなければならない。Royzenのモデルは巨大である。なぜなら、携帯電話上にすべての認識データとオフラインコンテンツを保持しなければならないからだ。これはFire Phone(RIP)上のAmazon自身による認識エンジンや、Google Goggles(RIP)、あるいはGoogle Photosのスキャン機能(SmartLensが0.5秒で認識できる対象に対して役に立たなかった)などとは、相当異なるアプローチを採用している。

「デスクトップクラスのプロセッサを搭載したここ数世代のスマートフォンと、それらのプロセッサ(とGPU)を利用できるネイティブマシンラーニングAPIの登場によって、ハードウェアは驚異的な高速のビジュアル検索エンジンとなりました」とRoyzenは電子メールに書いてきた。しかし、同様のことをすることが当然期待される大企業たちはどこもそうしたプロダクトを作成していない。それは何故だろう?

アプリケーションのサイズとプロセッサへの負荷は確かに問題の1つである。しかしエッジならびにオンデバイス処理は、こうしたことが最終的に目指している場所である。Royzenは、それに対して早めのスタートを切っただけなのだ。難しい点が2つある:収益化することは難しく、検索の質も十分には高くないということだ。

現時点では、SmartLensはスマートではあるものの、間違いがないとは言えない。対象が何であるかの正解にたどり着く直前には、(しばしば起きることだが)爆笑ものの間違いを答える。

それは私が持っていた本を「白い鯨」だと識別したが、それは書籍「白鯨」ではなかった。また、それがクジラ形の文鎮だと言ったものは、園芸用のコテだった。多くのアイテムでは、より高い確信度の推測に到達する前に、「人間」もしくは「プロダクトデザイン」という推測がチラついた。ひとかたまりの花の集まりが、4から5種類の植物として認識される…その中にはもちろん「人間」も混ざっている。私のモニターは「コンピューターディスプレイ」、「液晶ディスプレイ」、「コンピューターモニター」、「コンピューター」、「コンピュータースクリーン」、「ディスプレイ装置」などとして認識された。ゲームコントローラはすべて「コントロール」だ。スパチュラは木製のスプーン(まあ近いかな)だったが、不可解なサブタイトル「ブービー賞」が添えられていた。何だって?!

こうしたレベルの性能(そして楽しくはあるものの、奇妙な振る舞い)は、GoogleやAppleがリリースするスタンドアロン製品では許容されないだろう。Google Lensは遅くて出来の悪い代物だが、便利で役立つアプリの中の、オプション機能に過ぎない。もし花を人間として識別するビジュアル検索アプリを出したなら、企業はいつまでもそのことを言われ続けるだろう。

そしてもう一つの課題は収益化の側面である。理論的には、友人が持っている本の表紙を認識して即座に注文することは可能だが、そのことは、写真を撮って後で検索することや、最初の数単語をGoogleやAmazonに入力すれば用が足ることに比べて、それほど便利だとは言えない。

その一方で、ユーザー側にも迷いがある。それが識別できるのは何か?それが識別できないのは何か?何を識別すれば良いのか?それは犬の品種や店舗などの多くのものを識別することを意図しているが、例えば、友人が持っているクールなBluetoothスピーカーや機械式時計、あるいは地元のギャラリーに飾られた絵の作者などを識別はしない(とはいえ、いくつかの絵は認識される)。それを使っているうちに、私は花の識別のような、うまくいくことが証明されたタスクだけに使うようになっていったように思う。しかしそれ以外の不確実で上手く行かないものに関しては、フラストレーションが溜まるだけなので、試してみる気にはなれなかった。

それでも近い将来に、SmartLensのようなものが存在しないと考えることは、馬鹿げていると思う。数年のうちには、私たちがそれを当然のものとして扱うようになることは、あきらかだ。また、それらはオンデバイスで行われ、解析のために画像を何処かのサーバーへとアップロードする必要はないだろう。

Royzenのアプリ自身は課題を抱えているものの、多くの状況で非常にうまく動作するし、明白な有用性がある。ここでのアイデアは、道の向こうのレストランに携帯電話を向けたなら、2秒でYelpのレビューが見られるといったものだ、マップを開く必要もなく、住所や名前を入力する必要もない。こうしたことは既存の検索パラダイムの自然な延長線上にあるものである。

「ビジュアル検索はまだニッチですが、私の目標は、あるアプリケーションが身の回りの全てのものに関する有益な情報を教えてくれるようになったら、どのように感じるかを皆に伝えることなのです ―― それも今すぐに」とRoyzenは書いている。「しかし、大企業が最終的には競合製品を発売することは必然です。私の戦略は、最初の普遍的なビジュアル検索アプリとして市場に出て、先行者であり続けられるように(あるいは買収されるように)できるだけ多くのユーザーを集めることです」。

しかし、私の最大の不満は、アプリの機能そのものではなく、Royzenがそれをマネタイズする際に決定したやり方である。ユーザーはアプリを無料でダウンロードすることができるが、立ち上げるとすぐに、月額2ドル(日本だと月額200円)のサブスクリプションを促されるのだ(まだアプリがちゃんと働くかどうかも見ていないのに)。もしアプリが何をして、何をしないのかを既に知っているのでなければ、そのダイアログを見た瞬間に考える間もなく削除することだろう。そして仮にそれを支払うことにしたとしても、それを永遠に払い続けることはない。

アプリを有効にするための1回限りの手数料を徴収することがおそらく妥当だろう、また紹介コードの提供という選択肢は常に存在している。しかし商品のテストさえしていないユーザーから月額家賃を徴収しようというのは、成功の見込みがない。私はRoyzenに懸念を伝えた。私は彼が再考してくれる事を願っている。(訳注:5月2日現在、サブスクリプション登録は必要なままだが最初の30日間は無料となっている。この期間中に解約すれば料金は発生しない)。

既に撮影した画像をスキャンできるようにしたり、検索に利用した画像を保存できるようにするのも良いだろう。確信度インジケータのようなUIの改善や、それがまだ識別中であることを知らせる何らかのフィードバックもあると良いだろう、少くとも理論的にはそうした機能が考えられる。

なんだかんだと言ってはみたが、私はRoyzenの努力には感銘を受けている。一歩退いて眺めてみれば、高校生であるということは置いておくとしても、このように洗練されたコンピュータービジョンタスクを実行可能なアプリを、1人でまとめ上げたというのは驚異的なことだ。これは、10年前のGoogleのような、大きくて遊び心のある会社から出てくることが期待できるような(やり過ぎ)野心的アプリケーションの一種である。これは今のところ普通のツールというよりは、好奇心先行のものかもしれないが、最初のテキストベースの検索エンジンも似たようなものだった。

SmartLensは現在App Storeから入手可能だ ―― お試しあれ。

[原文へ]
(翻訳:Sako)

Clarifaiが3000万ドルを調達、ビジュアル検索技術をディベロッパーへ

customtraining-adidas

Matt Zeilerはカナダの農村で育った。それから数十年後の今、彼はPinterestやGoogleが保有しているようなビジュアル検索ツールを、他の企業やディベロッパーへ提供するためにスタートアップを運営している。

そのスタートアップの名はClarifai。ニューヨークを拠点とする同社は、どんなものが写真の中に含まれているかというのをアルゴリズムが学習できるように、ディベロッパーに対してメタデータを写真にタグ付けできるサービスを提供している。この機能を利用すれば、Clarifaiのディベロッパーは、対象物の含まれる写真を検索したり、アップロードされた写真と似たものが含まれる画像を検索したりできるようにアルゴリズムを訓練することができる。本日Clarifaiは、リードインベスターのMenlo VenturesやUnion Square Ventures、Lux Capitalなどが参加したラウンドで3000万ドルを調達したと発表した。同社のこれまでの調達額は合計4125万ドルにのぼる。

GoogleやPinterestといった企業がビジュアル検索テクノロジーの開発を進める中、Clarifaiも同じことをしようとしているが、彼らはサードパーティのアプリやディベロッパーにビジュアル検索機能を提供することに注力している。複数枚の画像に相当するデータがあれば、どんなものが画像内に含まれているかというのを判断するモデルをClarifaiで構築することができるとZeilerは話す。そしてディベロッパーは自分たちが識別しやすいタグを使うことで、画像や動画の中に含まれる”オブジェクト”のクラス(雛形もしくは定型)を新規にアルゴリズムに教え込むことができる。

「私たちにとって、顧客に通じる1番大事な扉となるのがディベロッパーの方々です」とZeilerは話す。「Twilioのサービスを考えてみて下さい。彼らはディベロッパーファーストで通信機能に特化したAPIプラットフォームを運営しています。私たちは似たような形でAIサービスを提供していて、積極的にミートアップやハッカソンに参加したり、オフィスでイベントを開催したりしています。今後は、全てのディベロッパーの間でClarifaiが話題となり、彼らが実際に私たちのサービスを使って次世代のアプリを作るようになってくれればと願っています。将来的には次のSnapchatとなるようなサービスをガレージで開発している人たちと、一緒に成長していきたいです」

Clarifaiは、経験の浅いディベロッパーやプログラマーに向けて、Twilioのように数行のコードで実装可能なAPIの形でツールを提供しているほか、カスタマイズ性の高い玄人向けのツールも用意している。もしもClarifaiが、Twilioのように上手くディベロッパーのトレンドを利用することができれば、Twilioと似たような形で強力な事業に発展していくかもしれない。

しばらくのあいだClarifaiは、画像・動画検索の機能向上に集中し続ける予定だが、データ構造を理解できるような技術があれば、理論上ほかのメディアにもサービスを展開することができる。ZeilerはClarifaiがほかにどのようなツールの開発を行っているかについて口を閉ざしているが、音声やテキストなど、サービスが展開されるであろう方向性は簡単に予想がつく。

Clarifaiの本質的なゴールは、GoogleやPinterestが保有しているようなツールを開発し、それを下流にいるディベロッパーやほかの企業に提供していくことだ。例えば、WalmartやMacy’sなどの小売企業はこのようなサービスを利用したいと思うかもしれないが、Googleのような会社と協業すると、小売店の情報を競合企業に渡してしまうことに繋がる可能性がある。そして最終的には、彼らが競合サービスを構築するための手助けをしてしまうことになりかねないのだ。

「私たちは何社かの大手企業を競合と見ていますが、この分野のスタートアップの話はあまり聞きません」とZeilerは言う。「たくさんのスタートアップが引き続き買収されていますが、私たちにとっては喜ばしいことだと社内ではその状況を祝っています。というのも、私たちは独立系のAI企業を作り上げたいと考えていますし、この市場には独立した企業が必要だとも考えているんです。顧客となる企業にはデータの扱いに関して私たちを信用してほしいと思っている一方、多くの企業はGoogleやMicrosoftなどの大手IT企業が、そのうち集めたデータを使って競合製品を作ろうとしていることを知っており、彼らのことを信用していません」

原文へ

(翻訳:Atsushi Yukutake/ Twitter

eBayがビジュアル検索エンジンのCorrigonを買収、買収額は3000万ドル未満との噂

ebay-campus

新品・中古を問わず何でも揃ったマーケットプレイスのeBayが、また新たに企業を買収し、同社のサイト上に掲載されている10億種類前後の商品の中からユーザーが欲しいものを見つけ出すための検索テクノロジーを強化しようとしている。eBayは本日、イスラエルを拠点とするスタートアップで、コンピュータービジョンやビジュアル検索テクノロジーの専門家を有するCorrigonを買収したと発表した。なお、eBayは買収の詳細について何も発表していない。イスラエル紙The Markerは買収額が3000万ドルであったと報じたが、私たちの情報筋によれば実際の買収額はそれよりも少なかったとされる。

Corrigonは、2008年頃にAvinoam OmerとEinav Itamarによって設立された。その後、同社がこれまでにどのくらいの資金を調達したかはハッキリしていない。Omer自身は連続起業家で、Microsoftに買収された機械学習テクノロジー企業のZoomixも彼が過去に設立した会社だ。

Corrigonは、画像内にある特定の物体を検索・認識し、それを他の画像とマッチさせたり、製品情報にリンクさせたりといったことを得意とする。eBayにおいては、その技術が画像と商品のマッチングに利用されるようになるだろう。「Corringonの専門性やテクノロジーのおかげで、販売者は自分の商品にぴったりな画像を利用できるようになり、購入者は自分がスクリーン上で見ているものと実際の商品が同一であると信用できるようになります」とeBayは記している。

これが何を意味するかというと、将来的にeBayは、販売者が自分たちで準備する画像よりも高画質の商品画像を提供できるようになるということだ。同様に、購入者も同じ機能を利用して、eBay上で欲しい商品を探し出すことができるようになる。

Corrigonのサイト上では、彼らの技術がどのように応用できるかについて詳細を確認することができる。例えば、大きな写真の中にいくつものアイテムが含まれているとして、ユーザーが画像上でマウスのポインターを動かすと、アイテム毎にポップアップリンクが表示され、ユーザーはそこから関連アイテムを購入することができるのだ。Corrigonのテクノロジーを利用すれば、アイテムの認識とリンクの作成が基本的に自動化できる。

eBayはこれまでに、機械学習やビッグデータを利用した検索機能の構築に何度も取り組んできた。今年の5月には、ビッグデータスタートアップのExpertmakerやAIを開発するSalesPredictを買収していた。

さらにeBayはずっと、自社のプラットフォームをもっと視覚的でスマートなものにしようとしており、Corrigonはその戦略にマッチしている。実のところ、eBayは2011年の時点で既に限定的なビジュアル検索機能をモバイルアプリの形で提供しており、ユーザーはスマートフォンのカメラを使って、購入したいアイテムを特定することができた。

2013年には、Pinterestのような画像中心のインターフェースへとデザインを一新し、以前のテキストベースで古風なデザインを好まないような消費者層を取り込もうとしていた。しかし、インターフェースの変更によって、画像の検索や発見、画像とのインタラクションに関しもっと高度なテクノロジーが必要になったのだ。

eBayによれば、「構造化データイニシアティブの一環として」Corrigonの技術は画像認識だけでなく、画像の識別や補正にも利用される予定だ。

「私たちがeBayのショッピング・エクスペリエンスを進化させていく中、Corrigonのテクノロジーや専門性のおかげで、利用者は欲しい商品を簡単にみつけられるようになります。これは、1年以上前、つまり私たちが構造化データに投資する以前は不可能なことでした」とeBayの構造化データ部門でヴァイスプレジデント兼ジェネラルマネージャーを務めるAmit Menipazは声明の中で語った。

原文へ

(翻訳:Atsushi Yukutake/ Twitter