ZOZO研究所のファッションコーデ関連論文がコンピュータービジョンの国際会議ECCVで採択

ZOZOテクノロジーズ ZOZO研究所 ECCV 深層集合マッチング

ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は7月13日、同研究員らが執筆した論文「Exchangeable Deep Neural Networks for Set-to-Set Matching and Learning」(置換不変ニューラルネットワークによる深層集合マッチング)が、コンピュータービジョン分野における世界3大国際会議のひとつ「European Conference on Computer Vision(ECCV)2020」に採択されたと発表した。ZOZO研究所は、8月24日~27日にオンライン開催のECCV 2020本会議でポスター発表(プレゼン・ディスカッション)を行う。

この研究成果は、同研究員の斎藤侑輝氏、中村拓磨氏、共同研究者・和歌山大学講師の八谷大岳氏、統計数理研究所・総合研究大学院大学教授 福水健次氏(斎藤の博士課程指導教員)によるもの。

ECCVは、CVPR(Computer Vision and Pattern Recognition)・ICCV(International Conference of Computer Vision)と並ぶ国際会議(トップカンファレンス)。隔年ごとに開催されており、第16回目となる今回は、5025本の投稿から1361本の論文が採択された。

今回採択の論文では、ファッションアイテムの推薦から1歩先んじて、ファッションコーディネートの推薦について研究。例えば、ユーザーが持つアイテム群(下図左)と推薦候補のアイテム群(下図右)が複数あるとき、どのアイテム群がユーザーのアイテム群に一番マッチし、2つの群を合わせたときにコーディネートとして適切かを考えるものとしている。

ZOZOテクノロジーズ ZOZO研究所 ECCV 深層集合マッチング

それぞれのアイテム群は集合として表現でき、アイテム群のマッチングは集合マッチングの問題設定として定式化できる。さらに、このように異なるアイテムカテゴリーを持つ集合同士のマッチングには、強力な特徴学習の仕組みとなる深層学習が必要になるという。しかし、集合マッチングと深層学習を組み合わせた研究は、ほとんど行われてこなかった。

そこで同論文では、独自のニューラルネットワークアーキテクチャ、効率的な学習法、学習データ作成手段を提案。特に集合マッチングには「集合内のアイテムや集合同士を入れ替えても出力が不変であること」と「集合間インタラクションに基づく特徴変換」とを備えた手法が重要であると提起。それらを満たすアーキテクチャを考案した。

実験では、各アイテムの画像特徴量を抽出する畳み込みニューラルネットワークと、特徴量の集合を扱う提案手法をEnd-to-endに学習し、マッチする集合の候補を正しく選べるかを調査。その結果、提案手法は比較手法(Set TransformerとBERT)よりも精度が高いことが明らかになり、上述の特性が同論文の提唱する集合マッチングにおいて重要であると確認した。提案手法や実験の詳細については、同社技術ブログ「ZOZO Technologies TECH BLOG」でも、一部紹介している。

論文では、集合マッチングのベースとなる特性を数理的に捉え、集合データに適したアーキテクチャを考案。提案手法は様々な分野での集合マッチングのベースラインとなる可能性を秘めているため、今後さらなる発展を目指すという。

また、現在は研究段階であるものの、具体的にどのようなユースケースに導入し、ユーザーエクスペリエンス向上につなげられるかも検証しており、今後も研究開発に努めるとしている。

関連記事
新型コロナによる非接触需要でスキャン技術のScanditが約86億円調達
廃棄物管理にAIを活用するGreyparrotが約2.4億円調達
コンピュータービジョンで製造作業員の動きのエラーを検知、トヨタも手を組むInvisible AI
コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten

Helm.aiが無人運転車用AI向け無人学習技術に14億円調達

4年前、数学者のVlad Voroninski(ブラド・ボロニンスキー)氏は、自動運転技術開発における数々のボトルネックの一部を深層学習が取り除く可能性を見い出していた。

そして現在、彼がTudor Achim(チューダー・アーキム)氏と2016年に共同創設したスタートアップHelm.aiは、A.Capital Ventures、Amplo、Binnacle Partners、Sound Ventures、Fontinalis Partners、SV Angelなどによるシードラウンドで1300万ドル(約14億円)を調達したことを発表し、沈黙を破った。

これにはBerggruen Holdingsの創設者のNicolas Berggruen(ニコラス・バーグルエン)氏、Quoraの共同創設者のCharlie Cheever(チャーリー・チーバー)氏とAdam D’Angelo(アダム・ダンジェロ)氏、NBA選手のKevin Durant(ケビン・デュラント)氏、David Petraeus(デイビッド・ペトレイアス)大将、Maticianの共同創設者でCEOのNavneet Dalal(ナブニート・デーラル)氏、Quiet Capitalの業務執行社員Lee Linden(リー・リンデン)氏、Robinhoodの共同創設者のVladimir Tenev(ウラジミール・テネフ)氏など数多くのエンジェル投資家も参加している。

Helm.aiは、この1300万ドルのシード投資を、工学技術の高度化、研究開発、人材増員、さらに顧客の囲い込みと契約の実行にあてる予定だ。

同社はソフトウェアのみに特化している。自動運転車に必要となるコンピューター・プラットフォームやセンサーは作らない。そうした変化の激しい分野には依存せず、わかりやすく言えばHelm.aiは、センサーのデータや人の行動を理解しようとするソフトウェアを作っているのだとボロニンスキー氏は言う。

それなら、他の企業でもやっていることのように思える。だが注目すべきは、Helm.aiのソフトウェアへのアプローチだ。自動運転車の開発者は、その多くが自動運転車のいわゆる「頭脳」の訓練と改善を、シミュレーションと路上テスト、そして人の手でアンノテーションされた大量のデータセットの組み合わせに頼っている。

Helm.aiは、その工程をスキップすることでスケジュールを短縮しコストを削減できるソフトウェアを開発したという。同社では、人間の教師を必要としない学習アプローチを使い、ニューラルネットワークを訓練できるソフトウェアを開発している。膨大な走行データも、シミュレーションも、アンノテーションも不要だ。

「自動運転車のAIソフトウェア開発は、非常に長い戦いであり、コーナーケースの無限の海を渡らなければなりません」とボロニンスキー氏。「本当に重要なのは効率化の度合いです。ひとつのコーナーケースを解決するのに経費はいくらかかるのか、どれだけ早くできるのか。そこを私たちは改革したのです」。

ボロニンスキー氏は、UCLA時代に自動運転に初めて興味を抱いた。そこで彼は、米国防高等研究計画局主催のロボットカーレース、DARPAグランド・チャレンジに参加したことのある学部教師からその技術を教わった。やがてボロニンスキー氏は次の10年の応用数学に興味が移り、カリフォルニア大学バークレー校で数学の博士号を取得し、MIT数学科の教師になった。だが、いずれは自動運転車に戻ろうと考えていた。

2016年に深層学習にブレイクスルーがあり、ここへ戻る機会が得られたとボロニンスキー氏は話している。彼はMITを去り、後にNetskope(ネットスコープ)に買収されることになるサイバーセキュリティーのスタートアップSift Security(シフト・セキュリティー)を辞めて、2016年11月にアキーム氏とHelm.aiを創設した。

「私たちは、従来のアプローチでは対処できていないと思われる重要な課題を特定したのです」とボロンスキー氏。「早々にプロトタイプを作ったことで、それでやっていけると確信できました」

Helm.aiは、まだ15人の小さなチームだ。彼らは2つの使用事例に向けたソフトウェアのライセンシング事業を目指している。ひとつは、レベル2(新しい規定ではレベル2+)の乗用車向け高度運転補助システム、もうひとつはレベル4の自動運転車両隊だ。

Helm.aiにはすでに顧客がある。名前は明かせないが、その中には試験運用段階を終えたものもあるとボロニンスキー氏は話していた。

画像クレジット:Helm.ai

[原文へ]

(翻訳:金井哲夫)

「メルカリ」に写真検索機能が登場、商品名が不明でもAIで探せるように

メルカリは3月18日、フリマアプリ「メルカリ」に「写真検索機能」を追加した。

この機能は商品検索の際、スマートフォンのカメラで撮影した写真から、同じ商品や似ている商品を探し出せるというもの。ブランド名や商品名がわからず、テキスト検索できない商品を、写真を読み込むことで検索できるようにした。

写真の中に写り込んだいろいろなアイテムの中から、検索したいアイテムだけを調整して、枠線内に絞り込む機能も付いている。

写真検索機能は、機械学習、深層学習といったAI技術を活用して実装されている。メルカリでは、サービス開始以来、約5年間で蓄積された、数十億規模の商品情報のデータセットを生かし、精度の高い予測モデルの構築を実現。さらに今後も学習させ続けていくことで、その精度を進化させることができるとしている。

写真検索機能に対応するのは、現在はiOS版のみ。Androidほかの機種には順次追加していく予定という。

WellSaidは人間の代役が務まるほど自然な合成音声を公開

文字で読むより、口で言ってもらったほうがいいことは多い。しかし、今のところ最高の音声技術は音声アシスタントが独占していて、画面の読み上げやオーディオブックの自動生成などには使えていない。WellSaid(「うまい言い方」という意味)は、人の声の代わりになる高品質な合成音声による語りを、クリエイターにも使えるようにしたいと考えている。もしかしたら、自分自身の声を合成できるかもしれない。

この数年間で、ニューラル技術が手作業に頼っていた従来のアプローチを大幅に改善したことにより、音声合成は大きな進歩を遂げた。しかし、GoogleもAppleもAmazonも、その高度な音声技術をスマートフォンやホームハブのおしゃべりに限定して、それ以外の利用は決して許さない。

WaveNetのことを聞き、そのあとTacotronのことを聞いた私は、Googleの担当チームに連絡をとり、Google Booksの全書籍を対象とした自然な読み上げによるオーディオブックの開発をいつ始めるのか、または、AMP(Accelerated Mobile Pages)の機能やユーザー保護機能に採り入れる予定はあるのか尋ねてみた。だが返事はなかった。そのようなサービスを必要としている人は大勢いるのに、彼らはチャンスを逃していると私は感じた。

それだけに、私はWellSaidがその市場を奪おうとしていることを聞いて、私は喜んだ。曲がりなりにではあるが。この会社は、2017年にアレン人工知能(AI2)研究所によるインキュベーター・プログラムで創設が発表されている。かなりのマイペースだ。


アレン研究所はAIスタートアップと世界レベルの才能をつなぐためのAI2インキュベーターを支援(本文は英語)

話を話す

私は、CEOのMatt Hocking氏とCTOのMichael Petrochuk氏に話を聞いた。なぜ、音声合成のまったく新しいシステムを作ろうと考えたのか。彼らによると、そもそもの問題は、既存のシステムでは「まともに聞こえる」ようにするために、人の手による大量の注釈に依存していること、そしてその「まとも」さが常にまったく同じであることにあるという。数時間分の音声を読み込ませておいても、質問にどう反応するか、リストの各項目の間にどれだけ時間を開けるかといった判断は期待できない。こうした問題点を、詳細にあぶり出す必要があった。しかし最終的には、非常に効率的なシステムが完成した。

「目標は、毎回同じ発音で話す小さなモデルをチープ(演算が)に作ることでした。パーフェクトな声で」とPetrochuk氏。「私たちはTacotronと同じような研究を行い、技術的には超えることができました。しかし、スピーチをコントロールしたり、この任意構造をそこに押しつけることは考えませんでした」

「人間の声が自然に聞こえるのは、ある意味、一貫性がないからなのです」とHocking氏は言う。

一貫性のなさとなれば、人間から学ぶのがいちばんだ。彼らは数人の声優に協力してもらい、数十時間分の音声を録音してシステムに読み込ませた。注釈を入れるために「音声マークアップ言語」で文章の指定をする、などという必要はない。Petrochuk氏はこう話していた。「私たちは未加工のオーディオブックのデータからトレーニングをする方法を発見しました。それ以上に行うべきことは、何もありません」

そのため、WellSaidのモデルは、同じ言葉でも発音が違うことがよくある。そう話すよう、言語の手動モデルに念入りに指示を仕込んだわけではない。システムが模倣している声紋の持ち主が、そうしていただけだ。

しかし、実際にそれはどのような仕組みなのだろう? この質問は、WellSaidの秘伝に顔を突っ込むようなものだ。彼らのモデルは、あらゆる深層学習システムと同様、無数のインプットを踏まえてアウトプットを生成している。しかし、他の音声合成システムと比べて、彼らのものはずっと大規模で範囲が広い。抑揚や発音は管理する人間が決めるのではなく、音声から抽出されてリアルタイムでモデル化される。魔法のように聞こえるが、最先端のAI研究とはそういうものだ。

それは、どこか遠い場所にあるGPUクラスター・ソフトウェアを使うことなく、CPU上でリアルタイムに処理される。そのため、オフラインでも使える。多くの音声合成アルゴリズムがリソースを大量に喰うのに比べれば、これだけでも大手柄だ。

この音声は、どのような文章もごく自然に聞こえるように読み上げることが求められる。下の動画は、ある記事の最初の部分を読み上げたものだ(残念ながら私の記事ではない。私なら、もっと回りくどく甘美な文章を書いていたのに)。最初にGoogleのWaveNetが読み上げ、次にWellSaidが2回続けて読み上げている。

後の2つは、明らかに最初のものより自然に聞こえる。いくつかのフレーズは、人間が読んでいるものとほとんど聞き分けられない。それでも、高い確率で、確実に合成音声だとわかる単語も少なくない。

それでもかなり近いのだから、大したものだ。もし、私の記事を合成音声に読み上げてもらうとしたら、確実にWellSaidを選ぶ。通常の録音と同じく、微調整もやり直しも可能だし、エフェクトをかけることも可能だ。NPR(ナショナル・パブリック・ラジオ)で放送されたインタビューは編集を加えていない。お気づきだったろうか?

当初の目標は、このツールを仕事道具に加えることで、仕事の質を向上させ、労力を削減できるクリエイティブな人間を探すことだった。

「これを必要としている人は大勢います」とHocking氏は言う。「声優を雇う予算のないビデオのプロデューサーや、短時間に大量の文章を練り直さなければいけない人などです。英語が母国語ではない人にも、これはいろいろな扉を開いてくれます。ラジオ向けの声を持っていない人にも」

ソーシャルメディアの広告で、文章を表示して著作権フリーの音楽を流す代わりに、ワンクリックで音声を加えられるのは素晴らしいことだ(広告業界のみなさん、ご一考あれ)。

私は、声優たちの反応について聞いてみた。自分の声に置き換わる音声のために、そのトレーニングに協力した人たちだ。写真素材の声版のようなものだと思えば、声優も納得できるという。安く上げたいときは「あり物」を使い、きちんとやりたいときは役者にギャラを払う。将来のモデルに今から自分をはめ込もうとは思わないが、声優にも分け前が入る仕組みを、ひとつの可能性として受け入れている。仮想代役が報酬を得るという形は、ちょとした新しい展開分野となる。

本日、クローズド・ベータテストが開始された。同社のサイトから参加を申し込むことができる。最初は5種類の音声だけだが、WellSaidの市場進出が決まれば、さらに数が増え、オプションも加わるという。このベータテストは、目の不自由な人や、その他の障害を持つ人たちの参加も見込んでいるはずだ。それは私が、長年、望んできたことだ。

聞いたことがある声

次はどうするのだろう?もちろん、ユーザー自身の声の合成版を作ることだ。わかりきっている!ところが2人の創設者は、その可能性は十分にあるが的外れだと警告した。それにはいくつかの理由がある。

「現在は、一人分のデータを処理するのに、およそ20時間かかっています。しかし、将来は、生身の人間と変わらない声の質を保ちながら、1時間から2時間で処理できるようになります」とPetrochuk氏は言う。

「それに、データセットを作ることもできます。過去のコンテンツのカタログを持つ感じです」とHocking氏は付け加えた。

問題は、そのコンテンツが深層学習モデルにぴったり適合しない場合があることだ。進歩したシステムなので、当然のことながら繊細だ。微調整のための機能はあるものの、音声を微調整するためには、さらに元になる人の声を集めなければならなくなると彼らは言う。響きを強化したり、抑揚を強めたりしたい特定の文章を、声優に読んでもらわなければならないのだ。

彼らは、声優を監督することと、コードを調整することを比較した。どう考えても、カンマの後の間を8パーセントだけ、または15ミリ秒だけ増やせなどという指示を声優に出すことはできない。実例を聞かせるのがいちばんだ。「このように読んでください」と。

それでも、限定的な不完全なトレーニングデータからそこそこの品質の音声を作ることは大変に難しい。もし行おうとすれば、同社にとって大変な負担となる。

しかし、すでにお気づきの方もいるだろうが、この腐った「深層フェイク」の世界には、まがい物がある。ポッドキャストやスピーチを大量にダウンロードして十分な素材を集めれば、誰かさんの、おそらく有名人の、そこそこ聞こえる音声のレプリカが作れてしまう。すでに存在するフェイク動画などの画像合成の技術と組み合わされば、困った問題に発展することは明らかだ。

Hocking氏とPetrochuk氏にとって、これは何も新しい話ではない。AIに携わっている限り、この手の問題はかならず起きるからだ。

「これは非常に重要な問題です。私たちも真剣に考えました」とPetrochuk氏は言う。「私たちはAI2畑の人間です。そのモットーは『公益のためのAI』です。私たちも完全に同意しているもので、MVP(Minimum Viable Product、実用最小限の製品)を開発する以前にバラク・オバマ氏の声を合成した競合相手とは一線を画するところです。これを悪用されないよう、私たちは厳密に見守ってゆく覚悟です。自由に声が作れる機能は発表しません。誰でも、他人の声が自由に作れてしまうからです」

能動的な監視は、社会問題を引き起こしそうなAI技術を有する人たち全員が行うべきことだが、彼らは、合成音声であることを特定できるようにする緩和技術にも着目している。

コンテンツも広告も、だだの文章ではなく、マルチメディアによる表現にますます重きを置くようになる中、WellSaidは、成長市場の最初の立役者になるべく身構えているようだ。製品が進化し改良されたなら、たとえばタイムシフト・アプリ(5つの中から好きな声を選んで簡単にポッドキャストができる)など、新しい、より具体的な世界への進出が容易に想像できる。さらに、現在は音声アシスタントが占領している領域を奪うことも可能だ。私はそれを楽しみに思う。

[原文へ]

(翻訳:金井哲夫)

Brodmann17がローエンドCPUにも対応する自律コンピュータービジョン技術で1100万ドルの投資を獲得

自律走行車両と運転支援技術にとって、高効率なコンピュータービジョン・システムは決定的な意味をもつ要素だが、高価でかさばるハードウエアに依存しないコンピュータービジョン技術を提供する方法(ローエンドのCPUでも利用可能な深層学習ソフトウエア)を開発したあるスタートアップが投資ラウンドを確保し、今年末のサービス開始に向けてギアをシフトアップした。

Brodmann17(ヒトの脳の一次視覚野があるブロードマン領野に由来する)は、OurCrowdが主導するシリーズA投資として1100万ドル(約12億3000万円)を調達した。これには、Maniv Mobility、AI Alliance、UL Ventures、Samsung NEXT、Sony Innovation Fundが参加している。

Brodmann17の高速演算を実現する最先端技術は、物、道路、広範な景観を目で見て対処する人工知能を用いた車載機能全般に利用できるようデザインされている。これは、IntelのMobileye、Boschなど他のOEMが開発したサービス、BMWなどの一部の自動車メーカーと競合するものだ。

自動車は、以前にも増してハードウエアとして認識されるようになった。そのため、上記の企業だけでなく自律運転業界すべての企業は、技術界が経験したことのない巨大な課題に取り組んでいる。自律走行システムは高価であるばかりでなく、大量のエネルギーを消費し、自動車の大きな空間を占拠するため、どの企業も、この問題のひとつでも、できればすべてを解決できる道を探っている。さらに、現在のところ、多くの解決策はクラウドで演算を行うため、数テラバイトものバンド幅を消費し、運転シナリオに許容限度を超える遅延を発生させてしまう。

Brodmann17の宣伝文句によれば、その中核製品は、「軽量」にデザインされた、深層学習をベースとするコンピュータービジョン技術だという。ソフトウエアを基本とするソリューションであるため、小型の、ローエンドの車載プロセッサーでも利用でき、システムにどのようなLidar、カメラ、レーダーが実装されていても、完全に対応できるという(ただ、ローエンドのCPUで使えるとは言え、高速なCPUの場合とは比べものにならない)。

高速化の成績。Brodmann17のFPS。

計画では、Brodmann17の技術は、完全な自律走行を支援するものとして展開されることになっているが、自律走行車両が実用化するのはまだ何年も先の話だ。CEOのAdi Pinhas(深層学習とコンピュータービジョンの専門家であり、Ami​​r AlushとAssaf Mushinskyという2人のAI科学者と同社を共同創設した)は、最初の商業展開は、先進運転支援システム(ADAS)の形で行われるだろうと話している。これは現在、人が運転する自動車の前後のカメラで静止体と物体をより正確に認識できるよう、グローバルな大手自動車メーカーが取り入れようとしている技術だ。

だが、これは決して小さな魚ではない。ADASは、すでに多くの新型車で重要な装備となっているばかりか、その普及率と機能性は今後も成長を続ける。サードパティーから、まるごと、または一部が納入されることが多いADASシステムだが、2017年の時点で市場規模は200億ドル(約22兆3300万円)。2025年には920億ドル(約102兆7340億円)に達すると予測されている。

私は、その本社が置かれているテルアビブで、Brodmann17の創設メンバーと初めて会った。あれは2年前、その街で運営されているサムスンNEXTインキュベーターの片隅で、たった4人で活動していたときだ。彼らは、小さなプロセッサーに収まり、一般的な運転シナリオで遭遇する大小の物体のかすかな雰囲気の違いを大量に特定できる技術の最初のバージョンを見せてくれた。

それが今では、70名のスタッフを抱えるまでに成長した。そのほとんどが技術者で、独自技術の開発にあたっている。しかし、初期の開発ステージから一段上がるために、さらに社員を増やしてゆくという。

Pinhasは、ここ2年ほどの間に、技術界と大きな自動車産業が、自律運転車両のコンセプトに迫る方法に面白い変化が見られたと話している。

一方では、みんなが自律運転に関して可能なことを出し合っている。それは新しい試作車を作ってテストするというロードマップを加速させる明らかな助けになっている。もう一方では、そうした研究が増すことで、完全なシステムが出来上がるまでに、この先どれほどの研究開発が必要になるか、自律運転には今後どのような未知の要素が現れるのかという、現実的な見方ができるようになったという。

「今は、市場が一歩後退したかのように私には見えます。自律運転システムの開発を加速したいと誰もが望んでいますが、同時に、今年のCESで気がついたのですが、レベル5の話をする人が一人もいなかったのです」とPinhasは言う。レベル5とは、自律運転サービスにおける自律度の最高レベルのことだ。CESは、1月に開かれる大規模な技術系見本市で、次世代の輝かしい新サービスが初めて披露される場所でもある。「現状では、レベル4の開発に取り組みつつ、考えることが最適だと感じています。みんなでよく考えて、ロボットタクシーが、高度に洗練されたシナリオでどのように走らせることができるのかを確かめるのです」

そこに、Brodmann17はADASを入れ込む考えだ。それにより、現在実用化されているサービスに力を与える。そしてそのコンセプトを提示しつつ、将来の開発とサービスの足場を固める。

もうひとつ、Pinhasが指摘した面白い進展がある。これまでデータを演算し理解するためには、データのトレーニング量が重要だと考えられていたが、より賢いニューラルネットワークの開発に重点がシフトしているという。「これまでは『誰がいちばんたくさんデータを持っているか』でしたが、今はみんなが持っています」と彼は言う。「今は、トレーニングのためのアルゴリズムが重視されます。専門家たちは、(人間のように「思考する」ようデザインされた)ニューラルネットワークがすべてを解決すると、ずっと考えてきました。しかし今はまだ、そのネットワークのトレーニング方法を解明することが鍵となっている段階です。単にそこへデータを投げ込むだけでは解決しません」。まさにそこは、Brodmann17が長い間フォーカスしてきた分野であり、「他の企業も始めようとしている」ものだ。

Pinhasは、今日の自動車用コンピュータービジョン市場でもっとも進歩しているのはMobileyeだと認めている。とは言え、まだまだ世の中は進化の初期段階であるため、たくさんのイノベーションが誕生する余地があり、スタートアップにも大企業にも、インパクトを与えられる機会が十分にある。それこそ、投資家たちがBrodmann17に興味を抱く理由だ。そしてそれが、このスタートアップが次の段階に必要な資本を得るために、すでに次の投資ラウンドに向けて動き出している理由でもある。

「私たちは、Brodmann17が現在最高水準の深層学習AI企業であると確信しました。この会社には、非常に経験豊富な経営チームがあり、AIアルゴリズムの基礎に大きな飛躍をもたらした、卓越した技術の先進性があります」と話すのは、OurCrowdの共同経営者Eli Nirだ。「Brodmann17の技術は、AIの低計算量実装への扉を開きました。コストと複雑性と価格を大幅に低減し、数多くの分野、業界での利用が可能になります。私たちは、このラウンドを主導でき、この会社の未来の成功に貢献できることを大変に嬉しく思っています」

[原文へ]
(翻訳:金井哲夫)

AIで創薬プロセスを改善するAtomwiseが、シリーズAで4500万ドルを調達

深層学習を用いて新薬の発見プロセスを短縮するAtomwiseがシリーズAで4500万ドルを調達した。このラウンドは、Monsanto Growth Ventures、Data Collective(DCVC)、ならびにB Capital Groupによって主導された。Atomwiseに対して初めて投資を行うBaidu Ventures、Tencent、Dolby Family Venturesも参加し、かつて投資していたY Combinator、Khosla Ventures、そしてDFJも再び参加した。

このことにより、2012年に創業したAtomwiseが、これまでに調達した資金は5100万ドル以上となった。同社は、研究者たちが医療用化合物を発見するために費やす金額と時間を削減することを目的としており、今では50以上の分子発見プログラムを持っていると語る。Atomwiseの技術は、より安全でより効果的な農薬を開発するためにも使用されている。

プレス発表で、Monsanto Growth VenturesのパートナーであるKiersten Stead博士は次のように述べている「私たちは目の前にAtomwiseによって示された、素晴らしい結果に基いて投資を決定しました。Atomwiseは、農薬研究開発の重要な分野である作物保護対象に対して、有望な化合物を見つけることができたのです」。

Atomwiseのソフトウェアは、分子シミュレーションを解析し、研究者たちが化合物の合成と試験に費やす時間を短縮する。同社によれば、現在、毎日1000万種類以上の化合物をスクリーニングしていると言う。AtomwiseのAtomNetシステムは、深層学習アルゴリズムを用いて分子を分析し、それらが人間の体内でどのように振る舞うかを予測する。従来の創薬プロセスよりも早い段階で、薬剤としての潜在的効果、毒性と副作用などが予測されるのだ。

AtomwiseのCEOであるAbraham Heifetsは、電子メールでTechCrunchに、同社のビジョンは「世界で最も生産的で多様なライフサイエンス研究グループの一つになり、かつてないほどの規模で活動することです。これは大規模なシリーズAであり、私たちはこの資金を利用して、技術的およびビジネス的に組織を成長させます。最終的には、1日に何億種類もの化合物をシミュレートすることになるでしょう。究極の目標は、新しい治療を緊急に必要としている多くの疾病に対して、より多くの成果を出していくことです」と語った。

Heifetsは「リード最適化(Lead optimization:創薬の最初の段階で薬剤候補の構造を実際に検討すること)は、歴史的にみても創薬パイプラインの中で最もコストのかかるステップでした」と付け加えた。そしてこれらのプロセスの失敗率が如何に高いかということも語った「3分の2のプロジェクトは病院での試験にたどり着くことなく失敗しますし、そこまで行くにも5年半程度の時間がかかるのです」。

Atomwiseが6年前に立ち上げられたとき、その技術はまるでSFか何かのように思えた。しかし、いまや人工知能と機械学習を用いて分子を分析し、創薬プロセスのボトルネックを解決しようとする会社は何社も登場している。他にもRecursion Pharmaceuticals、BenevolentAI、TwoXAR、Cyclica、そしてReverie Labsなどの名を挙げることができる。

Heifetsは、Atomwiseの持つ主なメリットの1つに、作業しているプロジェクトの多さを挙げた。このことによりAIシステムが改善されているという。同社の顧客には、米国の大手製薬会社トップテンのうちの4社(Merck、Monsantoなど)、そして40以上の主要研究大学(ハーバード、デューク、スタンフォード、ベイラー医科大学など)、そしてその他のバイオテック企業などが含まれている。

彼はまた、Atomwiseはその焦点も差別化していると付け加えた。

「創薬には、生物学と化学という2つの異なる問題があります」と彼は言う。「生物学に取り組んでいるなら、あなたはどの疾患タンパク質を標的とするのが最良かを決定しようします。創薬に携わる多くのAI企業がこの標的同定(target identification)の問題に取り組んでいます。標的を選択したら、次は化学の問題に取り掛かることになります。どうすれば、選択した疾患タンパク質に作用する、毒性のない分子を届けることができるのか。Atomwiseはこれらの化学的問題に焦点を当てています。特にAtomwiseは、構造ベースの薬物設計に深層ニューラルネットを使用する方法を発明したのです」。

[原文へ]
(翻訳:sako)

画像クレジット:Atomwise

役に立つAIシステムを作ることは、まだまだ難しい

【編集部注】著者のMartin WelkerはAxonicの最高経営責任者である。

TensorFlowやOpenAIのようなAIフレームワークのサポートがあったとしてもなお、人工知能は依然として、大勢のWeb開発者たちが必要とするものよりも、深い知識と理解を必要とする。もし動作するプロトタイプを作ったことがあるのなら、あなたはおそらく周囲では最もスマートな人物だ。おめでとう、あなたは非常に独占的なクラブのメンバーということだ。

Kaggleに参加すれば、実世界のプロジェクトを解決することで、それに相応しい報酬を得ることさえできる。全体的にみれば価値のある立場ではあるが、ビジネスを立ち上げるのには十分だろうか?結局、市場の仕組みを変えることはできない。ビジネスの観点から見れば、AIは既存の問題に対する、もうひとつの実装に過ぎない。顧客が気にするのは実装ではなく結果だ。つまり、AIを使ったからといって万事解決というわけにはいかないのだ。ハネムーンが終わったら、実際の価値を生み出さなければならない。長期的に見れば、大切なのは顧客だけだ。

そして顧客はAIについては気にしないかもしれないが、VCたちは気にしている。プレスもそうだ。それも大いに。その関心の違いは、スタートアップたちにとって、危険な現実歪曲空間を生み出す可能性がある。しかし、間違ってはならない。普遍的な多目的AIを作成したのではない限り、濡れ手に粟というわけにはいかないのだ。たとえあなたがVCのお気に入りであったとしても、顧客のための最後の1マイルはきちんと歩ききる必要がある。ということで運転席に座り、将来のシナリオに備えるために、どのような準備ができるのかを見てみることにしよう。

主流AI列車

AIは、ブロックチェーン、IoT、フィンテックといった、他のメジャートレンドとは異なるもののように見える。もちろん、その未来は極めて予測不可能だが、そのことは、どのような技術にもほぼ当てはまることである。AIの持つ違いとは、単に様々なビジネスだけでなく、人間としての私たちの価値が危険に晒されているように見える点だ。意思決定者であり創造者でもある私たちの価値が、再考を迫られているのだ。そのことが、感情的な反応を呼び起こしている。私たちは自分自身を位置付ける方法を知らない。

非常に限られた数の基本的な技術があり、そのほとんどが「深層学習」という用語の傘の下に分類されるものである。それがほぼ全てのアプリケーションの基礎を形作っている。例えば畳み込みおよびリカレントニューラルネットワーク、LSTM、オートエンコーダー、ランダムフォレスト、グラジエントブースティングなどだ。

AIは他にも多くのアプローチを提供しているものの、上に挙げたコアメカニズムたちは、近年圧倒的な成功を示してきた。大部分の研究者は、AIの進歩は(根本的に異なるアプローチからではなく)これらの技術を改善することで行われると考えている。ということで、以下これらの技術を「主流AI研究」と呼ぶことにしよう。

現実的なソリューションはいずれも、これらのコアアルゴリズムと、データを準備し処理する非AI部分(例えばデータ準備、フィーチャエンジニアリング、ワールドモデリングなど)とで構成されている。一般的にAI部分の改善により、非AI部分の必要性が減少する傾向がある。それはAIの本質に根ざしていて、ほとんどその定義と呼んでも良いようなものだ――すなわち個別の問題に対する取り組みを時代遅れなものにしていくのだ。しかし、この非AI部分こそが、多くの場合、AI駆動型企業の価値なのだ。そこが秘密のソースというわけだ。

AIにおけるすべての改善は、この競争上の優位性をオープンソースの形にして、誰にでも利用可能なものにしてしまう可能性がある。その結果は悲惨なものとなるだろう。Frederick Jelinekはかつて「言語学者をクビにする度に、音声認識装置のパフォーマンスが上がります」と語った。

機械学習がもたらしたものは、基本的には冗長性の削減なのだ。すなわちコードのデータ化である。ほぼすべてのモデルベース、確率ベース、およびルールベースの認識技術は、2010年代の深層学習アルゴリズムによって洗い流されてしまった。

ドメインの専門知識、フィーチャモデリング、そして数十万行のコードが、今やわずか数百行のスクリプト(と十分な量のデータ)によって打ち負かされてしまうのだ。前述のように、主流AI列車の経路上にある独占コードは、もはや防御のための資産とはならないことを意味する。

重要な貢献は非常に稀である。真のブレークスルーや新しい開発のみならず、基本コンポーネントの新しい組み合わせ方法でさえ、行うことができるのは非常に限られた数の研究者たちだけだ。この内側のサークルは、あなたが想像するよりも遥かに小さなものなのだ(そこに属するのは100人以下の開発者たちだ)。

何故そうなのか?おそらくその理由は、コアアルゴリズムであるバックプロパゲーションに根ざしている。ほぼすべてのニューラルネットワークは、この方法によって訓練されている。最も単純な形式のバックプロパゲーションは、大学1年の最初の学期でも定式化できる程度のものだ――洗練とは程遠い(とは言え小学校レベルということはない)。こうしたシンプルさにもかかわらず(あるいは、まさにその理由によって)その50年以上にわたる興味深くきらびやかな歴史の中で、ほんの僅かな人たちだけが幕の裏側をのぞきこみ、その主要なアーキテクチャに対して問いかけを行ったのだ。

もしバックプロパゲーションの意味合いが、早い時期から今日のように理解されていたなら、(計算能力は別にして)私たちは現在既に10年先を進んでいたことだろう。

70年代の簡素な原始ニューラルネットワークから、リカレントネットワークへ、そして現在のLSTMへと進んできたステップは、AI世界に起きた大変動だった。にもかかわらず、それはわずか数十行のコードしか必要としないのだ!何世代にも渡って学生たちや研究者たちが、その数学に取り組んで、勾配降下を計算し、その正しさを証明してきた。しかし最終的には、彼らの大部分は納得して「最適化の一方式だ」と言って作業を進めたのだ。分析的理解だけでは不十分なのだ。差をつけるためには「発明者の直感」が必要だ。

研究のトップに立てることは極めて稀(まれ)であるため、全企業の99.9%が座ることができるのは助手席に過ぎない。コア技術は、オープンソースのツールセットとフレームワークとして、業界の主要プレイヤーたちから提供されている。最新のレベルを追い続けるためには、独自の手法は時間とともに消滅していく。その意味で、AI企業の圧倒的多数は、これらのコア製品と技術の消費者なのだ。

私たちはどこに向かっているのか?

AI(および必要なデータ)は、電気、石炭、金などの多くのものと比較されて来た。技術界が、いかにパターンや傾向を探し出そうと躍起になっているかがわかる現象だ。なぜならこの知識が、自分たちのビジネスを守るために必要不可欠だからだ。さもなくば、この先の投資が、ひとつの単純な事実の前に無駄になってしまうだろう。その事実とは、もし主流AI列車の経路上にビジネスを築いてしまったら、未来は暗いという事実だ。

既にビジネスに向かって猛烈に突き進んでいるエンジンがある中で、考慮すべき重要なシナリオがいくつか存在している。

第1のシナリオは、主流AI研究列車は急速に減速する、あるいは既に停止したというものだ。これは、これ以上アプローチできる問題クラスが存在しないことを意味する。つまり、私たちは列車を降りて、顧客のために「ラストマイル」を歩かなければならないということを意味するのだ。これは、スタートアップたちにとって大きなチャンスとなる。なぜなら持続可能なビジネスを創出するチャンスを秘めた、独自技術を構築する機会が与えられるからだ。

第2のシナリオは、主流列車が現在の速度で進み続けるというものだ。その場合には、避けることも、列車を降りることも一層困難になる。個別のアプローチに対するドメイン知識は、大企業による「オープンソース化」によって急速に危機に晒されることになる。過去のすべての努力には価値がなくなるかもしれないからだ。現在、AlphaGoのようなシステムは、オープンソースのフレームワークが提供する標準(バニラ)機能とは別に、非常に高い割合の独自技術が必要とされている。しかし近いうちに同じ機能を備えた基本的なスクリプトを見ることになったとしても、私は驚きはしないだろう。しかし「予測もつかない未知のできごと」(unknown unknown)は、次のステージで解決できるような問題クラスだ。オートエンコーダーとアテンションベースのシステムは、そのための有望な候補だ。

主流AI研究列車は急速に減速する、あるいは既に停止した。

次のシナリオは、列車はさらに加速するというものだ。そして遂には「シンギュラリティは間近」ということになる。そのことについての本が何冊も書かれている。それについて異を唱えている億万長者たちもいるし、私もその件に関しては別の記事を書くつもりだ。ここでの究極の成果は、汎用人工知能だ。もしこれを達成できれば、すべての賭けは終了となる。

そして最後に、ブラックスワン(予想もつかなかったことが起きる)シナリオがある。誰かがガレージで、現在の主流とは全く似ていない次世代のアルゴリズムを発見するというものだ。もしこの孤独なライダーが、それを自分自身のために使うことができなら、私たちは史上初の自力1兆ドル長者(trillionaire)を目撃することになるだろう。しかし、これはどこから来るのだろうか?私はこれが何もないところから突然出てくるとは思っていない。それは、主流技術と放棄されたモデルベースのアルゴリズムとの組み合わせになるかもしれない。2010年代には、ニューラルネットが発展し、研究の基礎の一部が失われていた、かつて有望だったアプローチ(シンボリックアプローチなど)にも目が向けられた。現在のAIで行われている活動も、その他の関連した研究フィールドを復活させている。いまや研究者で溢れていないような、「あまり知られていない」技法やアルゴリズムを発見することは難しくなりつつある。それにもかかわらず、ゲームを変えるアプローチを見つけたり、復活させたりする外部者が登場する可能性は捨てきれない。

勝者は誰か?

以上をまとめて、この極めて難しい質問を行うことにしよう。これに対する答は、上記のシナリオだけでなく、あなたが何者であるかに依存する。リソースと既存の資産が戦略の鍵であるために、ビジネスの出発点がこの方程式では重要な要素である。

AIチャンピオンズリーグでは、十分な資金力を持ち、重要な才能を引き付けることができる企業の数は少ない。これはどちらかと言えば現在はコストがかかるプロセスなので、収益源は他に求めなければならない。こうしたことから、プレイヤーはよく知られたGoogle、Facebook、Microsoft、IBMたちに限定されることになる。彼らは現行のオープンソーススタックとは異なる、巨大な独自システムを構築し、新しいクラスの問題に取り組んでいる。ある程度の時間が経過したら、活力のあるコミュニティを構築するために、彼らはこれを次世代のオープンソースフレームワークに組み込むだろう。

こうしたプレイヤーたちは、より良いアルゴリズムを訓練するのに適した、既存のプラットフォームも所有している。AIはメガトレンドかも知れないが、企業のためのそして企業による、日々のビジネスへの適用も、彼らの成功のためには重要である。こうしたプラットフォーム:Amazon、Facebook、Google Apps、Netflix、さらにはQuoraさえもが、AIを利用してそのコアビジネスモデルを守り強化している。彼らはAIによって顧客により良いサービスを提供する方法を発見しているが、その一方、自身のコアビジネスを、人工知能を用いてやっていることとは別のものとしている(少なくとも表向きは)。

一方、一部の新興プラットフォームは、彼ら自身のツールセットに、AIを組み込む方法を見出している。こうした企業たちは、なによりもまずAIがビジネスを可能にしてくれた、そして収益化を可能にしてくれたと主張している。こうしたビジネス例の1つが、文法チェッカーのGrammarlyである。

一見したところでは、既存のベンダーでも自分で簡単に開発できる、気の利いたアドオンのように思えるだろう。しかし、内容はもっと複雑だ。彼らはここで2つの資産を構築している。さらなる品質向上のためのコミュニティ生成データセット、そしてより持続可能な、広告パートナーのための驚くほどパーソナライズされたマーケットプレイスだ。

そしてツールメーカーたちもいる。Mark Twainが語ったように、金を掘るのは他人に任せて、その横でシャベルを売るのだ。そのやり方はかつてうまくいったが、おそらく今回もうまくいくだろう。データの提供、コンテストの開催、人材の交流、人びとの教育。企画のためには、すべてのAIの志望者が必要とする(または望む)ものを見つけ出せばよい。そしてそれで稼ぐのだ。

UdemyはAIコースを教え、Kaggleは企業を支援しデータサイエンティストたちにスキルを習得させるための、AIコンテストを創始した。AIのコアコンピテンシーを構築する必要もない、企業たちは成功するためにペタバイト規模のデータを必要としているからだ。そして彼らのほとんどは教師あり学習を採用しているので、それを監督する人間も必要なのだ。

そしてAIコンサルティングというニッチな領域を見つけた企業もある。巨人の提供するオープンソースフレームワークの肩の上でさえも、やるべきことがまだたくさん残っているのだ。

Element AIのような企業は、そうした追加のAI関連の仕事を行う部品を、プロダクトやサービスに組み込むことを可能にした。確かに、最近行われた1億200万ドルの調達によって、彼らは成功のために必要な十分な資金を得ることができた。

出番を待っているその他の企業たちもある。人工知能ソリューションを持ち、既存のビジネスプロセスを置き換えようとしている企業たちだ。しかし、こうした企業たちは、2つの点で課題に直面している。1つは同じ問題を解決するための、オープンソースプロジェクトを開発することが可能であること、そしてもう1つは、既存のベンダーが同じ問題を解決するために、より自動化されたソリューションに対して多額の投資を行っていることだ。

業界で最も重要な要素は、非常に少数の研究者グループの中で起こっている、主流AI研究のスピードだ。彼らの研究成果は、ほとんど遅れることなく、AIチャンピオンプレイヤーたちによって開発されているフレームワークの中に取り込まれる。その他大勢の私たちは、人工知能列車の乗客か、もしくはその経路上にある障害物だ。結局のところポジショニングが全てである。自分たちの位置付けを上記のコンテキストを考慮して決定する企業は、のぞむ目的地に辿り着ける可能性があるだろう

[原文へ]
(翻訳:sako)

FEATURED IMAGE: MF3D/ISTOCK

エッジ処理向けの深層学習モデルを開発、LeepMindがIntel Capitalなどから11.5億円調達

企業向けのディープラーニング・ソリューション「JUIZ DoT」などを提供するLeepMindは10月23日、合計7社を引受先とする第三者割当増資を実施し、総額11.5億円の資金調達を完了したと発表した。

投資家リストは以下の通り:

LeapMindは、高い処理能力や高電力を前提としたこれまでのディープラーニング(深層学習)とは違い、小さなコンピューティングリソースでも動くような計算処理を圧縮した独自モデルの開発を行うスタートアップだ。

通常、ディープラーニングというと大きなコンピューティングリソースを利用したものを想像する人が多いと思う。たとえば、人間のプロ囲碁棋士を打ち負かしたことで話題になったAlphaGoにはCPU1202個とGPU176基がものリソースが利用されていた。

もちろん、そんな巨大コンピューターをいちいち移動させたり色々な場所に配置したりする訳にはいかない。だから、処理を行うサーバーは離れた場所に置かれ、データを取得する端末とネットワークを介して通信することになる。いわゆるクラウドコンピューティングだ。

クラウドのメリットは、たとえ端末自体の処理能力が低くても、外部のリソースを活用することでディープラーニングのような複雑な処理ができること。逆にデメリットとして挙げられるのは、離れた場所にあるサーバーと通信を行う以上、処理結果が返ってくるまでに多少の遅延が発生してしまう点だ。

でも、人のいのちに関わる自動運転の分野などでは、そのような遅延は許されない。そこで自動運転の発展とともに注目され始めているのがエッジコンピューティングだ。これは、端末の近くにサーバーを分散配置することで遅延を少なくするというもので、クラウドとは異なる発想をもつコンピューティング技術だ。

エッジコンピューティングで利用できるリソースは限られている。巨大なコンピューターをクルマに積むことなんてできないからだ。すこし前置きが長くなってしまったけれど、LeepMindはそんな小さなコンピューティングリソースでもディープラーニングを行えるよう、計算量を圧縮した独自モデルの開発をしている。

従来モデルの500分の1のサイズ、10倍の処理速度

LeepMindによれば、同社の独自モデルはケンブリッジ大学が開発した「SegNet」と比べて500分の1のサイズでありながら、精度は5%ほどの低下に留めることに成功したという。また、LeepMindが提供するSaaS型ディープラーニングサービスであるJUIZを利用してFPGA(参考)上に専用回路を構築することで、CPUでの処理に比べて10倍の速度で処理を完了することができるという。

また、FPGAに構築されたモデルは従来のものに比べて省電力であり(約12分の1)、電力が限られたIoTデバイスでもディープラーニングが行えるように開発されている。

LeepMindが掲げる「DoT(Deep Learning of Things)」という言葉のとおり、エッジ上で精度の高いディープラーニングを行うことが可能になれば、自動運転だけでなく、ドローンに高度な画像認識モジュールを搭載するなど様々なことが可能になりそうだ。

今回のラウンドには米国のIntel Capitalがリード投資家として参加しているけれど、彼らは注力分野としてAI、FPGA、IoT、自動運転などを挙げている。それを考えれば、LeepMindはIntel Capitalにとって絶好の投資先だったのかもしれない。

LeepMindは今回調達した資金を利用して、「ソフトウェアとハードウェアの両領域におけるソリューションの研究開発、またそれに伴う世界中からの優秀な従業員の雇用、さらには海外を含めた事業開発/営業基盤の拡大に充当する予定」だとしている。

過去に、同社は2016年8月のシリーズAで3.4億円を調達している。

AIが引き起こす破壊の波

gettyimages-4964795042560x-80

【編集部注】著者のRudina Seseri氏は、Glasswing Venturesの創業者でマネージング・パートナーであり、かつハーバード・ビジネス・スクールのアントレプレナー・イン・レジデンスと、ハーバード大学イノベーション・ラボのエグゼクティブ・イン・レジデンスも務める。

情報技術はディストラプション(破壊)の波を超えて進化する。最初はコンピューター、そしてウェブ、遂にはソーシャルネットワークとスマートフォン、全てが人びとの生き方や、ビジネスの回し方に革命を起こす力を持っていた。それらは適応に失敗した企業を破壊し、一方では成長するマーケットの新しい勝者を生み出して来た。

そうした波の到来のタイミングと形を正確に予測することは困難だが、それらがたどるパターンは認識しやすい。例えば、ウェブ/デジタルのディストラプションを考えてみよう:まず先行するテクノロジー(例えばTCP/IPや設置済のコンピューター群)の利点を活かした、テクノロジーのブレイクスルーがあり(例えばTim Berners-LeeのWWW)、そして一見緩やかに見えながら、実は爆発的に、既存の市場を破壊したり(例えばAmazon)創造したり(例えばGoogle)する、新しいアプリケーションとプラットフォームの勃興が導かれた。

そして今、新しい波のうねりが見え始めている。ウェブが既存の技術を利用したことと同様に、この新しい波は、コンピューティングハードウェアのコストの低下、クラウドの出現、企業システムのコンシューマライゼーション(専用機器ではなく消費者向けデバイスを利用すること)、そしてもちろん、モバイル革命などの動向に基いている。

更にスマートデバイスと「モノ」の急増と多様化は、定常的なコミュニケーションと共有を可能にし、一方ソーシャルネットワーキングネイティブたち(世界のSnapchatユーザーは団結する!)は常時共有と自己表現を「必需品」としている。この結果が、私たちが普遍接続性(pervasive connectivity)として作り出したものの出現だ。

普遍接続性はこれまで以上に豊かでパーソナライズされたデータの急増につながる、そしてそのことはデータを処理し、価値があり操作可能な洞察を引き出す方法への、完全に新しい機会を生み出すのだ。人工知能が、まさにそれを可能にする。

AIのもたらす機会 – なぜ今なのか、どうそれを活用するのか

AIは、より広い意味では、知性を発揮する機械の能力として定義され、ここ数年で劇的に改善された、学習、推論、プランニング、そして知覚といった、いくつかのコンポーネントで構成される。

機械学習(ML)は顕著なブレークスルーを達成し、それによりAIコンポーネント全体にわたるパフォーマンスの向上が促進された。こうしたことに最も貢献しているMLの2つの流れは、理解に関わる深層学習(ディープラーニング)と、特に意思決定に関わる強化学習(リインフォースラーニング)だ。

興味深いことだが、これらの進歩はアルゴリズムではなく、むしろ(高品質な注釈付の)データ(セット)の指数関数的成長によって促進されたことはほぼ間違いないだろう 。その結果は驚くべきものだ:ますます複雑になるタスクに対してしばしば人間のパフォーマンスを上回るよい結果が継続的に達成されている(例えばゲーム音声認識、そして画像認識の分野で)。

とはいえ、それはまだ黎明期であり、いくつかの課題が残されている:ほとんどのブレークスルーは「狭い」アプリケーションの領域で起きているものであり、(作成には高いコストのかかる)大量のラベル付データセットが必要な訓練手法を使っている。ほどんどのアルゴリズムは(いまでも単に)人間以下の能力を発揮できているのに過ぎず、その訓練にはかなりのコンピューティングリソースを必要とし、大部分のアプローチが理論的フレームワークを欠いた発見的手法に基いている。

AIは、既に自宅と職場の両方で、私たちの日常生活の多くの側面を変えている。しかし、これはほんの始まりに過ぎない。

これらの課題の多くは、おそらく中長期的には克服されるが、今日作成されている大部分のAI応用プロダクトは、こうしたことを考慮して置かなければならない。これが、AIを活用することを計画している企業が以下の事に気を配ることが重要である理由だ:柔軟なアプローチをとること(すなわち、最初は、良いパフォーマンスを出すためのMLアルゴリズム訓練データを集めることができるか、あるいは非AIアプローチをとるか)、(AI機能を開発しその性能を促進するための)「ラベル付けられたデータ」をユーザーから集める連続的な情報の流れを作り出すこと、そして十分に支援されていない、あるいは「人間が介在している」ユースケースに注力することだ。

現在多くの注目は、大規模テクノロジー企業(Google/DeepMindFacebookPinterestなど)に向けられているが、わたしはこの(もしくはこれに類似した)アプローチを使って、企業と消費者市場にAIディストラプションの波を起こすのは、スタートアップたちだろうと考えている。そして、既にいくつかのスタートアップはそれを始めているのだ。

企業内のAIディストラプション

企業内でAIは、企業が消費者とインタラクトするための新しい方法や、従業員同士が相互にコミュニケーションするための新しい方法、そしてそのITシステムと共に、より大きな収益と生産性の向上の両者を促進している。

マーケティングは、新技術の典型的なアーリーアダプターであり、それは既にAIを採用していて、セクター全体にわたって高い認識とコンバージョン指標が育っている。ソーシャルメディアでは、SocialFlow*などの企業が、キャンペーンの効果を向上させるための機械学習の使用を開拓してきている。ディープラーニングによって支えられる新しい画像認識技術は、Netraのようなスタートアップが、視覚に対する知性と検索性の改善をすることを可能とし、ユーザーエクスペリエンス全体を向上させている。電子商取引では、Infinite Analyticsが、より良いパーソナライゼーションを可能にするプロダクト群を作成することができている。

セールス分野では、営業チーム/見込み客とCRMの間のUIを再考した新しいプロダクトが、効率を大いに改善し、成約率を向上させている。Troops.aiは、セールスチームが現在自身の使っているプラットフォームを通して、CRMデータに簡単にアクセスすることを可能にする。Rollioは自然言語を介したCRM情報のアクセスおよび更新を可能にする。Conversicaは、より良いスクリーニングを行い、見込み客をフォローアップできる、セールスアシスタントを作成した。

普遍接続性の世界では、AIがデータのパワーを活用するための鍵である。

人事分野では、スタートアップは様々な活動にわたった効果と効率性の改善を行おうとしている。Tallaは、企業内のナレッジマネジメントの改革を目指している。一見単純な会話エージェントから始めて、最終的には本格的で先回りを行うナレッジエージェントへと向かうのだ。Wade & Wendyは採用時に使用するための両面会話エージェントを作った、目的は向かい合う両者の満足度のレベルを上げながら、全体の採用時間を短縮することである。

生産性という話では、x.aiのような企業たちが、スケジューリングに際しての苦痛を大幅に取り除き、シームレスなユーザーエクスペリエンスを生み出そうと努力している。

最後に、部門をまたがるアプリケーションを擁する広範なプラットフォームを作っている企業もある:Indicoは、アプリケーション間をまたがったアルゴリズムの訓練をかなり高速に行うために、学習転送を使っている;Receptivitiは、人びとのテキストやボイスメッセージを解析して、彼らの心理的かつ個人的な意思決定スタイルと感情をリアルタイムに明らかにする。

消費者市場におけるAIディストラプション

消費者市場で、おそらく最も私を興奮させるものは、AIが新しいプラットフォームを創造し、日々の生活の中の重要な空間で私たちが技術と対話する方法を再定義していくやり方である。

そのような重要な空間の1つが家だ。Jibo*は家庭の変革を目指す、フレンドリーでインテリジェントなソーシャルロボットだ。よりよいユーザーエクスペリエンスを生み出すために、それは人間臭いリアクションを採用している。一方、幅広いタスクにとても役に立つ働きをする、誰が話しているかによって調整を自動的に行うインテリジェントビデオコールから、料理をする際の材料の提案、そして子供向けの読み聞かせの手伝いまで、といった具合だ。

また別の重要な空間は車だ。nuTonomyはシンガポールにおける自動運転の導入で、テクノロジーを迅速に市場に持ち込み、現行勢力を飛び越えることができたスタートアップの良い例だ。

そしてどうなる?

ほとんどの人が、AIの仮説上の発展の、長期的な可能性と脅威に焦点を当てているが、いまのところ、新しいディスラプションの波を促しているのは、経験則に基づく、限界のある適用形態である。これまでの波のように、この変化は微妙で最小のもののように見えるが、ほどなくそれはひろく普及し、無視することができないものになる。

普遍接続性の世界では、AIがデータのパワーを活用するための鍵である。企業が生き残るためにはAIの利点を活かす必要がある ‐ Google、Facebook、Amazon、そして無数のスタートアップはそれを知っている。そして、あなたも知るべきなのだ。

AIは、既に自宅と職場の両方で、私たちの日常生活の多くの側面を変えている。しかし、これはほんの始まりに過ぎない。AIは、ゆっくりと、着実に、そして広範囲に、私たちとテクノロジーの関係を再定義している。そして人間の能力と、基本的には私たちの生き方を、向上させているのだ。

*Rudina Seseriの投資ポートフォリオには、SocialFlowとJiboが含まれている。

[ 原文へ ]
(翻訳:Sako)

ディープラーニングが計算機の視覚に果たす役割

Close Up of blue eye with computer circuit board lines, digital composite

【編集部注】著者のClaire Bretton氏はdaco.ioの共同設立者の1人である。daco.ioはディープラーニングを使ったユニークな競合トラッキングツールを開発するするスタートアップである。以前、彼女はパリに拠点を置くトップ戦略コンサルティング会社のマネージャーだった。ESCPヨーロッパから修士号を取得している。

21世紀の最大の課題の1つは、コンピューターをより人間の脳に似たものにすることだ。私たちは彼らに話し、理解し、そして問題を解いて欲しい – そして今、私たちは画像を見てその内容を認識して欲しいと思うのだ。

長い間盲目だった私たちの最も賢いコンピューターたちは、今や見ることができるようになった。

これは、ディープラーニングによって可能になった革命である。

機械学習:最初のステップ

機械学習を理解することはとても容易だ。そのアイデアは、大規模なデータベース上でアルゴリズムを訓練して、新しいデータに対して得られる出力を予測できるようにすることだ。

ここでは単純な例を示そう:私たちは樹齢を直径を使って予測したい。このデータベースには3種類のデータだけが含まれている:入力(x, 木の直径)、出力(y, 樹齢)、そして属性(a, b:木の種類, 森の位置)だ。これらのデータは、1次関数y = ax + bによって関連付けられている。このデータベースを使った訓練を通して、機械学習アルゴリズムは、xyとの間の相関関係を理解して、属性の正確な値を定義することができるようになる。この訓練段階が完了すると、コンピューターは、新たな直径(x)から正しい樹齢(y)予測することができるようになる

これは、過度に単純化した説明だが、画像認識について説明するときにはもっと複雑なものとなる。

コンピューターの場合、画像は数100万の画素の集まりだ – それは沢山のデータ処理を必要とし、1つのアルゴリズムで処理するには多すぎる入力である。そこで研究者たちはショートカットを見つけなければならなかった。最初のソリューションは、中間の特性を定義することだった。

コンピューターに猫を認識させたいと想像して欲しい。まず初めに、人間は主要な猫の特徴を全て定義しなければならない:丸い頭部、2つの尖った耳、1つの鼻…こうした主要な特徴が定義されれば、良く訓練されたニューラルネットワークアルゴリズムは、十分なレベルの正確さで、画像を分析しそれが猫であるか否かを判断することができる。

ミリリットル、猫

では、より複雑なアイテムを選んだ時にはどうなるだろう?

たとえば、ドレスをどのようにコンピューターに説明すればよいだろう?

ML-キャラ

あなたはここで画像認識のための基本的な機械学習の、最初の限界に突き当たったということだ:100パーセントに近い認識ポテンシャルを持つ識別特徴を定義することは、しばしば不可能なのである。

ディープラーニング:人間の介入なしに、見て学ぶ

2000年代になって、Stanford大学のAI LabとVision LabのディレクターであるFei-Fei Liが、重要な直感を得た:子供たちはどのようにものの名前を学ぶのだろうか?彼らはどうやって猫やドレスを認識することができるのだろう?両親いちいち特性を示しながら教えるわけではない、その代わり子供が対象を見るたびに、その物/動物の名前を教えるのだ。親たちは、視覚的な例を使って子供たちを訓練している。なぜ私たちは同じことをコンピューターに対してできないのだろう?

しかし、このとき2つの問題が残っていた:データベースの存在とコンピューティングパワーだ。

まず、「コンピューターに見ることを教える」ための十分に大きなデータベースはどのように入手することができるだろうか?この問題に取り組むため、Liと彼女のチームは、Image Netプロジェクトを2007年に立ち上げた。180カ国の50000人以上の人と協力して、彼らは世界最大の画像データベースを2009年に作成した:22000のカテゴリをカバーした、1500万枚の命名と分類が成された画像群だ。

コンピューターは今大規模な画像データベースで自分自身を訓練し、重要な特徴を特定することができるようになっている、そしてそれには人間の介入が不要なのだ。3歳の子供のように、コンピューターは名前の付いた数百万枚の画像を見て、自分自身でそれぞれのアイテムの主要な特徴を理解する。これらの複雑な特徴抽出アルゴリズムはディープニューラルネットワークを使い、何十億というノードを必要とする。

mlのドレス

これはディープラーニングの始まりに過ぎない:私たちはなんとかコンピューターが3歳児のように見ることができるようにした。しかしLiがTED talkで話したようにまだこれからなのだ:「本当の挑戦はこれからです:私たちはどうすればコンピューターを3歳から13歳に、そしてそのはるか先へ進めることができるでしょうか?」

[ 原文へ ]
(翻訳:Sako)

Fordは自動運転実用化のための戦略的投資を強化中

Ford is expanding its Silicon Valley operations, creating a dedicated campus in Palo Alto. Adding two new buildings and 150,000 square feet of work and lab space adjacent to the current Research and Innovation Center, the expanded campus grows the company’s local footprint and supports plans to double the size of the Palo Alto team by the end of 2017.

フォードは2021までに自動運転車を目指す方針を発表したが、その計画の一部にはいくつかの買収が含まれている。CEOのMark Fieldsが今日パロアルトのプレスイベントで発表したのは、機械学習とコンピュータービジョンに焦点を当てたイスラエルの企業SAIPSの買収である。また、無人車システムの機械学習コンポーネントに、より「人間らしい知性」をもたらすために、Nirenberg Neuroscienceとも独占提携を行った。

SAIPSの技術は画像およびビデオ処理アルゴリズムと同時に、入力信号の処理と分類に特化した深層学習テクノロジーを持ち込む。これらはすべて。自動運転車技術の特別ソースに欠かせない材料である。フォードの自動運転車上のセンサーによって取り込まれたデータは、SAIPSの技術によって車上での解釈を助けられ、データは車の仮想ドライバーシステムが利用可能な形式に変換される。SAIPSが提供するものには、異常検出やセンサーによって検出されたオブジェクトの継続的追跡、その他沢山のものが含まれている。同社の過去のクライアントにはHPとTraxが含まれるが、そちらのグループの方で運転に特化した応用が進められているようには見えない。

フォードは本日の発表イベントの中で、2013年にイスラエルで始めたハイテクスカウト作戦を経て、有望なターゲットとしてSAIPSが選ばれ、同社の機械学習の専門技術がフォード自身の取り組みの下支えになるだろうという結論が迅速に出されたと言及した。

Nirenbergとのパートナーシップは、完全な自動運転の別の課題分野に向けての、応用研究を同様に行うためのものだ。Sheila Nirenberg博士の研究は、網膜変性疾患の患者の視力回復に焦点を当てているが、フォードはこのテクノロジーを仮想ドライバーの視覚システムを大幅に改善し、人間のドライバーのように情報を処理することを助けるために使うことができると考えている。

フォードはまた、3Dマッピング機能を強化するためのCivil Mapsへの投資(既報)についても触れた。高解像度の3Dマップは、いかなる本格的自動運転への取り組みにおいても重要な要素である。

[ 原文へ ]
(翻訳:Sako)