ニューラルネットワークの内部動作を理解するための完全自動化システムをMITの研究所が開発

MITのComputer Science and Artificial Intelligence Lab(コンピューターサイエンスと人工知能研究所, CSAIL)が、ニューラルネットワークの内部を調べて、それらが実際にどうやって判断をしているのかを知るための、方法を考案した。その新しいプロセスは二年前にチームがプレゼンしたものの完全自動化バージョンで、以前は人間が調べて同じ目的を達成していた。

ニューラルネットワークの動作の理解に人間が介入しなくなったことは、研究の大きな進歩だ。これまでのディープラーニングのテクニックには、彼らの動作に関する不可解な部分が多かった。いったいどうやってシステムは、その判断結果に到達しているのか? そのネットワークは信号処理の複数の連続した層を使って、オブジェクトの分類やテキストの翻訳などの機能を実行するが、ネットワークの各層がどうやって判断しているのかを、われわれ人間が知るための方法がほとんどなかった。

CSAILのチームはのシステムは、ちょっと手を加えたニューラルネットを使い、その個々のノードが入力画像に反応するときの反応の強度を返させる。そして、最強の反応を生成した画像を分析する。この分析は最初、Mechanical Turkのワーカーたちが行い、画像中の具体的な視覚的コンセプトに基づいて分類をしたが、今ではその仕事が自動化され、分類はマシンが生成する。

すでにこの研究から、ニューラルネットの動作に関する興味深いインサイトが得られつつある。たとえば白黒の画像に塗り絵をするよう訓練されたネットワークは、そのノードの大きな部分に集中することによって、絵の中のテクスチャ(絵柄、模様、パターン)を同定する。またビデオの中にオブジェクトを見つけるよう訓練されたネットワークは、そのノードの多くがシーンの同定に動員され、一方、シーンを同定するよう訓練されたネットワークはその逆に、多くのノードにオブジェクトを見つけることに集中した。

私たちはそもそも、分類や認識を行う人間の思考を完全には理解していないし、ニューラルネットはその不完全な理解に基づく人間の思考の仮説的なモデルだ。だからCSAILの研究は今後、神経科学の疑問も解き明かすかもしれない。そのペーパーは今年のComputer Vision and Pattern Recognition(コンピュータービジョンとパターン認識)カンファレンスで発表されるが、人工知能の研究者たちの、大きな関心を喚(よ)ぶことだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習に“本物の芸術らしさ”を教育訓練できるか?、二人の学部学生がそんなGANに挑戦

Generative Adversarial Net(GAN)の人気は今がピークなのか、よく分からないが、1年前に比べると、これをいじくっている人びとの数が相当増えている。そしてそれは、すごいことだ。ウィリアムズ大学の二人の学部学生が機械学習の初歩を独学し、そして今やほとんどメインストリームの技術であるGANに関する論文を50近く読んでから、ある教授と一緒に美術作品を生成するGANに取り組み、ほぼ1年で完成させた

コンピューターサイエンスの学生だったKenny JonesとDerrick Bonafiliaは今年の初めごろ、Martin ArjovskyのWasserstein GAN(WGAN)に出会った。ベーシックなGANの安定性を高めたWGANは、アートの様式(スタイル)の学習や新しいアートの生成により適していることが明らかになった。

GANの基本構成要素はジェネレーター(generator, 生成部)とディスクリミネーター(discriminator, 差別部)で、両者が敵対的に対話することによって動作する。ジェネレーターは人工的な画像を作り、それをディスクリミネーターに本物と思わせようとする。同時にディスクリミネーターは、偽の画像をできるだけ多く排除しようとする。

ジェネレーターとディスクリミネーターが対決

しかしGANは、不安定なことで悪名高く、まったく使いものにならないこともある。Wassersteinが改良したGANは、アートと分かるようなものを作り出す程度の安定性はある。そこでチームはWikiArtのデータベースからラベル付きの絵画10万点を取り出し、訓練用の素材として使った。

そのモデルの性能を最大化するためにチームは、ディスクリミネーターに新たな部位を加え、絵画のジャンルを予見できるようにした。またモデルが、生成される画像の“本物性”と“偽物性”にこだわりすぎるのを避けるため、予備訓練によりグローバル条件を加えた。これによりディスクリミネーターは、アートの様式の違いに関する理解を、維持できるようになった。

“難しいのは、成功の判定方法だ”、とJonesは語る。“そのための普遍的な測度はあまりない。それはアートに限った問題ではないが、芸術作品は通常の画像認識のように本物偽物の区別が明瞭でないから、判定がものすごく難しい”。

しかしとりあえずそのプロジェクトは成功し、JonesとBonafiliaは秋になったらソフトウェアエンジニアとしてFacebookに就職する予定だ。Bonafiliaの考えでは、もっと強力な計算機資源を使えたらプロジェクトの性能は大きくアップするだろう。Facebookには、強力なコンピューターがふんだんにあるはずだ。

  1. 0ceh4q72pq9mmiucc.png

  2. 0kgzb_heat-qv0skb.png

  3. 0itdky-dc2mclrun8.png

アートは今、機械学習で人気の高い素材だ。Jonesによるとその理由は、ビジュアルでしかも分かりやすいからだ。Facebookは昨年の秋に、モバイル上のリアルタイムのスタイル変換(style transfer)で関心を喚(よ)んだ〔例: 葛飾北斎のスタイルをふつうの写真に移送(transfer)する〕。JonesらGANGoghチームの作品と違ってStyle Transferは、新しいアートを作り出すのではなく、既存のストリームに(別のスタイルで)変更を加える。

スタイル変換は映画で使われている…女優のKristen Stewartは今年の1月に共著したペーパーで、彼女の短編映画Come Swimへの機械学習の応用を説明している。機械が生成した新しい作品が現代美術の美術館に展示されるのはまだ早いと思うが、今後本物のアーチストがモデルづくりに取り組んだそれらを、美術館はどう扱うか。その問題を歴史上初めて指摘した文献がこの記事だぞ、と自慢しておこう。

〔GAN関連日本語訳記事:(1)(2)(3)(4)。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ディープラーニングシステムの主要要素(モデルなど)の再現や入れ替えを容易にして研究を促進するGoogleのTensor2Tensorが一般公開

Googleは、研究者たちがディープラーニングに関する研究開発結果の再現を容易にできるためのオープンソースのライブラリTensor2Tensorリリースした。これにより、モデルやデータセットやそのほかのパラメータの新しい組み合わせを誰もが手早く試行でき、ディープラーニングシステムの能力の拡大に貢献できる。AIの研究では変数(変項)の数が膨大で、しかも新しい開発が次から次と登場してくるため、たとえば二つの異なるセットアップを比較する、といったことが簡単にはできなかった。そのことが研究者たちの悩みであり、研究の進歩の足を引っ張っていた。

Tensor2Tensorライブラリは、AIの研究におけるベストプラクティスの保存、伝播、改良などを容易にする。それはハイパーパラメータ、データセット、モデルのアーキテクチャ、学習レートの減衰方式などの、重要な要素を装備している。

このライブラリのいちばんありがたいところは、こういった要素を個々にモジュール的に入れ替えられることであり、従来のような全取っ替えは必要ない。モデルの教育訓練では、新しいモデルやデータセットを任意に持ち込めるので、従来のように何もかも最初から再訓練という手間はなくなる。

研究ツールの外部一般公開では、Facebookも最近ParlAIをオープンソースにした。それは、よく使われるデータセットをあらかじめパッケージして、ダイアローグ(ユーザーとアプリケーションの対話的トランザクション)の研究の便宜を図るツールだ。

それと似てGoogleのTensor2Tensorにも、同社の最近の研究プロジェクト“Attention Is All You Need”や“One Model to Learn Them All”などで使われたモデルが含まれている。公開はGitHub上で行われているので、一般研究者の利用も迅速簡便にできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleがTensorFlowによるオブジェクト検出APIをリリース、機械学習のデベロッパー利用がますます簡単に

Googleが今日(米国時間6/16)、TensorFlowのオブジェクト検出APIをリリースする。これによりデベロッパーや研究者は、画像中のオブジェクトを容易に認識できるようになる。Googleは今回とくに、単純性とパフォーマンスを重視している…今日リリースされるモデルはすでにベンチマークの成績も良く、研究用にいつも使われていたものだ。

この検出APIに含まれているひとにぎりほどのモデルは、インセプションに基づくヘビーデューティーな畳み込みニューラルネットワークや、それほど高度でないマシンで使う単純化されたモデルなどだ…そのように最適化されているシングルショットの検出システムMobileNetsは、スマートフォン上でリアルタイムで使用できる。

今週初めにGoogleはそのMobileNetsを、軽量なコンピュータービジョン用のモデルの系統として発表した。これらのモデルは、オブジェクト検出や顔認識、ランドマーク認識などに利用できる。

今のスマートフォンは大型デスクトップやサーバーほどの計算資源がないから、デベロッパーには二つのオプションがある。機械学習のモデルをクラウドで動かすか、または、モデルを単純化することだ。しかし前者にはレイテンシーがありインターネットが必要だから、大衆化は無理だろう。後者は逆に、広範な大衆化のためにパフォーマンスで妥協するのだ。

GoogleとFacebookとAppleは、こういったモバイルのモデルに注力している。昨秋Facebookは、スマートフォン用のモデルを作るためのフレームワークCaffe2Goを発表した。それの最初の大型実装が、FacebookのStyle Transferだった。Googleはこの春のI/Oで、単純化された機械学習フレームワークTensorFlow liteをリリースした。さらにAppleは先日のWWDCで、機械学習のモデルをiOSデバイスで使いやすくするためのシステムCoreMLを打ち出した。

GoogleはFacebookやAppleと違って、パブリッククラウド上でいろんなものを提供しており、コンピュータービジョンもすでに、スケーラビリティのあるコンピュータービジョンサービスとして Cloud Vision APIを提供している。

今日発表されたTensorFlowオブジェクト検出APIはここにある。それを誰でも簡単に試せるし実装できるものにしたいGoogleは、そのキットのパッケージに重みと、Jupyter Notebookを含めている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習を利用して見込み客別にもっとも有効なピッチを営業に教えるHighspotが$15Mを調達

営業はいつも大量のノルマを抱えているが、でも最新のテクノロジーは、それらが従来よりももっと売れるようにしてくれる。

それともあなたは、うちのピッチ(売り込み)は完璧、と思っているかな? Highspotは、それは違う、と教えてくれる。まあそれが、Highspotのピッチだけど。

Highspotのソフトウェアは、見込み客とのさまざまなコミュニケーション、たとえばプレゼンテーションやケーススタディ、教育訓練ビデオなどを分析する。そして、それらの有効性を表すデータを提供する。

その分析結果が売上増に導くなら、それは多くの企業にとって大きな売上機会になる。そこでVCたちは、Highspotが今後ビッグビジネスになることに、さらにもう1500万ドル賭けている。

そのシリーズBのラウンドをリードしたのはShasta Venturesで、Salesforce VenturesとMadrona Venture Groupが参加した。シリーズAは、2014年の1000万ドルだった。

ShastaのマネージングディレクターDoug Pepperはこう語る: “Highspotは、営業を支援するソフトウェアの市場にAIや機械学習のパワーを持ち込んだ。彼らのプロダクトとチームと顧客評価技術は、長年営業を悩ませてきた問題を解決する。その問題とは、その見込み客に対して適切なコンテンツを適切なタイミングで提示して、営業努力をを成功に導くことだ”。ワンパターン、行き当りばったり、出たとこ勝負の営業は、古いし、効率も最悪だからね。

CEO Robert Wahbeの言い方はこうだ: “Highspotは、営業が頭の中につねに確実に(顧客・見込み客別に)適切な情報を持ち、顧客に提示する適切なコンテンツを確実に持ってる状態を作り出し、維持する”。同社の現在の有料顧客(月額会費制)は、中小企業と大企業合わせて100社ぐらいだ。

彼は、HighspotがCRMと競合する製品だとは見ていない。むしろ、CRMを“補完するプロダクトだ、と。とくに、顧客がSalesforceのプロダクトとHighspotを併用してくれることを、彼は期待している。

同社が拠を構えるシアトルについてWahbeは、“今は一種のブーム・タウンだね”、と言う。同市のスタートアップシーンは、今や“沸騰している”そうだ。

将来の買収については、彼は言葉を濁(にご)した。そして、“でも上場企業にはなりたいね”、これが彼の考える同社の将来像だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

大量の既存コードで訓練されたAIがプログラマーにオートコンプリートを提案するCodota、Khoslaが$2Mを投資

GitHubを使うようになってデベロッパーのワークフローは抜本的に変わった。コードをアクセスしやすいプラットホーム上に集積することによって、プログラミングのやり方が急速に変わった。そんな状況を受けてイスラエルのCodotaは、これまで無視されることの多かったデベロッパーコミュニティのワークフローをさらに最適化したい、と考えている…マシンインテリジェンスを利用して。同社の自動補完(オートコンプリート)機能を使えば、良質なコードを短時間で書けるようになる。同社はこのほど、Khosla Venturesから200万ドルのシード資金を獲得したことを発表した。

CodotaはEclipsのようなIDEと併用して、そのインテリジェントなコード補完機能を利用する。それは、「あなたが意図するものはこれではないですか?」と短い例示をくれるのではなく、もっと大きなコード集合をリコメンドできる。

協同ファウンダーのDror WeissとEran Yahavは、GitHubやStackOverflowにあるオープンソースのコードを利用してCodotaを作った。その公開コードのすべてを機械学習のモデルに食べさせて、コードブロック全体の高いレベルの意味を認識できるようにした。

テルアビブの本社におけるCodotaのチーム

プログラミング言語は一般言語と同じ構造を共有している部分が大きい。たとえば、語の限りなく多様な並べ方によって、考えや感情を表現する。また、同じコマンドでもコード中でいろんなやり方で表現できる。だからCodotaにとっては、コードがやってることに関する大局的な理解がとても重要だ。コードのミクロな像ではなく、マクロな像を理解することが重要なのだ。

もちろん、自然言語とコードが似ているのは、あるところまでだ。Codotaのチームが説明してくれたところによると、自然言語処理では、意味は語の近辺の複数の語を見て判断する。それに比べるとプログラムはもっと構造性があり、語がどこにあるかによって語の意味が違うことは少ない。だからCodotaはテキストで訓練するだけでなく、プログラムの動作/振る舞いにもフォーカスした。

Codotaを使うとスピードと正確さが向上するだけでなく、Codota自身の発見や教育にも助けられる。Codotaは何百万ものAPIの実装で訓練されているから、ベストプラクティスをデベロッパーに提示できる。IDEの横にCodotaを開いておくと、コード中のおかしい箇所を高輝度表示し、モアベターな代案を示す。その教えは、ライブラリの原作者のコードから直接引用したものが多い。

同社の収益源は、Codotaの利用を、そしてもちろん自分のコードを、社外秘プライベートにしておきたい企業からの使用料だ。今、対応言語はJavaだけだが、言語は今後すこしずつ増やしていく。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

リフォーム仲介のHouzzが巨額$400Mを調達、コマース部門はディープラーニングとARをフル活用

住宅リフォームのHouzzは成長を続けており、再び大きな資金調達に臨もうとしている。同社によるとその金額は4億ドル、複数の報道が告げる評価額は40億ドルだ。

2009年に創業したHouzzはリフォーム仲介サービスのほか、必要な家具や設備を見つけるためのツールも提供している。ユーザーは世界中におり、その市場はアメリカ、イギリス、オーストラリア、フランス、ドイツ、ロシア、日本、イタリア、スペイン、スウェーデン、デンマーク、インドと幅広い。

同社の主な収益源は、各地元のリフォーム店や工事店などの紹介料(リスト掲載料)だが、同社のWebサイトやモバイルアプリからの、ディープラーニングやARを利用した直販にも熱心だ。

昨年の秋に導入したディープラーニングツールは、サイトに載ったユーザーの家の写真を分析して、そこに写っているのと同じような製品を同社のページから買うよう勧める(リコメンドする)。またモバイル上のAR機能で、新しい家具などと今のユーザーの家との相性をチェックできる。

最新の投資ラウンドは、Recodeの報道によるとIconiqがリードし、これまでにHouzzがSequoia, New Enterprise Associates, GGV Capitalなどから調達した2億ドルあまりに上乗せされる。

〔訳注: 写真はHouzzの協同ファウンダーでCEOのAdi Tatarko。このほか、最優秀アプリ賞インパクトの大きい女性ファウンダーなど、記事多し。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ディープラーニングをApache Sparkのクラスターで分散化、サーバーレスでそれができるDatabricksのServerless Platform

今日(米国時間6/6)のSpark Summitの幕開けで最初にボールを蹴ったDatabricksは、Apache Sparkのためのサーバーレスプラットホームを発表した。クラスター管理に費やす時間を短くしたいと願うデベロッパーにとって、良いニュースだ。デベロッパーの仕事をより単純化しようとする動きは、このイベントの全体を貫く大きなテーマでもあった。同社はServerless Platformに加えて、Sparkでディープラーニングフレームワークをより使いやすくするためのライブラリDeep Learning Pipelinesも披露した。

今、クラウドベースのデータ処理技術がどんどん進歩している中で、DatabricksはオープンソースのApache Sparkプロジェクトの商用サービスだ。同社のエンジニアたちはもっぱら、Sparkのエコシステムを支えるツール類を作っている。今日発表された製品も、その一部だ。

大企業における意思決定がますますデータ駆動型になりつつある今日、これから取り組もうとする新しいユーザーにとっては、データパイプラインとクラウドインフラストラクチャの扱いが、目の前に山のようにそびえる大きな課題に見えてしまう。そこに登場したサーバーレスの技術とは、サーバーなしでデータを操作するという意味では決してなく、エンドユーザーがサーバーなどの低レベルの問題にいっさい関わりあうことなく、コンピューティングリソースの管理されたプールから適当なものを選んで、単純に今やるべき仕事をする、という単純化簡素化された新しいタスク構造を指す。

“SQLはステートレスだから扱いも楽だが、データサイエンスにはステートがあるから、それをサーバーレスにするのは難しい”、とDatabricksのCEO Ali Ghodsiは説明する。

ServerlessがDatabricksの幅ないし広さを表すとするなら、Deep Learning Pipelinesはその深さへの挑戦だ。TensorFlowなど、現存するディープラーニングフレームワークは“使いやすい”とはお世辞にも言えないが、でも昔の(AI言語とも呼ばれた)LISPなどに比べたら相当に使いやすい。そのためディープラーニングは今、ますます多くのワークフローに導入されつつある。

“Sparkなどを使ってTensorFlowのタスクを分散化しようとすると、手作業でグラフを作り、どのマシンがどの部分の処理を担当するか、いちいち決めなければならない”、とGhodsiは言う。“100台のマシンを相手にそれを人間がやるとすると、ものすごくたいへんな作業になる”。

Databricksの今度のオープンソースのライブラリを使ってデベロッパーは、ディープラーニングのモデルをSQLのファンクションに変換できる。ユーザーは学習をSpark MLlib Pipelinesで転送し、Sparkの分散コンピューティングが提供する利点を享受する。

なお、Ghodsiによると、DatabricksのStructured Streamingが一般公開された。このAPIは、シーケンシャルデータのストリーミングを処理する。同社によると、Structured Streamingの開発工程では、レイテンシーの最小化が最優先された。それによって、異状検出などのアプリケーションを動かす顧客にとって、費用低減とスピードの向上が実現した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習による画像認識とAR(拡張現実)を結婚させて企業のツールにしたいBlipparが車の車種年式当て技術を発表

自分は、車をよく知ってる方だ、と思う?

でも、Blipparの今度の機械学習技術は、どんなに車通(つう)の人より、すごいかもしれない。この拡張現実/ビジュアル検索企業が今日、自動車を認識する技術を発表したのだ。

BlipparのAIは、2000年以降に作られたアメリカ車のメーカー、車種、そして年式を当てる。ただしその車の現在の速度が15mph以下である場合。

Blipparは最初、企業やパブリッシャーのためのARプラットホームとしてローンチした。Blippと呼ばれる小さなタグを使って、企業はケチャップの瓶のラベルとか雑誌の中の広告などのコンテンツを指定する。ユーザーがそれをスマートフォンのカメラでスキャンすると、その上に拡張現実のコンテンツが現れる。

その後同社は方向を変えて、ビジュアル検索に注力した。Googleの検索は言葉(その物の名前など)を知らないと検索できないが、ビジュアル検索なら、花やファッションなどをカメラで覗くだけでよい。

同社は昨年まで、テーブル、椅子、コップなどなど一般的な物のビジュアル検索を作っていたが、それによって、もっと特定の物をビジュアル検索できるための技術的基盤を獲得した。

その最初の挑戦が、自動車の認識だ。

車種当てで遊んでみたい人のためには、Blipparアプリにこの技術が導入される。メーカー、車種、年式だけでなく、その車の評判や360度写真も見れる(車内と車外両方)。でも同社としての本格的なビジネスは、同じく今日ローンチしたAPIだ。

中古車販売店や保険屋さんは、この自動車認識技術を自分のアプリに組み込み、ビジネスに利用できる。店員や営業は、自分の脳に大量詳細な車種知識がなくても務まるだろう。

現在の認識精度は97.7%以上で、Blipparの主張では、ほとんどの人間の目視判断能力を超えているそうだ。

来年はBlipparから、もっといろんな商品種や業種用の認識技術/APIが登場するだろう。CEO Rish Mitraによると、次はファッションで、もうすぐ出るそうだ。

Crunchbaseによると、Blipparはこれまでに、Qualcomm VenturesやKhazanah Nasionalなどから総額9900万ドルを調達している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

一歳を迎えたGoogleのTPUチップがアップグレード、機械学習/ディープラーニングのすそ野をさらに広げる

Googleが今日(米国時間5/17)のGoogle I/Oカンファレンスで、同社特製の機械学習チップTensor Processing Unit(TPU)の次世代バージョンを発表した。この、機械学習のタスクを高速化する専用チップは、従来のCPUやGPUよりも速いとされているが、昨年の同カンファレンスで発表されて以来、今回が初めてのアップグレードになる。

まず、スピードのアップだ。Googleによると、第二世代のTPUは1基が180TFLOPSの性能を有する。まだベンチマークは見ていないが、スピード以外でも進歩している。第一世代のTPUは既存のモデルを使って推論するだけだが、第二世代はモデルの訓練もできる。モデルの訓練は機械学習のワークフローの中でもとくに重要だが、その全過程をこの強力なチップがやってしまうのだ。

機械学習のモデルとは、たとえば写真に写っているものが木か車か猫かを正しく同定する能力のことだ。機械学習の推論とは、モデルを使って行う確率つきのオブジェクト同定処理だ。たとえば、“この写真に写っているのは85%の確率で木であってブロッコリの茎ではない”、などと推論する。

Googleの今日の声明文によると、同社の大規模な翻訳用のモデルを訓練するのに、市販の最良のGPU 32基を使用してまる一日、その1/8の台数の“TPUポッド”〔64TPUs, 11.5PFLOPS〕では午後の数時間で完了した、という。

GoogleのTenso Flowチップセット。写真提供: Google

このような比較はいつも、よく調べないと正しい意味が分からないが、とにかくGoogleは、GPUより速いと言っている。今日の機械学習の演算では多くの場合、もっとも強力なチップとしてGPUが使われているのだ。

さらにGoogleは、このチップの能力を同社のクラウドプラットホームからSaaSのサービスとして提供している。誰もが気軽に、この世界に入れるように。また、IntelのSkylakeとかNvidiaのVoltaなど、ほかのチップで作ったモデルを、TPUのクラウドへ移植して使うこともできる。

またコストをあまりかけられない試行や研究用には、無料のクラウドサービスTensorFlow Research Cloudがある。そこでは、研究者たちが、クラウド上の1000 TPUのクラスターを利用できる。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

クラウド上で1000 TPUのクラスターをディープラーニングの訓練や推論に使える無料のプログラムをGoogleが外部研究者に提供

Google I/O初日(米国時間5/17)の最後を飾ったのは、研究者たちが無料で同社最先端の機械学習技術を利用できるプログラム、TensorFlow Research Cloudだ。研究者はその上で自分のアプリケーションを動かすことができ、利用にあたって、大学に籍があるなどの資格要件はない。

利用を認められた研究者は、クラウド上の1000 TPUのクラスターにアクセスして訓練や推論処理を実行できる。TPUは、1基の性能が180TFLOPSで、64GBのメモリを自分で持つ。使える時間は、承認されたプロジェクトによって異なる。

承認の条件のひとつは、その研究プロジェクトの詳細が他の研究者によるレビューの可能なメディア上に一般公開され、コードがオープンソースであることだ。公開はまずい、というプロジェクト用にGoogleは、民間企業が社内的に利用できるCloud TPU Alphaというプログラムを準備中だ。

申し込みはまだ完全オープンではないが、Googleに問い合わせれば、記入すべきフォームを指示される。そこに、訓練集合の大きさとか、モデルの訓練に要する時間、モデルの訓練に使用したいプラットホーム、使用するハードウェア、などを記入する。

審査は段階的に行われ、落ちた人はまた新しいプロジェクトで再挑戦するよう、Googleは奨励している。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

モバイル向けに痩身の機械学習/ディープラーニングモデルを作るTensorFlow LiteがGoogle I/Oで発表

今日(米国時間5/17)のGoogle I/OでAndroidの将来について話す中で、エンジニアリング担当VP Dave Burkeは、モバイル向けに最適化されたTensorFlow、TensorFlow Liteを発表した。デベロッパーはこのライブラリを使って、Androidスマートフォンで動く痩身のディープラーニングモデルを作れる。

Googleはこのところますます多くの、Android上で動くAIを使ったサービスを展開しているから、それ専用の小さくて速いモデルを作れるフレームワークを使うのも当然だ。このAPIも年内にはオープンソースでリリースされる予定だ。

昨年はFacebookが、Caffe2Goを発表した。それもやはり、同社のディープラーニングフレームワークCaffeのモバイル用バージョンで、モバイルデバイスに合ったモデルを作れることがねらいだ。Facebookはこれを使ってリアルタイムの写真整形ツールStyle Transferを作り、それはまた、今後のプロダクトやサービスの基盤にもなるものだ。

ただし、モデルを作るための教育訓練は、あまりにも計算集約的な処理なのでスマートフォン上でやるのはまだ無理だ。いや、訓練済みのモデルですら、従来のものはモバイルには重すぎた。でもモデルがデバイス上で使えれば、状況によってはクラウドとインターネットがまったく要らなくなる。スマートフォン上のディープラーニングのパフォーマンスが、より安定するだろう。

TensorFlow Liteは、AIとモバイルデバイスの結合というGoogleのビジョンをさらに前進させる。そしてその次の段階としては、TensorFlow Liteが活躍する場を増やすための、さまざまな専用ハードウェアの開発ではないだろうか。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MicrosoftがAzure上で行なう、ディープニューラルネットワークトレーニングサービスを発表

Buildビルドデベロッパーカンファレンスで、本日(米国時間5月10日)Microsoftは、Azure Batch AI Trainingを発表した。長ったらしい名前だが、その内容をよく表現している名称だ。これはディープニューラルネットワークのバッチトレーニングを、Azureクラウドコンピューティングプラットフォーム上で行なう新しいサービスだ。このサービスは現在プライベートプレビュー中だが、いつ公開プレビューで利用できるようになるのかは不明だ。

Batch AI Trainingとは、基盤となるインフラストラクチャの運用を心配することなく、開発者たちがモデルに集中できるようにするマネージドAIトレーニングサービスだと考えるのがおそらく良いだろう。

現在のところ詳細には欠けるものの、基本的なアイデアは、開発者たちに機械学習モデルを訓練するためのサービスを提供することだ。Microsoftによれば、このサービスはあらゆるフレームワークをサポートするとしている。このため開発者たちは、例えばGoogleのTensorFlowや、マイクロソフト自身のCognitive Toolkit、もしくはCaffeなどを使用できるようになる。

開発者やデータサイエンティストたちは、もちろん、モデルを訓練するために使用する環境を構成することが可能だ(もちろろんプライベートプレビュー後に、このサービスを使用するにはどれくらいの費用がかかるかの因子が決定される)。Microsoftは、開発者たちがその作業負荷を、複数のCPU、GPU、そして長期的にはFPGA上で実行できるという点にも言及している。

[ 原文へ ]
(翻訳:Sako)

ディープラーニングで蜂たちを致死的な害虫から救う養蜂家作のアプリBeeScanning

Makoto Koike(小池誠)のディープラーニングによる胡瓜(きゅうり)選別機のことは、今では誰もが知っている。世界中のホビイストたちが、機械学習を利用して彼らの問題のソリューションをハックしている。先日は、スゥエーデンの養蜂家で発明家のBjörn Lagermanが、エンジニアたちと研究者たちのチームに助けられて、BeeScanningというアプリを作った。このアプリは、スマートフォンで撮ったふつうの写真に巧妙なコンピュータービジョン技術を適用して、蜂のコロニーに危険な害虫(ミツバチヘギイタダニ, Varroa)の兆候を見つける。

蜂に寄生して文字通りその命を吸い取ってしまうそのダニは、蜂と養蜂家の悪夢だ。放置すると、コロニー全体がやられてしまう。だから継続的な監視が必要だが、これまでのダニ発見方法は時間がかかってたいへんだった。でも早期に発見して退治しないと、彼らは指数関数的に増殖してしまう。

そこで、機械学習の知識と技術が役に立つ。蜂の背中の色は黒だが、ダニは赤い。オブジェクト認識のアルゴリズムを使えば、蜂の画像中に害虫を素早く見つけられる。

彼のグループは今、世界中の10000の蜂のコロニーから40000の画像を集めている。それらの画像でモデルを訓練したら、手作業で害虫の数を数えたデータと突き合わせてベンチマークする。その面倒で時間のかかる処理には、蜂をアルコールで洗ってダニを分離する作業も含まれる。

BeeScanningは養蜂家がダニを素早くチェックする方法だが、同時に研究者のコミュニティにとっては、その害虫を研究するための新しいツールでもある。Lagermanは、今の化学薬品を使う処置には長期的な持続性がない、抵抗性のある蜂を見つける方法も必要だ、と強い口調で語る。

BeeScanningはごく最近、Kickstarterに登場した。来月はとりあえず5000ドル、長期的には35万ドルの募金が目標だ。お金の最初の用途は、データベースを作って一般の関心を高めること。Lagermanは12月が締め切りのEuropean Innovation Programなど、サードパーティからのサポートも期待している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ディープラーニング・アプリケーションの開発〜デプロイ過程をシンプルに一元管理するBitfusion Flex

BitfusionがDisrupt NY 2015でローンチしたときは、GPUやFPGAなどのコプロセッサーを利用するコンパイル済みのライブラリをデベロッパーに提供してアプリケーションのスピードを上げる、というビジネスだった。それは2年前のことだ。今では、そんな技術の最大の市場が、ディープラーニングのモデルの訓練だ。同社がローンチしたときには、それらはレーダーに映っていなかった。でも、当然とはいえ、Bitfusionが今まさにフォーカスしているのが、その市場だ。

今日同社は、Vanedge Capitalがリードするラウンドによる500万ドルのシリーズA資金の調達を発表した。そのラウンドには、新たな投資家Sierra Venturesとこれまでの投資家Data Collective, Resonant VC, そしてGeekdomが参加した。同社の計画では、このお金は研究開発の強化に投じられ、そしてとくに、AIプロジェクトの構築と管理を支える、フレームワークを特定しないプラットホームBitfusion Flexにフォーカスされる。

今ベータのBitfusion Flexは、デベロッパーが単一のプラットホーム上でAIアプリケーションのライフサイクル管理ができるようにする。デベロッパーは単一のダッシュボード上で開発、訓練、そしてデプロイまでも実行し管理できる。内部的にFlexはコンテナを使って実験やモデルを複数のローカルマシンやクラウド間で容易にスケールし移動できるようにしているが、しかしベアメタル上のデプロイもサポートしている。

ただしFlexは、モデリングそのものを容易にしてくれるわけではない。TensorFlow, Torch, Caffeなど、フレームワークの選択とセットアップはアプリストア的なインタフェイスでできるが、その強みは、これらのアプリケーションを作って動かすために必要なインフラストラクチャの管理にある。したがってFlexは、フレームワークのことは気にしないし、またアプリケーションをどこへデプロイするのかも気にしない。

このサービスを利用して行う工程の管理は、Web上(ブラウザー上)のインタフェイスからでもできるし、またコマンドラインインタフェイスからでもできる。そしてたとえば開発時には、リモートのGPUをローカルなラップトップから使ったりできるのだ。

BitfusionのCEOで協同ファウンダーのSubbu Ramaはこう語る: “ディープラーニングのプロジェクトは、現状ではプロトタイプから先へ進めない人が多い。今は至るところで猫も杓子もディープラーニングをやりたがるが、Global 2000社には人がいない”。そこでBitfusionはFlexでもって、インフラストラクチャの管理という面倒な仕事を抽象化し、企業がやっと雇えたデータサイエンティストたちがアプリケーションに集中できるようにする。

Flexのベータ終了は数か月後の予定だ。オースチンに本社のある同社は、今後シリコンバレーでのプレゼンスを大きくしたい。ただし研究開発の多くは今後もずっと、オースチンでやっていきたい、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebookが最初のCaffeに大きな柔軟性を持たせたディープラーニングフレームワークCaffe2をオープンソース化

今日(米国時間4/18)FacebookはCaffe2をオープンソースにした。それは、最初のCaffeに次ぐディープラーニングフレームワークで、そのCaffeはカリフォルニア大学バークリー校で始まったプロジェクトだ。Caffe2は、効率的にデプロイできる高性能な製品を作ろうとするデベロッパーに、大幅な柔軟性を与える。

FacebookがCaffeのコミュニティにエンゲージするのは、これが初めてではない。10月にはCaffe2Goを発表したが、それはいわば、モバイルのCPUとGPU向けに最適化されたCaffe2だ。そもそも、名前の中に‘Caffe2’がある。そのときCaffe2Goが注目されたのは、リリース時期がたまたまStyle Transferと一致したからだ。

もうひとつ注目すべきは、同社が最初のCaffeのエクステンションをリリースしたことだ。それによってCaffeが、大きなオーディエンス向けのサービスを構築しているデベロッパーにとって、魅力的になった。Facebookは従来、リソースをそれほど必要としないディープラーニングのプロジェクトには、研究用途向けに最適とされるTorchライブラリ〔2015年にオープンソース化〕を使ってきた。

でも最近のテクノロジー企業はどこも、自社の機械学習フレームワークはスケーラビリティが優れている、と強調するようになった。Caffe2の開発リーダーYangqing Jiaは、MXNetと、スケーラビリティをめぐるAmazonの主張 をどう思っているだろうか。彼は比較のためのベンチマークにあえて言及しないが、しかしそれはベンチマークが無意味だからではなく、そもそも機械学習アプリケーションの性能は実装に大きく左右されるし、また学習モデルの質にも依るからだ。しかもそれらにはほぼ必ず、“DIY的な”バラつきや変動がつきまとう。

Caffe2のリーダーYangqing Jiaと事業開発のリーダーAlex Yu

“フレームワークというものには多かれ少なかれ必ずスケーラビリティの問題がつきまとうが、そんな中でCaffe2は、頭一つぐらい他を抜いていると思う”、とJiaは説明する。

Facebookは、Caffe2とPyTorchの両方に多くのリソースを注いでいる。今日の発表には、ハードウェアとデバイスとクラウドのレベルでのパートナーシップが伴っている。Caffe2の事業開発を統轄するAlex Yuは、どのカテゴリーでもパートナーとしてマーケットリーダーをねらった、と言っている。たとえばハードウェアではNvidiaやIntel、デバイスではQualcomm、クラウドではAmazonとMicrosoft、といったぐあいだ。この中にGoogleの名はないが、Google Cloud Platformとのパートナーシップも、今後無視されることはありえない。

Caffe2はリリースの前から、Facebook内部で大々的にデプロイされてきた。また、元のCaffeと同じく、デベロッパーコミュニティの育成にも力を入れる。CaffeからCaffe2へのモデルへの変換は、ユーティリティスクリプトで簡単にできる。ドキュメンテーションとチュートリアルはFacebookが提供、そしてCaffe2のソースコードはGitHub上にある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

数学知識もいらないゼロからのニューラルネットワーク入門

【編集部注】本記事はGumGumOphir Tanz(CEO)とCambron Carter(画像認識チームのトップ)によって共同執筆された。GumGumはコンピュータービジョンに特化したAI企業で、広告からプロスポーツまで世界中のさまざまな分野にAI技術を応用しようとしている。カーネギーメロン大学で学士・修士(いずれも理学)の学位を修めたTanzは、現在ロサンゼルス在住。一方、GumGumで幅広い分野に対応したコンピュータービジョン・機械学習ソリューションの設計に携わっているCarterは、ルイスビル大学で学士(物理学、電子工学)・修士(電子工学)の学位を修めた。

これまでに人工知能(AI)関連の記事を読んだことがある人であれば、ほぼ間違いなく”ニューラルネットワーク”という言葉を目にしたことがあるだろう。ニューラルネットワークとは、大まかな人間の脳の仕組みを模したモデルで、与えられたデータを基に新しい概念を学習することができる。

機械学習の一分野であるニューラルネットワークこそ、長く続いた”AI冬の時代”を終わらせ、新時代の幕開けを告げたテクノロジーなのだ。簡単に言えば、ニューラルネットワークは業界の根底を覆すような、現存するテクノロジーの中でもっともディスラプティブな存在だ。

そんなニューラルネットワークに関するこの記事の目的は、読者のみなさんがディープラーニングについて会話ができるようになるくらいの理解を促すことにある。そのため、数学的な詳しい部分にまでは入らず、なるべく比喩やアニメーションを用いながらニューラルネットワークについて説明していきたい。

力ずくの思考法

AIという概念が誕生してからまだ間もない頃、パワフルなコンピューターにできるだけ多くの情報とその情報の理解の仕方を組み込めば、そのコンピューターが”考え”られるようになるのでは、と思っている人たちがいた。IBMの有名なDeep Blueをはじめとする、チェス用のコンピューターはこのような考えを基に作られていた。IBMのプログラマーたちは、十分なパワーを持ったコンピューターに、あらゆる駒の動きや戦略を余すことなく入力することで、理論上はそのコンピューターが駒の動き全てを予測し、そこから最適な戦略を編み出して相手に勝つことができると考えたのだ。実際に彼らの考えは正しく、Deep Blueは1997年に当時の世界チャンピオンに勝利した*。

Deep Blueで採用されたようなモデルでは、「こうなったらこうして、ああなったらああする」といった感じで、予め膨大な時間をかけて定められたルールに基いてコンピューターが駒を動かしている。そのため、これは強力なスーパーコンピューティングとは言えても、人間のように柔軟性がある学習モデルとは言えない。というのも、コンピューター自体が”考えている”わけではないからだ。

機械に学び方を教える

そこで科学者たちは過去10年のあいだに、百科事典のような膨大なメモリに頼らず、人間の脳のようにシンプルでシステマチックにデータを分析するという、古くからあるコンセプトに再び目を向けることにした。ディープラーニングやニューラルネットワークとして知られるこのテクノロジーは、実は1940年代から存在している。しかし、当時は考えられなかったほどの量の画像や動画、音声検索、検索行動といったデータを入手でき、安価なプロセッサが普及した今になって、ようやくその本当の可能性が花開き始めたのだ。

機械と人間は似たようなもの!

人工ニューラルネットワーク(Artificial Neural Network=ANN)は、音声操作からプレイリストのキュレーション、作曲、画像認識まで、全てをコンピューターに学習させることのできるアルゴリズムだ。一般的なANNは何千という数の人工ニューロンから構成されていて、何百万通りにも繋がりあった人工ニューロンが複数のレイヤー(または層)を形成している。また多くの場合、あるレイヤーと別のレイヤーを接続するときには、入力側か出力側にしか接続できないようになっている(人間の脳内にあるニューロンはあらゆる方向に繋がり合うことができるため、両者にはかなりの差がある)。

出典: GumGum

今日の機械学習では、この多層型のANNが広く利用されており、そこに大量のラベル付きのデータを与えることで、AIがそのデータを人間のように(ときには人間よりも上手く)理解できるようになる。

現実世界で親が子どもにリンゴとオレンジの見分け方を教えるときのように、コンピューターも練習を積めばふたつを見分けられるようになるということだ。

例えば画像認識においては、畳み込みニューラルネットワーク(Convolutional Neural Network=CNN)というタイプのニューラルネットワークが使われている。数学の畳み込みと呼ばれるプロセスから名前がつけられたCNNは、一部が見づらくなっている物体や一定の角度からしか見えないような物体が含まれている画像も非線形解析することができる(他にも再帰型ニューラルネットワークや順伝播型ニューラルネットワークなど、さまざまなタイプのものが存在するが、これらのニューラルネットワークは私たちが以下の例で取り上げている画像認識には向いていない)。

トレーニングの流れ

それではニューラルネットワークはどのように学習するのだろうか?極めてシンプルかつ効果的な、教師あり学習という手法を見てみよう。この手法では、ニューラルネットワークに人間がラベル付けした大量のトレーニングデータが与えられるため、ニューラルネットワークは自分で答え合わせができるようになっている。

リンゴとオレンジというラベルが付いた画像で構成されたトレーニングデータを思い浮かべてみてほしい。画像がデータ、それぞれの画像に対応している”リンゴ”、”オレンジ”という名前がラベルだ。トレーニングデータを受け取ったニューラルネットワークは、それぞれの画像を細かな要素(エッジ、テクスチャ、形など)に分解し始める。そして画像がネットワーク中を伝播していく中で、それらの要素が組み合わさって抽象的な概念を構築していく。曲線や色に関する情報が合わさって、茎やオレンジ、緑・赤のリンゴという絵が浮かび上がってくるといった具合だ。

このプロセスが終わると、ネットワークは画像に何が写っているかについての予測を立てようとする。そもそもまだ何も学習していないので、最初はこの予測が全くの当てずっぽうのように見えるだろう。そして、入力された画像がリンゴなのに、ネットワークがオレンジと予測したとすれば、ネットワーク内のレイヤーに修正を加えなければならない。

バックプロパゲーション(または誤差逆伝播法)と呼ばれるプロセスを通じて修正が行われると、次に同じ画像が与えられたときに、ネットワークがその画像をリンゴだと判断できるようになる確率が上がる。この作業は予測がほぼ正確になり、改善の余地がなくなったと感じられるくらいまで繰り返される。現実世界で親が子どもにリンゴとオレンジの見分け方を教えるときのように、コンピューターも練習を積めばふたつを見分けられるようになるということだ。もしもこの時点で「あれ、これって機械が何かを学んでるんじゃないかな?」と感じた人がいれば、その人はAIの分野で働けるかもしれない。

レイヤーに次ぐレイヤー

一般的に、畳み込みニューラルネットワークには、入出力用のレイヤーを除いて以下の4つのレイヤーが必ず含まれている。

  • 畳み込み層
  • アクティベーション層
  • プーリング層
  • 全結合層

畳み込み層

最初の畳み込み層(複数の畳み込み層が重なっていることもある)では、何千個ものニューロンが第一のフィルターとして機能し、画像内の各ピクセルにスコアを付けながらパターンを見つけようとする。処理された画像の数が増えるにつれて、それぞれのニューロンが画像の特徴的な箇所をフィルタリングするようになり、精度が向上していく。

リンゴを例にとると、あるフィルターは赤い色を探している一方で、別のフィルターは曲がったエッジを探し、さらに別のフィルターが細い棒のような茎を探しているかもしれない。引っ越しやガレージセールのために、散らかった倉庫を片付けたことがある人(もしくは業者に片付け作業をお願いしたことがある人)であれば、モノをまとめて(本、おもちゃ、電子機器、アート、服などへ)分類していく作業についてよく知っていることだろう。畳み込みレイヤーも同じような作業を通じて、画像をピクセルの特徴ごとにバラバラにしていっているのだ。

ニューラルネットワークの利点のひとつは、非線形学習ができることだ。

ニューラルネットワークが有名になった要因のひとつで、これまでのAI手法(Deep Blueなど)とは異なる強力な特徴として挙げられるのが、前述のようなフィルターを人間がつくる必要がないということだ。つまりネットワーク自体が、データを解析しながら処理方法を改善していくのだ。

畳み込み層の役割は、特徴マップと呼ばれる、もともとの画像がフィルターごとに分解されたものを生成することだ。そして特徴マップには、各ニューロンが画像のどの部分で赤い色や茎、曲線といったリンゴを特徴付ける要素を(どんなに部分的であっても)発見したかという情報が含まれている。しかし、畳み込み層はかなり自由に特徴を検知するようになっているため、画像がネットワーク内を伝播していく中で見落としがないか確認するような仕組みが必要になってくる。

アクティベーション層

ニューラルネットワークの利点のひとつは、非線形学習ができることだ。これはどういうことかと言うと、あまりハッキリと表れていない特徴も見つけることができるということだ。つまり、リンゴの木の写真に写った直射日光を受けているリンゴや影に隠れたリンゴ、さらにはキッチンカウンターのボールの中に山積みになったリンゴもニューラルネットワークを使えば認識することができる。これは全て、明らかなものも見つけにくいものも含め、重要な特徴をハイライトするアクティベーション層のおかげなのだ。

先述の片付けの様子を思い浮かべてほしい。今度は分別を終えた山の中から、珍しい本や今となっては皮肉にさえ見えるような学生時代に着ていた懐かしいTシャツなど、やっぱり残しておきたいと感じたお気に入りのモノを抜き出すとしよう。これらの”もしかしたら”というモノを、後で見直せるようにそれぞれの山の上に置いておくというのが、アクティベーション層の役割だ。

プーリング層

画像全体に”畳み込み”を行った結果、かなりのボリュームの情報が生成されるので、すぐに計算が面倒になってしまう。そこでプーリング層を使うことで、膨大な量のデータをもっと処理しやすい形に変換することができる。やり方はさまざまだが、もっとも人気のある手法が”マックスプーリング”だ。マックスプーリングを行うと、畳み込みで生成された特徴マップの要約版のようなものが作られ、赤い色や茎っぽさ、エッジの曲がり具合といった特徴がもっともハッキリと表れている部分だけが残される。

再度片付けの例を引っ張りだし、片付けコンサルタントとして有名な近藤 麻理恵氏の哲学を応用すれば、それぞれの山のお気に入りのモノの中から本当に”ときめく”モノだけを選んで、残りは全て売るか捨てるというのがプーリング層の役割だ。そうすると、本当に大切なものだけがカテゴライズされたままで手元に残ることになる(ちなみに、ニューラルネットワークの中で起きるフィルタリングやコンパクト化の作業の理解を促すための、片付け作業を用いた説明はここで終わりだ)。

ニューラルネットワーク設計者は、残りのレイヤーも同様に畳み込み層・アクティベーション層・プーリング層と積み重ねていくことで、より次元の高い情報だけ残すことができる。リンゴの画像で言えば、最初はほとんど認識できなかったようなエッジや色や茎も、何層にも重なり合ったレイヤーを通過していくうちに、その姿がハッキリと浮かび上がってくる。そして最終的な結果が出る頃に、全結合層が登場する。

出典: GumGum

全結合層

そろそろ答え合わせの時間だ。全結合層では、コンパクト化された(もしくは”プール”された)特徴マップが、ニューラルネットワークが認識しようとしているモノを表す出力ノード(またはニューロン)に”全て結合”される。もしもネコ、イヌ、ギニアピッグ、スナネズミを見分けることがネットワークのゴールであれば、出力ノードは4つになる。私たちの例で言えば、出力ノードは”リンゴ”と”オレンジ”のふたつだ。

もしも、トレーニングをある程度経て既に予測精度が上がってきたネットワークにリンゴの画像が入力された場合、特徴マップのほとんどにはリンゴの特徴をハッキリと示す情報が含まれているはずだ。ここで最後の出力ノードが逆選挙のような形で、その役目を果たすことになる。

新しい画像がネットワーク内を伝播したときの認識精度が上がるように、それぞれのレイヤーのニューロンに修正が加えられる。

リンゴとオレンジの出力ノードの(”オンザジョブ”で学習した)仕事は、それぞれの果物の特徴を示す特徴マップに”投票”することだ。つまり、ある特徴マップに含まれるリンゴの特徴が多ければ多いほど、その特徴マップに対するリンゴノードの投票数は多くなる。そしてどちらのノードも、それぞれの特徴マップが含んでいる情報に関係なく、全ての特徴マップに対して投票しなければならない。そのため、トレーニングが進んだニューラルネットワーク内では、全ての特徴マップに対するオレンジノードからの投票数が少なくなる。というのも、特徴マップにはオレンジの特徴がほとんど含まれていないからだ。最終的に投票数の1番多いノード(この場合で言えばリンゴノード)が、このネットワークの”回答”となる。実際にはもっと複雑だが、大体このようなプロセスでニューラルネットワークは画像を処理している。

同じネットワークがリンゴとオレンジという別のモノを認識しようとしているため、最終的なアウトプットは、「リンゴ:75%」「オレンジ:25%」といった感じで確率で表示される。もしもトレーニングが不十分でネットワークの精度が低ければ、「リンゴ:20%」「オレンジ:80%」といった結果が表示される可能性もある。

出典: GumGum

答えが間違っていれば繰り返しあるのみ

初期の段階にあるネットワークでは、不正解が続出するのが普通だ。「リンゴ:20%」「オレンジ:80%」というのは完全な間違いだが、ここではラベル付きのデータを使った教師あり学習を採用しているため、ネットワークはバックプロパゲーションを使い、どこでどのように間違ったかというのを自動的に解析できるようになっている。

冒頭の約束通り数学無しで説明すると、バックプロパゲーションとは、あるレイヤーのノードがひとつ前のレイヤーのノードに対して、自分たちの回答と実際の答えがどのくらいかけ離れていたかを伝える仕組みを指している。後ろのレイヤーからのフィードバックを受け取ったレイヤーは、さらにもうひとつ前のレイヤーに情報を伝え、その後も伝言ゲームのように畳み込み層まで情報が伝わっていく。そして新しい画像がネットワーク内を伝播したときの認識精度が上がるように、それぞれのレイヤーのニューロンに修正が加えられることになる。

その後も、ネットワークがリンゴとオレンジを100%の確率(多くのエンジニアは85%を許容値としているが)で当てられるようになるまで、このプロセスが何度も繰り返される。そしてトレーニングが完了すれば、そのネットワークは晴れてプロとして、リンゴとオレンジを認識する仕事に就くことができる。

*GoogleのAI囲碁プログラムAlphaGoは、ニューラルネットワークを使って盤面を評価しながら最終的に人間の棋士を破ったが、Deep Blueは人間によって記述された指示を基に戦っていたという点で異なる。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

Googleの機械学習専用カスタムチップはGPU/CPUマシンの15〜30倍速い…同社ベンチマークを発表

【抄訳】
Googleが同社の機械学習アルゴリズムを高速に実行するカスタムチップを独自に開発したことは、前から知られていた。その Tensor Processing Units(TPU)と呼ばれるチップが初めて公開されたのは、2016年の同社のI/Oデベロッパーカンファレンスだったが、詳しい情報は乏しくて、ただ、同社自身の機械学習フレームワークTensorFlowに向けて最適化されている、という話だけだった。そして今日(米国時間4/5)初めて、同社はこのプロジェクトの詳細ベンチマークを共有した。

チップの設計をやってる人なら、Googleのペーパーを読んで、TPUの動作に関するややこしいすばらしい詳細情報を理解できるだろう。でもここで主に取り上げたいのは、Google自身のベンチマークの結果だ(客観的な第三者の評価ではない)。それによるとTPUは、Googleの通常の機械学習のワークロードを、標準のGPU/CPU機(IntelのHaswellプロセッサーとNvidia K80 GPUs)より平均で15〜30倍速く実行できた。また、データセンターでは電力消費が重要だが、TPUのTeraOps/Wattは30〜80倍高い。将来は高速メモリの使用により、これよりもさらに高くなるという。

なお、これは実際に使われている機械学習モデルを使った場合の数字であり、モデルの作成は関わっていない。

Googleによると、一般的にこの種のチップはconvolutional neural networks畳み込みニューラルネットワーク、画像認識などによく使われる)向けに最適化されることが多いが、Googleのデータセンターのワークロードではこの種のネットワークは全体の約5%にすぎず、大多数はmulti-layer perceptrons(多層パーセプトロン)のアプリケーションだ、という。

【中略】

Googleには、TPUを自分のクラウドの外で可利用にする気はないようだが、しかし同社は、これを勉強した誰かが将来、彼らが作る後継機により、“バーの高さをさらに上げる”ことを期待する、と言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

専門知識なしで動画からオブジェクト検出 ― Matroidが本日ローンチ

画像が何千語分もの情報をもつとしたら、ビデオはその数字にフレームレートを掛けあわせた分の価値があることになる。本日ローンチしたコンピュータービジョンのMatroidは、誰もがビデオの中に含まれた情報を活用できるようになるサービスだ。直感的に操作できる同社のWebプラットフォームを利用することで、ビデオに映る人物やその他のオブジェクトを検出するディテクターをつくることができる。

Matroid創業者のReza Zadeh氏はスタンフォード大学で非常勤の教授を務める人物。彼が最初にこのビジネスの構想を思いついたのは約10年前だった ― そして今、彼は民主化が進むコンピュータビジョンの分野に参入することとなった。Matroidの得意分野は、医療画像などの中にある情報を取り出すことではなく、ビデオからオブジェクトを検出することだ。

Matroidのユーザーは、オブジェクトを検出するディテクターを構築するためにTensorFlowやGoogle CloudのVideo Intelligence APIを利用する必要はない。必要なのは、みずからが用意したトレーニングセットをアップロードするか、何百万もの画像からなるMatroidのライブラリから必要なものを選択することだけだ。Matroidはトレーニング・プロセスの最中に画像や動画を処理することができる。インプットの処理には複数のニューラルネットワークが利用されている。Matroidにビデオをアップロードすると、そこに映る重要なオブジェクトに四角形の枠を重ねるように指示される。そうすることでディテクターをトレーニングすることができるのだ。

Metaroidを使って監視カメラ用のディテクターをつくり、殺人容疑がかけられた人物の無罪を証明するという例を考えてみよう。映画「My Cousin Vinny(邦題:いとこのビニー)」のJ・ペシを救うのだ(日本版注:いとこのビニーは、J・ペシが演じるビニーがスーパーマーケットを訪れた際に強盗殺人犯に間違われてしまうというストーリー。ビニーの愛車はメタリックミント色のビュイック・スカイラーク)。そのために必要なのは、1964年製のビュイック・スカイラークの画像と自動車のコマーシャルビデオなどを使ってディテクターをトレーニングすることだけだ。そして、そのディテクターを使ってスーパーマーケットの監視カメラにビニーの愛車が映っているかどうか確かめればいい。

MetaroidはNielsenなどの企業と手を結び、テレビや他のメディアの動画コンテンツから有益な情報を抜き出すビジネスを展開する予定だ。Appleを例にすれば、iPhoneやMacBookがHBOのテレビドラマに登場する回数を数えるなどのユースケースが考えられる。しかし、Metaroidが活躍するのは広告関連の分野だけではない。例えば、監視カメラの映像を確認するという作業の一部をMetaroidによってオートメーション化することができる。動物や風に揺れる木を無視して、人間や自動車だけを検出するディテクターをつくればいいのだ。

Metaroidはこのユースケースからマネタイズしようとしていて、ストリーミング動画のモニタリングに課金する予定だ。また、データを社外に持ち出すことを嫌う企業に対しては、ローカルに動作するアルゴリズムを有料で提供する。また、Metaroidはビデオに映る光エフェクトを検出したいなどの特定のニーズにも対応できる。YouTube動画に映るバットマンを検出するのは無料だ。

Metaroid創業者兼CEOのReza Zadeh氏

Zadeh氏率いるMetaroidのチームは現在、コンピュータービジョンのマーケットプレイスを構築しようとしている。これが実現すれば、エキスパートたちがより高度にカスタマイズされたディテクターを販売できるようになる。ディベロッパーたちを惹きつけるため、彼らはビジュアライゼーション・ツールを同社のプラットフォームに追加する予定だ。また、同社はTensorFlowを使ったツール内部の大半を公開している。

「ディテクター分野で最大のシェアを持ちたいと考えています」とZadeh氏は話す。

Matroidがサステイナブルな価値を提供するためには、コミュニティをできるだけ早く形成することが必要だ。そのため、Zadeh氏はScaled Machine Learningと呼ばれるカンファレンスを主催したり、TensorFlowの使い方を学ぶための場を設けるなど、機械学習コミュニティで盛んに活動している。

これまでにMatroidはNEAからの資金調達を完了している。Matroidがコミュニティを早期に形成し、彼らのプラットフォームのユーザーが増えてこれば、NEAはこの投資から利益を上げることができるだろう。

[原文]

(翻訳: 木村拓哉 /Website /Facebook /Twitter

Kaggleを買収したGoogleが早くもコンペの主催者に…機械学習のユニークなアプリケーションで賞金100万ドル、7社のVCが協賛

Googleはデータサイエンスのコミュニティ(コンペの主催プラットホーム)Kaggle買収に続いて、今度はGoogle自身が機械学習のコンペを開催することになった。Googleはとくに、機械学習に革新的な姿勢で臨んでいる若いスタートアップに期待している。

このコンペはSequoia, KPCB, GV, Data Collective, Emergence Capital, Andreessen Horowitz, Greylock、計7社のVCがパートナーとして賛助する。そしてData CollectiveEmergence Capitalは、優勝者の賞金100万ドルを半分の50万ドルずつ折半する。

応募資格としてGoogleのサービスの利用はないが、Google CloudとTensorFlowを使う応募者にはそれなりの副賞がある。すなわち“Build with Google”賞(Googleで作ったで賞)は、100万ドルぶんのGCP(Google Cloud Platform)クレジットとGoogle Cloudのエンジニアからの協力、そしてG Suiteの12か月の利用権10名ぶんだ。この賞の次位企業は、優勝者の半分のGCPクレジットと、そのほかの副賞(優勝者と同じ)を授与される。また、予選を通過した全社は、20万ドルぶんのGCPクレジットと、優勝者と同じG Suite利用権が得られる。

審査の基準は、機械学習の実装の‘ユニークさ’とされる。VCの一般的な基準、たとえばスケーラビリティとか、プロダクトの市場適性、スキル力、チームの結束力なども勘案される。

Googleは、テクノロジー系のスタートアップだけでなく、医療、エネルギー、リテールなどさまざまな専門分野からの応募も期待している。Googleにもコンペを主催した経験は過去にあるが、データサイエンスや機械学習のコミュニティへの訴求は、今週初めに行われたKaggleの買収に負うところが大きい。一方KaggleのCEO Anthony Goldbloomは、この買収によってコミュニティがGoogle Cloudをより高度に利用できる点が魅力、と言っている。

応募企業は、これまでの資金調達額が500万ドル未満であることと、アメリカ合衆国の法人であることが条件だ。応募の受け付けは、今日(米国時間3/10)から4月16日までだ。予選通過者が決まるのは6月、そして最終決戦は夏の終わりごろになる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))