一歳を迎えたGoogleのTPUチップがアップグレード、機械学習/ディープラーニングのすそ野をさらに広げる

Googleが今日(米国時間5/17)のGoogle I/Oカンファレンスで、同社特製の機械学習チップTensor Processing Unit(TPU)の次世代バージョンを発表した。この、機械学習のタスクを高速化する専用チップは、従来のCPUやGPUよりも速いとされているが、昨年の同カンファレンスで発表されて以来、今回が初めてのアップグレードになる。

まず、スピードのアップだ。Googleによると、第二世代のTPUは1基が180TFLOPSの性能を有する。まだベンチマークは見ていないが、スピード以外でも進歩している。第一世代のTPUは既存のモデルを使って推論するだけだが、第二世代はモデルの訓練もできる。モデルの訓練は機械学習のワークフローの中でもとくに重要だが、その全過程をこの強力なチップがやってしまうのだ。

機械学習のモデルとは、たとえば写真に写っているものが木か車か猫かを正しく同定する能力のことだ。機械学習の推論とは、モデルを使って行う確率つきのオブジェクト同定処理だ。たとえば、“この写真に写っているのは85%の確率で木であってブロッコリの茎ではない”、などと推論する。

Googleの今日の声明文によると、同社の大規模な翻訳用のモデルを訓練するのに、市販の最良のGPU 32基を使用してまる一日、その1/8の台数の“TPUポッド”〔64TPUs, 11.5PFLOPS〕では午後の数時間で完了した、という。

GoogleのTenso Flowチップセット。写真提供: Google

このような比較はいつも、よく調べないと正しい意味が分からないが、とにかくGoogleは、GPUより速いと言っている。今日の機械学習の演算では多くの場合、もっとも強力なチップとしてGPUが使われているのだ。

さらにGoogleは、このチップの能力を同社のクラウドプラットホームからSaaSのサービスとして提供している。誰もが気軽に、この世界に入れるように。また、IntelのSkylakeとかNvidiaのVoltaなど、ほかのチップで作ったモデルを、TPUのクラウドへ移植して使うこともできる。

またコストをあまりかけられない試行や研究用には、無料のクラウドサービスTensorFlow Research Cloudがある。そこでは、研究者たちが、クラウド上の1000 TPUのクラスターを利用できる。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

売掛金管理のYayPayは機械学習を利用して向こう二か月のクライアントごとの入金日を予測する

大きなクライアントをたくさん抱えている会社では、今後の入金〜口座残高を細かく正確に予測することが難しい。そこでYayPayは、未入金の請求に関する‘天気予報’を提供する。それをもとに、大きなプロジェクトの着手の是非を判断できるだろう。

YayPayは本誌主催のDisrupt Londonでローンチした。同社は企業の売掛金管理を助け、どこにどれだけの未入金があるかが、すぐに分かるようにする。常時大量のクライアントを抱えている企業なら、発行した請求書の個々のステータスが簡単に‘現状不明’になってしまう。YayPayはそれを防ぐ。

YayPayは、彼らの支払いを早めることを目指して、そこに至るための多くのステップを自動化する。既存の主なERPソリューションと統合し、チームによるコラボレーションもサポートしている。過去のデータ(履歴データ)も見られる。

今日(米国時間5/12)のアップデートでは、すべてのクライアントのデータを総合して、全体的な状況を理解できるようになった。たとえば、期限が××月××日までの請求を全部見たい、とか。各クライアントが実際に払うであろう日にちも予測するが、それには予言の確度がパーセンテージで表される。

そしてYayPayは、向こう8週間の入金キャッシュフローをグラフで見せる。またそれらを、個別のクライアントごとに見ることもできる。

同サービスは、顧客の支払い習慣や行動を機械学習で記憶し、それをもとに支払日を予測する。売掛金を複数の部署で分割して管理している場合でも、人間の当てずっぽうに頼らずに、実際の支払い…確実部分と不確実部分…に集中できる。

  1. yaypay-invoice-prediction.png

  2. yaypay-monthly-cash-flow-prediction.png

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

SalesforceはAIで電子メールとドキュメントを要約し、あなたの時間を節約しようとしている

1日に6時間以上も電子メールの処理に時間をとられる米国人労働者もいる ― 私たちはこんな研究を目にしてきている。それは時間の有効な使い方ではなく、生産性を損ない、最終的にはビジネスコストに跳ね返る。SalesforceのMetaMind研究者のチームが書いた新しい論文によれば、最終的にはプロフェッショナルコミュニケーションのサマリーを提供することができる。もし研究がいくつかの不都合を解決することができれば、より効果的なテキストサマリーツールが、Salesforceユーザーたちに素晴らしい価値をもたらしてくれるものだ。

特に非常に長いテキストブロックを処理する場合に、機械学習を使用してテキストサマリーを作成することは容易ではない。サマリーを生成するために、単純にソーステキストを頼りにする手法はあまり柔軟ではなく、全く新しい文章を生成する手法はしばしば支離滅裂な文を生み出す。

Salesforceは後者の手法の精度を高めようとしている。すなわち新しい文章でサマリーを生成しようとしているのだ。標準的な方法へに対してチームが行った変更には、強化学習の追加と、反復的な文書の削除、そして精度の最大化のために使える文脈量の増加などが含まれる。

Salesforceによって生成されたサマリーの例

強化学習を用いて、最適な振舞が確立される。この場合は、既存のテストによる正確性が最大化するように測定が行われる。そしてモデルが連続したサマリーを返す度に、その正確性に対するスコアをモデルにフィードバックする。モデルはそのスコアを参考にして、次回はより高いスコアを得ることができるように適応の努力を行なう。

この手法について想像するための簡単な手段としては、無制限に再試を受けられる模擬試験を大学で受けている状況を想像してみると良い。模擬試験を受ける度に、あなたは実際の試験での成績を最大化することを狙って、勉強の戦略を変更する。人間ならば、それを上手くやるためにはそれほどの繰り返しを必要としないだろうが、機械はかなり多くの試行錯誤を行なう必要がある。

強化学習は、文章生成を必要とするタスクでは徐々に一般的になりつつある。強化後に変更されたモデルは、ソース文書のコンテキスト情報も使用して、関連する新しい文章の生成を支援し、重複するフレーズを減らす。

SalesforceはそのアプローチをROUGE(Recall-Oriented Understudy for Gisting Evaluation)テストで評価している。ROUGEは、生成されたサマリーの精度の高速分析を可能にする一連のテスト手法である。

テストでは、生成されたサマリーの断片を、受け入れ済みのサマリーの断片と比較する。テストのバリエーションは、異なる長さの断片を一致させようとするだけだ。以前の試みよりも、Salesforceの手法は、2〜3ポイント高いスコアを達成している。これはあまり大きな違いではないように思えるかもしれないが、機械学習の世界ではとても大きなことだ。

すべての研究と同様に、まだ実用上成熟しているものとは言えない。しかし、この研究は幾つかのことを示している。ピンと来ていないひとのために言うと、SalesforceはCRMへのマシンインテリジェンスの適用に真剣に取り組んでいる。その中での最初の大切な目標の1つがセールスを支えるテキストサマリー技術なのだ。

[ 原文へ ]
(翻訳:Sako)

Nvidiaの利益、前年の2倍以上と絶好調――機械学習、ディープラーニングが追い風

Nvidiaのビジネスは絶好調だ。GPU事業は急拡大を続けており、自動運転テクノロジーなどへの巨額の投資も成功しつつある。先ほど発表された四半期決算を受けて株価は時間外取引で10%以上アップした。

2017年第1四半期の決算でNvidiaは5億700万ドルの純利益を上げたと発表した。これは前年同期の2億800万ドルから2倍以上の大幅アップだ。これと同時に売上も前年同期比で48%増加した。Nvidiaの急速な成長の原因は、自動運転や自然言語理解のようなディープラーニングによるコンピューター処理を担うGPUの需要が急増した点にある。

これによってNvidiaの前には、まったく新しい成長市場が開かれた。ウォールストリートはこの展開に強い好感を抱いたようだ。Nvidiaは以前からグラフィックスとゲーム用ボードの代名詞だったが、今や多くの企業、ことに人工知能を利用しようと試みるスタートアップにとって必須のハードウェア供給元になっている。膨大なデータを利用し、その場で効率的に処理するモデルにはNvidiaのカードが欠かせない。

AI以外の分野でもNvidiaのビジネスは好調だ。特にTegraプロセッサの売上は3億3200万ドルと倍増した。これには任天堂Switchのリリースが大きく貢献しているはずだ。

当面Nvidiaは投資家にとって金の卵を生む存在だ。もちろん現在の経営が順調だということは将来に渡ってGPUビジネスでライバルに脅かされずに済むことを保障しない。たとえばGoogleは機械学習のアルゴリズムを直接実行できるTPUチップの内製に取り組んでいる。人工知能全般に対する需要は高まっているが、そのうちで自動運転のような特定の分野に特化していくのがNvidiaの方針だ。

ちなみにここ1年のNvidiaの株価の動きは下のグラフのようになっている。

Nvidiaの今期の決算はウォールストリートのアナリストの予想を上回った。売上19.4億ドルの売上に対して1株あたり利益0.79ドルをもたらした。アナリストは19.1億ドルに対して0.67ドルだった。Nvidiaによれば「データセンターにおけるGPUコンピューティングは対前年比でほぼ3倍になっている」という。これはNvidiaの将来について重要な指標だろう。同社はディープラーニングが必要とするハードウェアの供給で(すくなくとも現在のところ)トップに立っていることは間違いない。

画像: David Becker/Getty Images/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

中小企業営業チームの見込み客発掘精製過程を機械学習で自動化するGrowlabsがシードで$2.2Mを調達

生後6か月とまだ非常に若いスタートアップのGrowlabsは、マシンインテリジェンスを利用して外回りの営業チームを支援している。このほどシードラウンドで220万ドルを調達した同社は、チケットアプリのUniverseを作ったBen Raffiが創業し、これにJaclyn KleinとSafeer Jiwanが加わった。Growlabsは、小さな営業チームの効率を上げることによって、企業の顧客獲得コストを減らすお手伝いをする。

Universeの経験からRaffiが学んだのは、顧客獲得コストを肥大させずにアプリケーションをスケールするのが、とても難しいことだ。チームが80%の時間を調査と、メールの乱発に費やしても、それが売上に結びつく保証はどこにもない。

“見込み客の生成に努力したが、結果は良くなかった”、とRaffiは語る。“何もかも、いきあたりばったりだった”。

Growlabsを使うと、営業チームがターゲットのタイプと業種を指定すると、Growlabsが自動的に見込み客を生成し、メールを送り、結果を評価する。

Growlabsは機械学習と3億5000万件の見込み客候補のデータベースを組み合わせて、一番売りやすいターゲットを見つける。対話のデータをすべて集めて、今度はいつメールを送るべきか、フォローアップは何回必要か、などをアドバイスする。

ターゲットに対しては、基本的な分析のほかに、自然言語処理によりメールの内容を分析する。メッセージを分類すると、どの役職にはどんな売り込みが効果があるか、などのフィードバックが浮かび上がってくる。CTOが関心を向けても、CMOはさっぱり、ということもある。

課金は有効見込み客の生成数に対して行われるから、高価な一律会費制のSaaSサービスを使えない零細企業でもGrowlabsの顧客になれる。Growlabsのいちばん小さい顧客でも、このサービスを使って毎月数千通のメールを送っている。大きな顧客なら、2万とか3万になる。

今日の資金調達ラウンドは主にエンジェルたちと、B2Bの営業活動の経験のある戦略的投資家たちが主体だ。Growlabsは今、社員が8人だが、同社自身がこれからますます、中小企業への営業を成功させていかなければならない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習の体験と学習を民主化・大衆化したいPaperspaceがY Combinatorらに支えられてGPU VMを導入

Amazon, Microsoft, Googleの三社とあえて同時にたたかう企業はめったにないが、でも弱冠3歳のPaperspaceは、データサイエンティストを優遇することによってクラウドコンピューティングのニッチを開拓できる、と考えている。今日(米国時間5/3)同社は、Nvidia Pascal GPUを使用する仮想マシンを立ち上げた。そこには機械学習のフレームワークがすでにインストールされており、Paperspaceはプロシューマーや熱心なデータサイエンティストたちから成る新興市場にも対応しようとしている。

“Amazon Web Services(AWS)は素晴らしいけど、気軽に手を出せない”、とPaperspaceの協同ファウンダーDillon Erbは言う。

クラウド上の機械学習を、もっと、とっつきやすいものにするために、PaperspaceはユーザーのWebブラウザー上に、彼らが日常使い慣れているLinuxのデスクトップを提供する。そこから誰もが、安全なシェルや端末を使ってコードを実装できる。インタフェイスはWeb、ハードウェアはGPU、そしてPaperspaceは、2560 CUDAコアのPascalチップと16GBのメモリを1時間65セントという低料金で提供する。

“この1年半ぐらいで、GPUを要望する人が急に増えてきたね”、とErbは述べる。

このような、民主化された機械学習の市場サイズが、どれぐらい大きいのか小さいのか。それはまだPaperspaceにも分からないが、同社のユーザーたちがローンチした仮想マシンは5万を超えている。かなりの需要があることは確かだが、まだ同社としてはきわめて初期的な段階だ。

クラウドから機械学習を提供する、いわゆる、サービスとしての機械学習(Machine learning as a service, MLaaS)のスタートアップは、このところあまり人気がない。理由はいろいろあるが、そのひとつは、高度な技術を持っているエンジニアたちの市場と、開発過程を初心者のために単純化するプロダクトとのあいだに、ミスマッチがあることだ。

PaperspaceをBonsaiH2O.aiなどと同列に扱うことはできないが、それでも上記のたとえは当てはまる。すでに大企業を顧客として抱えている既存のクラウドコンピューティングサービスも、今後ますます民主化へ向かうだろう。だから機械学習プラットホームの民主化は、必ずしも処女市場ではない。しかもデータセンターをスクラッチで(ゼロから)立ち上げアップグレードしていく費用は、膨大である。

Y Combinatorとニューヨーク大学、そしてInsight Data Scienceが、Paperspaceの初期からのパートナーだ。GPUを使う同社の新しい仮想マシンは、Insightが専門技術者の教育訓練に利用する。YCも同社のシンプルで使いやすいシステムを、今後のAIスタートアップの育成事業に利用するために、今実験を行っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebookのテキスト分類ライブラリfastTextがモデルのサイズを縮減してモバイルにも対応

今朝(米国時間5/2)、Facebookの人工知能研究所(Facebook AI Research, FAIR)が、同社の超高速でオープンソースのテキスト分類ライブラリfastTextのアップデートをリリースした。発表された当初のfastTextは90の言語の語ベクトルで訓練されていたが、今回のアップデートで295言語になる。また、モデルのサイズ、ひいてはメモリの必要量を抑える工夫が盛り込まれている。

fastTextのようなテキスト分類機能があれば、言語分析に依存する多国語ツールの開発が容易になる。クリックベイト(釣りネタ)のタイトルを見つけたり、スパムをフィルタするためには、言葉を解釈して分類する機能が必要だ。

fastTextは元々、対応ハードウェアの種類や性能を問わない、という設計だったが、でも、実行には数ギガバイトのメモリを要した。高度なハードウェアを贅沢に使える研究所ならそれでもよいが、モバイルでそれをやるのは、到底無理だ。

でも今回は、Facebookのもうひとつのオープンソースプロジェクト類似性検索(Facebook AI Similarity Search, FAISS)とのコラボレーションで、メモリの必要量を数百キロバイトに抑えることができた。FAISSは、大量のデータを扱うことにどうしても伴うメモリの問題を、部分的に解決している。

膨大な量の情報のコーパスは、多次元のベクトル空間でうまく表現できる場合が多い。Facebookなど多くの企業が、これらのベクトルの比較をコンテンツとユーザー選好を比較するために最適化しているが、コンテンツを他のコンテンツと比較することも重要だ。そのためにFAISSのチームが導入した方法が、fastTextのメモリ要量の縮減に大きく寄与した。

“特徴枝刈り(feature pruning)や量子化、ハッシング、再訓練など、いくつかのテクニックを使ってテキスト分類モデルのサイズを、よく使われるデータ集合で訓練したときには100KB未満に縮小することができた。正確さやスピードは、犠牲にしていない”、とFacebookの研究者たちは2016年12月のペーパー“fastText.zip: Compressing Text Classification Models”で述べている。

その研究者たちは、今後はさらなるモデルサイズの縮減が可能だ、と仮説を述べている。その場合、スピードを維持しつつモデルを縮小することが課題になる。でも今日からは、GitHub上のアップデートされたライブラリにアクセスして、研究と工夫を始めることができる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

男女間の問題を生命徴候と声から早期に検出してその芽を摘むためのウェアラブルをサウスカロライナ大が研究中

男女間の問題を、実際に顕在化する前にその芽を摘むために、問題が発生しそうなことを告げている生命徴候を検出する、という研究をサウスカロライナ大学の複数の研究チームが共同で進めている。被験者のカップルは複数種類のセンサーを収めたウェアラブル(上図)を身につけ、そのデータを記録するスマートフォンを与えられる。

その研究はほとんど研究室の外で行われ、協力者のカップルはそれぞれ1時間のアンケートにつき合って、相手に対する気持ちを述べる。研究者が意図的に論争を導入したり、主観的な事項に触れたりはしない。中にはまったく問題が報告されないカップルもいるが、全体としては大量の問題が検知される。なにしろ、男女のカップルだからね。

研究報告を共同執筆しているTheodora Chaspariは述べる: “ウェアラブルから生体信号を捉えるのは、肉眼では見えない情報を捉えるためだ。それは実際に、相当有益な情報源だった”。

そのウェアラブルが捕捉するのは、体温と心拍と発汗だ。これらに、喋りの(音声の)内容と強度を検出するためのオーディオ信号を組み合わせる。チームが開発した機械学習は、抗争のタイプや内容を86%の確度で判定できる、という。

執筆主任のAdela C. Timmonsは語る: “うちの大学では、心理学の家族研究と、工学部のSAILプロジェクトが長年コラボレーションしている。両者が協力して、われわれが収集した大量のデータを処理分析し、それらに機械学習の技術を適用して、カップル間に対立や抗争が生じつつあるかを、高い確度で判定する”。

研究の次のステップは、その機械学習のアルゴリズムを利用して、抗争の発生をその5分前までに予見できるためのモデルを作ることだ。そのモデルには、心理学的なデータと音声の判定を学習させる。今、商品としてのウェアラブルはかなり高度化しているから、商用製品に体のフィットネスだけでなく心の健康をチェックする機能が導入されたって、おかしくはない、と思ってしまった。

“でもこれは、とっても難しい仕事よ”、とChaspariは語る。“抗争や対立の原因や徴候は、心理学的にも行動科学的にも、微妙に徐々徐々に積み重なって大きくなっていくものだから”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

F8:Facebookは頭脳直結テキスト入力開発中―「埋込み手術の必要なし」と元DARPA局長がプレゼン

今日(米国時間4/19)、F8デベロッパー・カンファレンスでFacebookは60人のエンジニアのチームが頭脳と直結してテキスト入力などができるコンピューター・インターフェイスを開発していること明らかにした。現在試行されているような頭脳への電極等の埋め込みを必要としないという。このインターフェイスは脳を毎秒100回スキャンして光学画像を生成し、人が声に出さずに思考している内容を読み取ってテキスト化する。

FacebookのR&Dの特別組織、Building 8の責任者、レギーナ・ドゥーガン(Regina Dugan)がF8カンファレンスで説明したところによれば、この研究の目標は、ユーザーがスマートフォンを使って頭脳から直接に毎分100語、つまり現在の5倍のスピードでテキスト入力ができるようになることだ。

頭脳をコンピューターと直結するインターフェイスは、最終的にはVR〔拡張現実〕にも利用され、物理的なコントローラーを操作することなしに、思考だけでVRを操作できるようになるという。今年のF8カンファレンスではCEOのマーク・ザッカーバーグやCTOがこの「直結インターフェイス」テクノロジーが持つ可能性をさまざまな角度から紹介した。

ドゥーガンは「頭脳から直接完璧にタイピングできたら素晴らしいだろう」と言う。ドゥーガンは麻痺の障害を持つ患者が脳に埋め込まれたセンサーを利用してタイピングしているビデオを紹介した。続いてFacebookでは脳の手術の必要なしに同じことを実現しようとしていると述べた。

Building 8が頭脳インターフェイスによるタイピングの研究を始めてからまだ6ヵ月しかたっていないという。しかし開発チームはカリフォルニア大学サンフランシスコ校、同バークレー校、ジョンズ・ホプキンス医科大学、ジョンズ・ホプキンス応用物理学ラボ、ワシントン大学セントルイス医学校などの研究者の協力を得て、機械学習による言語解析、高度な空間解像力も有するテクノロジーによる脳活動の光学画像化、次世代神経科学などを適用して開発を進めている。

Facebookは最終的には脳への埋め込みなしに脳と直結するインターフェイスの実現を目標としているのは大規模な採用を目指しているからだ。またプライバシーへの当然な懸念が生ずるが、Facebookは私のインタビューに対して、「これはあらゆる考えでを読み取ってしまうようなテクノロジーではない。これは直接入力のためにユーザーが意識的に言語中枢に送った言葉だけを解読する。われわれはスマートフォンでたくさん写真を撮るが、公開するのはそのうちの何枚かに過ぎない。われわれのハードウェアが実用化しても、内心の自由を妨げることはない。このインターフェイスが読み取るのはユーザーが入力しようと決めた考えだけだ」という。

一方、 Building 8では「皮膚を通じて聞く」テクノロジーも研究中だ。プロトタイプが完成しているこのハードウェアは特定の振動を脳に伝えることにより皮膚に内耳の役割を果たさせようとするものだ。これが実用化されれば耳に障害を持つ人々も耳をバイパスして皮膚で音を「聞く」ことができる。

Facebookのエンジニアが16の周波数帯域に設定したアクチュエーターを用いて被験者の1人は9つの単語を皮膚を通して認識することができるようになったという。

Building 8の求人情報によれば、電気生理学的情報の収集、神経活動の非侵襲的画像化などの専門家が求められている。【略】

Tesla、SpaceXのファウンダー、イーロン・マスクもNeuralinkという新しいスタートアップを立ち上げて独自の頭脳コンピューター・インターフェイスの開発に取り組んでいる。

FacebookのBuilding 8研究開発チームの責任者、レギーナ・ドゥーガン(Regina Dugan)

Facebookは秘密のベールに覆われた新しい研究組織、Building 8の責任者として昨年ドューガンをスカウトした。ドゥーガンはGoogleの Advanced Technology And Products事業部の責任者で、その前はDARPA〔国防高等研究計画局〕の責任者を務めていた。

Facebookはメンローパークの本社キャンパス内にArea 404という施設を持ち、大量の先端的メカニカル・エンジリングの装置と専門家を擁している。このArea 404がドウーガンのチームがハードウェアのプロトタイプを作ることを助けている。 昨年12月にFacebookはスタンフォード、ハーバード、MIT等の大学から素早く協力を得られる規約を結んだ

今日のプレゼンテーションまで、Building 8が正確にはどういう組織か誰も知らなかった。もっとも、Business InsiderはBuilding 8の求人情報を探り出して、推測を試みていた。

Facebookのハードウェア・プロジェクトには成功したものも失敗したものもある。HTCと協力して作成した FirstというAndroidスマートフォンは失敗だった。Facebookの本来的なユーザーはコミュニティーとの交流に興味があり、専用ガジェットには興味がなかった。FacebookはTerragraph Wi-FiノードProject ARIESアンテナソーラー発電ドローン、Aquilaなどを開発してきた。また途上国でのインターネット・アクセスの容易化を図る通信衛星の打ち上げも試みたが、残念ながらSpaceXが打ち上げに失敗してしまった。【略】

FacebookのArea 404ハードウェア・ラボ。メカニカル・エンジニアリングの楽園

Facebookが巨大化するにつれて、新しいハードウェアを開発するための資源、人材ともに拡大した。18億人のユーザーを持つFacebookは頭脳インターフェイスであれ、その他どんな新しいアプローチであれ、実験の志望者にもこと欠かないはずだ。

〔日本版〕Regina Duganのテクノロジーに関するTEDでのプレゼンテーション。こちらはDARPA局長時代。なおこのビデオでも分かるとおり、ファーストネームのReginaは「レギーナ」が本人の採用している読み方。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Facebookが最初のCaffeに大きな柔軟性を持たせたディープラーニングフレームワークCaffe2をオープンソース化

今日(米国時間4/18)FacebookはCaffe2をオープンソースにした。それは、最初のCaffeに次ぐディープラーニングフレームワークで、そのCaffeはカリフォルニア大学バークリー校で始まったプロジェクトだ。Caffe2は、効率的にデプロイできる高性能な製品を作ろうとするデベロッパーに、大幅な柔軟性を与える。

FacebookがCaffeのコミュニティにエンゲージするのは、これが初めてではない。10月にはCaffe2Goを発表したが、それはいわば、モバイルのCPUとGPU向けに最適化されたCaffe2だ。そもそも、名前の中に‘Caffe2’がある。そのときCaffe2Goが注目されたのは、リリース時期がたまたまStyle Transferと一致したからだ。

もうひとつ注目すべきは、同社が最初のCaffeのエクステンションをリリースしたことだ。それによってCaffeが、大きなオーディエンス向けのサービスを構築しているデベロッパーにとって、魅力的になった。Facebookは従来、リソースをそれほど必要としないディープラーニングのプロジェクトには、研究用途向けに最適とされるTorchライブラリ〔2015年にオープンソース化〕を使ってきた。

でも最近のテクノロジー企業はどこも、自社の機械学習フレームワークはスケーラビリティが優れている、と強調するようになった。Caffe2の開発リーダーYangqing Jiaは、MXNetと、スケーラビリティをめぐるAmazonの主張 をどう思っているだろうか。彼は比較のためのベンチマークにあえて言及しないが、しかしそれはベンチマークが無意味だからではなく、そもそも機械学習アプリケーションの性能は実装に大きく左右されるし、また学習モデルの質にも依るからだ。しかもそれらにはほぼ必ず、“DIY的な”バラつきや変動がつきまとう。

Caffe2のリーダーYangqing Jiaと事業開発のリーダーAlex Yu

“フレームワークというものには多かれ少なかれ必ずスケーラビリティの問題がつきまとうが、そんな中でCaffe2は、頭一つぐらい他を抜いていると思う”、とJiaは説明する。

Facebookは、Caffe2とPyTorchの両方に多くのリソースを注いでいる。今日の発表には、ハードウェアとデバイスとクラウドのレベルでのパートナーシップが伴っている。Caffe2の事業開発を統轄するAlex Yuは、どのカテゴリーでもパートナーとしてマーケットリーダーをねらった、と言っている。たとえばハードウェアではNvidiaやIntel、デバイスではQualcomm、クラウドではAmazonとMicrosoft、といったぐあいだ。この中にGoogleの名はないが、Google Cloud Platformとのパートナーシップも、今後無視されることはありえない。

Caffe2はリリースの前から、Facebook内部で大々的にデプロイされてきた。また、元のCaffeと同じく、デベロッパーコミュニティの育成にも力を入れる。CaffeからCaffe2へのモデルへの変換は、ユーティリティスクリプトで簡単にできる。ドキュメンテーションとチュートリアルはFacebookが提供、そしてCaffe2のソースコードはGitHub上にある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

SisenseのPulseは機械学習を用いてデータ異常に警告を発する

Sisenseは米国時間12日より、特定の指標値に関して正常なパラメータを逸脱する結果を検出した際に、警告を発するPulseという新しいツールの提供を開始した。このツールには機械学習が活用されている。

利用者はPulseに対して、営業活動や成約率などの、メトリクスやKPIをモニタリングし警告を出すように設定を行う。機械学習コンポーネントは、選択されたメトリクスを監視し、何が正常な状態かを時間をかけて学習する。そして異常を検出した際に、ユーザーに対して警告を送る。更には、メトリクスが時間とともにどのように変化して来たかを判断することができるため、新しい正常パターンに対して警告トリガーを出し続けることもない。

このアプローチは、ビジネスインテリジェンス(BI)を簡単にするというSisenseのミッションの一部であると、同社のCEOであるAmir OradがTechCrunchに語った。昨年彼の会社は、Amazon Echo Skillを導入し、ユーザーがSisenseのデータについてAlexaを介して質問できるようにした。Pulseはそうしたユーザーたちに、意識的な検索を行うことなくデータへのアクセスを行うことを可能にする。

「これはこれまで私たちがやってきたこと、すなわち利用者の手に洞察を届ける『どこでもSisense』というコンセプトの、直接的な延長線上にあるものです。Pulseはその方向への一歩なのです。私たちは、興味深いものに警告を割り当てる機能から始めました」と彼は説明した。

Sisenseのようなツールを使用するときには、まずそのツールを起動してデータを検索するのがこれまでのやり方だ。このプロセスの一環として、特に興味深かったりあなたにとって重要な何かを見つけることがあるだろう。そのときあなたはPulseに設定を行い、メトリクスが異常を示したときにシステムに警告を送らせるようにすることができる。Oradは、これは人びとがBIツールを使用してきた典型的な方法とは、逆転したやりかただと語る。

写真提供:Sisense

「従来のやり方では利用者がコンピューターに向かい、質問を発して、報告を得ていました。しかし、もしその情報をシステムがプッシュしてくれるなら、より興味深いものになるのです」と彼は言った。特にツールが機械学習を使って、特定のメトリクスに関連する過去の数字を見張ってくれるのならば、確かにより簡単になるだろう。

「時間をかけて曲線をプロットし、曲線の典型的な形を理解します。その曲線から逸脱し、大きな差異が見られる場合には、警告を受け取ります」と彼は言う。

Oradによれば、Pulseはただ警告を発するだけではないと言う。アクションのための、あるいはワークフローを開始するためのトリガーを出すこともできるのだ。Sisenseは、IFTTTに似通ったワークフローツールであるZapierと提携している。ワークフローツールを用いてユーザーは、特定の条件にアクションや、アクション群に対してトリガーを出すことができる。Sisenseの場合には、新規顧客や在庫補充(その他任意の業務プロセス)のためのワークフローを開始することができる。

現在Sisenseは、何かが大きく変化した際に、ツールに明示的な指示を出さなくても利用者に対して警告を出すことができる機能に注力している。「私たちは自分たちのミッションをシンプルなものと捉えています。すなわち、ビジネスユーザーがいつでもどこでも価値を得ることができるように、複雑なデータを単純化するということです。それを行うための唯一の方法は、ユーザーたちの手に価値ある情報を届けることなのです」と彼は言った。

[ 原文へ ]
(翻訳:Sako)

FEATURED IMAGE: SCIENCE PHOTO LIBRARY/GETTY IMAGES

数学知識もいらないゼロからのニューラルネットワーク入門

【編集部注】本記事はGumGumOphir Tanz(CEO)とCambron Carter(画像認識チームのトップ)によって共同執筆された。GumGumはコンピュータービジョンに特化したAI企業で、広告からプロスポーツまで世界中のさまざまな分野にAI技術を応用しようとしている。カーネギーメロン大学で学士・修士(いずれも理学)の学位を修めたTanzは、現在ロサンゼルス在住。一方、GumGumで幅広い分野に対応したコンピュータービジョン・機械学習ソリューションの設計に携わっているCarterは、ルイスビル大学で学士(物理学、電子工学)・修士(電子工学)の学位を修めた。

これまでに人工知能(AI)関連の記事を読んだことがある人であれば、ほぼ間違いなく”ニューラルネットワーク”という言葉を目にしたことがあるだろう。ニューラルネットワークとは、大まかな人間の脳の仕組みを模したモデルで、与えられたデータを基に新しい概念を学習することができる。

機械学習の一分野であるニューラルネットワークこそ、長く続いた”AI冬の時代”を終わらせ、新時代の幕開けを告げたテクノロジーなのだ。簡単に言えば、ニューラルネットワークは業界の根底を覆すような、現存するテクノロジーの中でもっともディスラプティブな存在だ。

そんなニューラルネットワークに関するこの記事の目的は、読者のみなさんがディープラーニングについて会話ができるようになるくらいの理解を促すことにある。そのため、数学的な詳しい部分にまでは入らず、なるべく比喩やアニメーションを用いながらニューラルネットワークについて説明していきたい。

力ずくの思考法

AIという概念が誕生してからまだ間もない頃、パワフルなコンピューターにできるだけ多くの情報とその情報の理解の仕方を組み込めば、そのコンピューターが”考え”られるようになるのでは、と思っている人たちがいた。IBMの有名なDeep Blueをはじめとする、チェス用のコンピューターはこのような考えを基に作られていた。IBMのプログラマーたちは、十分なパワーを持ったコンピューターに、あらゆる駒の動きや戦略を余すことなく入力することで、理論上はそのコンピューターが駒の動き全てを予測し、そこから最適な戦略を編み出して相手に勝つことができると考えたのだ。実際に彼らの考えは正しく、Deep Blueは1997年に当時の世界チャンピオンに勝利した*。

Deep Blueで採用されたようなモデルでは、「こうなったらこうして、ああなったらああする」といった感じで、予め膨大な時間をかけて定められたルールに基いてコンピューターが駒を動かしている。そのため、これは強力なスーパーコンピューティングとは言えても、人間のように柔軟性がある学習モデルとは言えない。というのも、コンピューター自体が”考えている”わけではないからだ。

機械に学び方を教える

そこで科学者たちは過去10年のあいだに、百科事典のような膨大なメモリに頼らず、人間の脳のようにシンプルでシステマチックにデータを分析するという、古くからあるコンセプトに再び目を向けることにした。ディープラーニングやニューラルネットワークとして知られるこのテクノロジーは、実は1940年代から存在している。しかし、当時は考えられなかったほどの量の画像や動画、音声検索、検索行動といったデータを入手でき、安価なプロセッサが普及した今になって、ようやくその本当の可能性が花開き始めたのだ。

機械と人間は似たようなもの!

人工ニューラルネットワーク(Artificial Neural Network=ANN)は、音声操作からプレイリストのキュレーション、作曲、画像認識まで、全てをコンピューターに学習させることのできるアルゴリズムだ。一般的なANNは何千という数の人工ニューロンから構成されていて、何百万通りにも繋がりあった人工ニューロンが複数のレイヤー(または層)を形成している。また多くの場合、あるレイヤーと別のレイヤーを接続するときには、入力側か出力側にしか接続できないようになっている(人間の脳内にあるニューロンはあらゆる方向に繋がり合うことができるため、両者にはかなりの差がある)。

出典: GumGum

今日の機械学習では、この多層型のANNが広く利用されており、そこに大量のラベル付きのデータを与えることで、AIがそのデータを人間のように(ときには人間よりも上手く)理解できるようになる。

現実世界で親が子どもにリンゴとオレンジの見分け方を教えるときのように、コンピューターも練習を積めばふたつを見分けられるようになるということだ。

例えば画像認識においては、畳み込みニューラルネットワーク(Convolutional Neural Network=CNN)というタイプのニューラルネットワークが使われている。数学の畳み込みと呼ばれるプロセスから名前がつけられたCNNは、一部が見づらくなっている物体や一定の角度からしか見えないような物体が含まれている画像も非線形解析することができる(他にも再帰型ニューラルネットワークや順伝播型ニューラルネットワークなど、さまざまなタイプのものが存在するが、これらのニューラルネットワークは私たちが以下の例で取り上げている画像認識には向いていない)。

トレーニングの流れ

それではニューラルネットワークはどのように学習するのだろうか?極めてシンプルかつ効果的な、教師あり学習という手法を見てみよう。この手法では、ニューラルネットワークに人間がラベル付けした大量のトレーニングデータが与えられるため、ニューラルネットワークは自分で答え合わせができるようになっている。

リンゴとオレンジというラベルが付いた画像で構成されたトレーニングデータを思い浮かべてみてほしい。画像がデータ、それぞれの画像に対応している”リンゴ”、”オレンジ”という名前がラベルだ。トレーニングデータを受け取ったニューラルネットワークは、それぞれの画像を細かな要素(エッジ、テクスチャ、形など)に分解し始める。そして画像がネットワーク中を伝播していく中で、それらの要素が組み合わさって抽象的な概念を構築していく。曲線や色に関する情報が合わさって、茎やオレンジ、緑・赤のリンゴという絵が浮かび上がってくるといった具合だ。

このプロセスが終わると、ネットワークは画像に何が写っているかについての予測を立てようとする。そもそもまだ何も学習していないので、最初はこの予測が全くの当てずっぽうのように見えるだろう。そして、入力された画像がリンゴなのに、ネットワークがオレンジと予測したとすれば、ネットワーク内のレイヤーに修正を加えなければならない。

バックプロパゲーション(または誤差逆伝播法)と呼ばれるプロセスを通じて修正が行われると、次に同じ画像が与えられたときに、ネットワークがその画像をリンゴだと判断できるようになる確率が上がる。この作業は予測がほぼ正確になり、改善の余地がなくなったと感じられるくらいまで繰り返される。現実世界で親が子どもにリンゴとオレンジの見分け方を教えるときのように、コンピューターも練習を積めばふたつを見分けられるようになるということだ。もしもこの時点で「あれ、これって機械が何かを学んでるんじゃないかな?」と感じた人がいれば、その人はAIの分野で働けるかもしれない。

レイヤーに次ぐレイヤー

一般的に、畳み込みニューラルネットワークには、入出力用のレイヤーを除いて以下の4つのレイヤーが必ず含まれている。

  • 畳み込み層
  • アクティベーション層
  • プーリング層
  • 全結合層

畳み込み層

最初の畳み込み層(複数の畳み込み層が重なっていることもある)では、何千個ものニューロンが第一のフィルターとして機能し、画像内の各ピクセルにスコアを付けながらパターンを見つけようとする。処理された画像の数が増えるにつれて、それぞれのニューロンが画像の特徴的な箇所をフィルタリングするようになり、精度が向上していく。

リンゴを例にとると、あるフィルターは赤い色を探している一方で、別のフィルターは曲がったエッジを探し、さらに別のフィルターが細い棒のような茎を探しているかもしれない。引っ越しやガレージセールのために、散らかった倉庫を片付けたことがある人(もしくは業者に片付け作業をお願いしたことがある人)であれば、モノをまとめて(本、おもちゃ、電子機器、アート、服などへ)分類していく作業についてよく知っていることだろう。畳み込みレイヤーも同じような作業を通じて、画像をピクセルの特徴ごとにバラバラにしていっているのだ。

ニューラルネットワークの利点のひとつは、非線形学習ができることだ。

ニューラルネットワークが有名になった要因のひとつで、これまでのAI手法(Deep Blueなど)とは異なる強力な特徴として挙げられるのが、前述のようなフィルターを人間がつくる必要がないということだ。つまりネットワーク自体が、データを解析しながら処理方法を改善していくのだ。

畳み込み層の役割は、特徴マップと呼ばれる、もともとの画像がフィルターごとに分解されたものを生成することだ。そして特徴マップには、各ニューロンが画像のどの部分で赤い色や茎、曲線といったリンゴを特徴付ける要素を(どんなに部分的であっても)発見したかという情報が含まれている。しかし、畳み込み層はかなり自由に特徴を検知するようになっているため、画像がネットワーク内を伝播していく中で見落としがないか確認するような仕組みが必要になってくる。

アクティベーション層

ニューラルネットワークの利点のひとつは、非線形学習ができることだ。これはどういうことかと言うと、あまりハッキリと表れていない特徴も見つけることができるということだ。つまり、リンゴの木の写真に写った直射日光を受けているリンゴや影に隠れたリンゴ、さらにはキッチンカウンターのボールの中に山積みになったリンゴもニューラルネットワークを使えば認識することができる。これは全て、明らかなものも見つけにくいものも含め、重要な特徴をハイライトするアクティベーション層のおかげなのだ。

先述の片付けの様子を思い浮かべてほしい。今度は分別を終えた山の中から、珍しい本や今となっては皮肉にさえ見えるような学生時代に着ていた懐かしいTシャツなど、やっぱり残しておきたいと感じたお気に入りのモノを抜き出すとしよう。これらの”もしかしたら”というモノを、後で見直せるようにそれぞれの山の上に置いておくというのが、アクティベーション層の役割だ。

プーリング層

画像全体に”畳み込み”を行った結果、かなりのボリュームの情報が生成されるので、すぐに計算が面倒になってしまう。そこでプーリング層を使うことで、膨大な量のデータをもっと処理しやすい形に変換することができる。やり方はさまざまだが、もっとも人気のある手法が”マックスプーリング”だ。マックスプーリングを行うと、畳み込みで生成された特徴マップの要約版のようなものが作られ、赤い色や茎っぽさ、エッジの曲がり具合といった特徴がもっともハッキリと表れている部分だけが残される。

再度片付けの例を引っ張りだし、片付けコンサルタントとして有名な近藤 麻理恵氏の哲学を応用すれば、それぞれの山のお気に入りのモノの中から本当に”ときめく”モノだけを選んで、残りは全て売るか捨てるというのがプーリング層の役割だ。そうすると、本当に大切なものだけがカテゴライズされたままで手元に残ることになる(ちなみに、ニューラルネットワークの中で起きるフィルタリングやコンパクト化の作業の理解を促すための、片付け作業を用いた説明はここで終わりだ)。

ニューラルネットワーク設計者は、残りのレイヤーも同様に畳み込み層・アクティベーション層・プーリング層と積み重ねていくことで、より次元の高い情報だけ残すことができる。リンゴの画像で言えば、最初はほとんど認識できなかったようなエッジや色や茎も、何層にも重なり合ったレイヤーを通過していくうちに、その姿がハッキリと浮かび上がってくる。そして最終的な結果が出る頃に、全結合層が登場する。

出典: GumGum

全結合層

そろそろ答え合わせの時間だ。全結合層では、コンパクト化された(もしくは”プール”された)特徴マップが、ニューラルネットワークが認識しようとしているモノを表す出力ノード(またはニューロン)に”全て結合”される。もしもネコ、イヌ、ギニアピッグ、スナネズミを見分けることがネットワークのゴールであれば、出力ノードは4つになる。私たちの例で言えば、出力ノードは”リンゴ”と”オレンジ”のふたつだ。

もしも、トレーニングをある程度経て既に予測精度が上がってきたネットワークにリンゴの画像が入力された場合、特徴マップのほとんどにはリンゴの特徴をハッキリと示す情報が含まれているはずだ。ここで最後の出力ノードが逆選挙のような形で、その役目を果たすことになる。

新しい画像がネットワーク内を伝播したときの認識精度が上がるように、それぞれのレイヤーのニューロンに修正が加えられる。

リンゴとオレンジの出力ノードの(”オンザジョブ”で学習した)仕事は、それぞれの果物の特徴を示す特徴マップに”投票”することだ。つまり、ある特徴マップに含まれるリンゴの特徴が多ければ多いほど、その特徴マップに対するリンゴノードの投票数は多くなる。そしてどちらのノードも、それぞれの特徴マップが含んでいる情報に関係なく、全ての特徴マップに対して投票しなければならない。そのため、トレーニングが進んだニューラルネットワーク内では、全ての特徴マップに対するオレンジノードからの投票数が少なくなる。というのも、特徴マップにはオレンジの特徴がほとんど含まれていないからだ。最終的に投票数の1番多いノード(この場合で言えばリンゴノード)が、このネットワークの”回答”となる。実際にはもっと複雑だが、大体このようなプロセスでニューラルネットワークは画像を処理している。

同じネットワークがリンゴとオレンジという別のモノを認識しようとしているため、最終的なアウトプットは、「リンゴ:75%」「オレンジ:25%」といった感じで確率で表示される。もしもトレーニングが不十分でネットワークの精度が低ければ、「リンゴ:20%」「オレンジ:80%」といった結果が表示される可能性もある。

出典: GumGum

答えが間違っていれば繰り返しあるのみ

初期の段階にあるネットワークでは、不正解が続出するのが普通だ。「リンゴ:20%」「オレンジ:80%」というのは完全な間違いだが、ここではラベル付きのデータを使った教師あり学習を採用しているため、ネットワークはバックプロパゲーションを使い、どこでどのように間違ったかというのを自動的に解析できるようになっている。

冒頭の約束通り数学無しで説明すると、バックプロパゲーションとは、あるレイヤーのノードがひとつ前のレイヤーのノードに対して、自分たちの回答と実際の答えがどのくらいかけ離れていたかを伝える仕組みを指している。後ろのレイヤーからのフィードバックを受け取ったレイヤーは、さらにもうひとつ前のレイヤーに情報を伝え、その後も伝言ゲームのように畳み込み層まで情報が伝わっていく。そして新しい画像がネットワーク内を伝播したときの認識精度が上がるように、それぞれのレイヤーのニューロンに修正が加えられることになる。

その後も、ネットワークがリンゴとオレンジを100%の確率(多くのエンジニアは85%を許容値としているが)で当てられるようになるまで、このプロセスが何度も繰り返される。そしてトレーニングが完了すれば、そのネットワークは晴れてプロとして、リンゴとオレンジを認識する仕事に就くことができる。

*GoogleのAI囲碁プログラムAlphaGoは、ニューラルネットワークを使って盤面を評価しながら最終的に人間の棋士を破ったが、Deep Blueは人間によって記述された指示を基に戦っていたという点で異なる。

原文へ

(翻訳:Atsushi Yukutake/ Twitter

Googleはファッションの画像検索をPinterestふうにする…お得意の機械学習技術を駆使

Googleには、Pinterestの野望に検索を乗っ取られる気はない。同社は最近、モバイルのWebとAndroidアプリで“類似アイテム”(Similar Items)機能をローンチして、ユーザーが自分の好きな製品をもっとたくさん見れるようにした。ハンドバッグでもサングラスでも靴でも、何でもだ。そして今日(米国時間4/13)はそのアイテムを、小物だけでなくアパレルにも広げた。それには“スタイルのアイデア”(Style Ideas)という新しい機能があって、ファッションアイテムをあこがれのライフスタイル的な画像で見せるのだ。

でもこの“あこがれの”というやつは、Pinterestが何年も前からやっている。ファッションアイテムに、ほかの製品を組み合わあせたりして、あわよくば、そっちも買わせたいのだ。しかもP社はビジュアル検索という技術まで発明して、画像中の製品や、ユーザーのカメラのファインダーに今映っているもので、検索できるようにした(類似品や関連製品を)。

こういう、買い物のための品物探しの検索を、Googleなどの一般的な検索エンジンから取り上げて自分のものにしたい、というP社の野望があった。たとえば、黒いブーツが欲しいなと思ったら、Pinterestへ行けば画像で検索できる。そして、いいのが見つかったら、もうGoogleに用はない。そのまま、お店のリンクをクリックすればよいのだ。

そこで、Googleはあわてる。その前にはGoogleは、一般消費者のモバイル化にも悩まされた。Google検索の、‘デスクトップのWebで検索する’というパターンが、もはや優勢ではなくなった。次は、検索でもP社に負けるのか…。

対策のひとつとして出てきたのが、今度の“スタイルのアイデア”という機能だ。

Googleの説明では、AndroidアプリやモバイルWebでファッション製品の画像を閲覧していたら、画像検索の画面がアップデートされて、その製品を実生活の中でかっこ良く見せる画像が表示される。たとえばハイヒールの写真を見ていたら、モデルがその靴を履いているファッション写真が表示されるだろう。

ファッション製品の検索では、検索結果の中に、似たようなアイテムや、実際にそれを身に着けている合成画像や実写画像が表示される、とGoogleは言っている。

そういう、“スタイルのアイデア”の画像は、人間が介入せずにアルゴリズムが選ぶが、ここでGoogleお得意の機械学習技術が、類似物(ときには同一物)の発見で活躍する。

また、一般的にアパレルの画像検索では、類似アイテムのカルーセルが大きくなった(多品目になった)。2か月前には、財布とサングラスと靴だったが、今では、アウターウェア、ドレス、シャツ、パンツ、スカート、ショーツが加わった。これらは、自分の好きなデザインのが選べるだけでなく、価格の安いものも見つかる。

Googleによると、スタイルのアイデアと、類似アイテムのどちらも、アルゴリズムが画像にランクをつける。そして製品の特徴がはっきり分かる画像や、完全な着こなしになってる画像、そして権威あるファッションサイトの画像、などが上位にランクされる。

GoogleがPinterest対抗策をやるのは、これが初めてではない。2015年には画像検索に“コレクション”(collections)機能を加えて、ユーザーが検索結果の気に入った画像をまとめて保存できるPinterestの機能に対抗した。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの敵対的AI(GANs)はAI開発における現実データへの依存を減らす

AIの開発で最大の難関が、人間による大量の入力が必要なことだ。最初に、AIに解かせるための適切なデータを見つけて入力しなければならないし、さらにそれ以前に、AIを有能にするための訓練で大量のデータ入力が必要だ。GoogleのAI研究者Ian Goodfellowは、Elon Muskらが率いるOpenAIに出向したあと、最近またGoogle Brainに戻った人物だが、彼によると、ニューラルネットワークに別のニューラルネットワークを組み合わせることによって、この二つの問題を解決できるかもしれない、という。

実はFacebookでも同様の研究論文を、AI研究のトップYann LeCunnとAIエンジンイアSoumith Chintalaが昨年の6月に書いている。その中で彼らは、生成能力のある敵対的ネットワーク(generative adversarial networks, GANs)を利用する自動〔==無監督〕学習、すなわち人間が介入する必要のない機械学習を説明している。これを最初に考えたのはGoodfellowだが、Wired誌によると、その有効性の証明にはモントリオール大学における研究者たちの(アルコールの力も借りた?)激論を要した。

このシステムでは、二つの互いに対立するニューラルネットワークが、対立する情報を相手に提供しあう。たとえば一方が犬のリアルな画像を合成しようとしていると、他方はおかしな点を指摘し、相手の失敗を批判する。このような試行と批判を繰り返すことによって、生成を担当する方のシステムが、意外なやり方で性能を上げ、能力をアップしていく。

GANsを利用すると、AI研究者たちは、画像生成システムなどが時間をかけて改良されていくために必要な、人間による入力信号の修正を減らせるだけでなく、医療のような厳しい分野でも、有益なAIや機械学習ツールを生成するために必要な実データの量を最小化できる。GoogleのDeepMindはイギリスの国民保健サービス(NHS)とパートナーし、個人の保健医療データを利用しようとして問題になっているが、GANs を使えば実データではなく人工的な患者データを利用してAIを訓練できるかもしれない。

GoodfellowがGoogleに戻ったことは、GANsをめぐる大手テクノロジー企業間の競争(や協力)が激しくなっていることを、示している。もちろんその競争は、将来におけるAI開発のスピードをアップすることにもつながる。またAIベースの保健医療サービス等の受益者たちも、プライバシー侵犯の心配から解放され、関係者全員のウィンウィンの構造が出来上がるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの機械学習専用カスタムチップはGPU/CPUマシンの15〜30倍速い…同社ベンチマークを発表

【抄訳】
Googleが同社の機械学習アルゴリズムを高速に実行するカスタムチップを独自に開発したことは、前から知られていた。その Tensor Processing Units(TPU)と呼ばれるチップが初めて公開されたのは、2016年の同社のI/Oデベロッパーカンファレンスだったが、詳しい情報は乏しくて、ただ、同社自身の機械学習フレームワークTensorFlowに向けて最適化されている、という話だけだった。そして今日(米国時間4/5)初めて、同社はこのプロジェクトの詳細ベンチマークを共有した。

チップの設計をやってる人なら、Googleのペーパーを読んで、TPUの動作に関するややこしいすばらしい詳細情報を理解できるだろう。でもここで主に取り上げたいのは、Google自身のベンチマークの結果だ(客観的な第三者の評価ではない)。それによるとTPUは、Googleの通常の機械学習のワークロードを、標準のGPU/CPU機(IntelのHaswellプロセッサーとNvidia K80 GPUs)より平均で15〜30倍速く実行できた。また、データセンターでは電力消費が重要だが、TPUのTeraOps/Wattは30〜80倍高い。将来は高速メモリの使用により、これよりもさらに高くなるという。

なお、これは実際に使われている機械学習モデルを使った場合の数字であり、モデルの作成は関わっていない。

Googleによると、一般的にこの種のチップはconvolutional neural networks畳み込みニューラルネットワーク、画像認識などによく使われる)向けに最適化されることが多いが、Googleのデータセンターのワークロードではこの種のネットワークは全体の約5%にすぎず、大多数はmulti-layer perceptrons(多層パーセプトロン)のアプリケーションだ、という。

【中略】

Googleには、TPUを自分のクラウドの外で可利用にする気はないようだが、しかし同社は、これを勉強した誰かが将来、彼らが作る後継機により、“バーの高さをさらに上げる”ことを期待する、と言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

BaiduのAIチームが知識を一般化できる人間的能力を仮想エージェントに与えた

Baiduの人工知能チームが、重要な進歩を達成した: 上図のような2Dの環境で“生きている”仮想エージェントに、その世界での歩き方・進み方を、自然言語のコマンドで教えた。そのために言語能力を、肯定や否定を通じて強化した。とくにすばらしいのは、エージェントが“zero-shot学習”の能力を持ったこと、言い換えるとAIエージェントが初歩的な文法感覚を持つようになったことだ。

人間の場合それは、赤ちゃんのころに発達する能力だから、記憶にないのがふつうだが、でも親が子どもに教えるときは、それと同じことをしているのだ。子どもに画像を見せて、言葉を繰り返すと、肯定的な強化(ほめる、など)が十分にあれば、その子は言葉と画像を結びつけるようになる。そして、すごい!、物の名前をおぼえたのだ。

しかしBaiduが画期的なのは、エージェントが、学習したコマンドを新しい状況に適用できたことだ〔ゼロショット学習〕。コンピューターは通常、それまでに獲得した知識を新しい物事に当てはめることが得意ではない。Baiduの研究チームは、その違いを次のように説明している:

過去の知識を新しいタスクに適用することは、人間にはとても簡単だが、現在のエンドツーエンドの学習マシンにとっては依然として難しい。“ドラゴンフルーツ”の形状を知っているマシンに“このドラゴンフルーツをナイフで切れ”と命じても、このコマンドに含まれているデータセット(切れ、ナイフで)を明示的に訓練されていなければ実行できない。対照的にわれわれのエージェントは、ドラゴンフルーツの視覚的外見について知っていることを、“Xをナイフで切れ”というタスクに伝送する能力を示した。“ドラゴンフルーツをナイフで切れ”を、事前に明示的に訓練されていなくても”。

このように、前に使ったスキルを一般化できる能力は、人工知能の大きな進歩だ。つまりそれは、まるで人間がやるように、知識を学んでその既得の知識を他へ適用できることを示した。昔のビデオゲームのような、単純な2Dの環境だけど、信じがたい成果だ。ぼくの脳には、できないかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

MatrixのVoiceボードがあればRaspberry Piで動くAlexaを作れる

Matrix Labsが、Raspberry Pi用の音声認識AIのクラウドファンディングに成功した。これがあれば誰でも、自分ちの地下室でAlexaを作れるだろう。Rodolfo SaccomanとBrian Sanchezが初めて作ったボード製品Creatorは、Raspberry Piの上部にフィットし(上図)、8つのマイクロフォン、温度センサー、紫外線センサー、圧力センサー、3Dの位置センサーなどがついている。しかし、もっとシンプルなVoiceは、直径3.14インチのボード上にオープンソースの音声認識プラットホームVOICE RECOGNITIONを搭載し、花びら状に配置した7つのMEMSマイクロフォンがXilinx Spartan6 FPGAと64 Mbit SDRAMに接続され、そして18個のRGBW LEDと64のGPIOを装備している。つまり、音声認識によるライトショーが可能だ。

99ドルのVoiceはもうすぐ発売だが、Creatorはここで買える

同社はAzoic VenturesとRokk3r Labsから生まれ、これまでに580万ドルを調達した。99ドルの新製品は、オンラインでもうすぐ発売される(上述)。基本的にMatrixが目指しているのは、ロボットの自作キットだ。

Saccomanは曰く、“目標は人びとのアプリケーションや事業やアイデアを実現可能にするイネーブラー(enabler, 可能にするもの)をハードウェアで提供することだ。とくに、機械学習やコンピュータービジョン、人工知能などを初心者のデベロッパーでも簡単に利用・実装できるようにしたい”。

  1. img_0586a.jpg

  2. img_0587a.jpg

  3. img_0588a.jpg

  4. img_0590a.jpg

  5. img_0593a.jpg

  6. img_0594a.jpg

  7. img_0596a.jpg

  8. img_0597a.jpg

ご覧のようにVoiceとCreatorはRaspberry Piの上部にフィットして、相当高度な機能性を提供する。DIYファンが主なターゲットだが、完全にオープンソースなので製品のベースとしても気軽に使える。すばらしくクールなキットだから、将来の地球を征服するロボットがRaspberry Piで動いていたら、歓迎するね。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Deep Mindの前にはDeep Blueがあった、初めて人工知能に負けた名棋士Garry KasparovがDisrupt NYで語る

多くの人がGarry Kasparovを世界最強のチェス棋士と見なしているが、でも彼の名前が大衆的に知られるようになったのは、IBMのDeep Blueとの歴史的な対戦によってだ。彼の負けは、人間と機械やコンピューターや情報、そしてとりわけ人工知能との関係がこれから変わっていくことを示す、象徴的な出来事だった。

Kasparovは5月に出版される著書で、あの対戦と、それを契機とする彼自身の知的探究について述べている。その彼が、Disrupt NY(ディスラプト・ニューヨーク)のステージで、彼が機械学習を、人間の敵ではなく、人間を補助するものとして受け入れるようになったことを話す予定だ。

今後機械学習はいろんな分野で利用されていくと思われるが、Kasparovが語る彼のユニークな見方では、機械学習が徹底的に探求された最初の分野のひとつがチェスだ。

Kasparovは世界的な人権活動家でもあり、ロシア連邦の大統領Vladimir Putinに対しても容赦ない。ロシアとアメリカの政治的な関係は今微妙だから、Kasparovが今日の地政学的な状況についてどう考えているか、興味深い。

今の彼はHuman Rights Foundationの理事長であるほかに、二つの本、How Life Imitates ChessWinter Is Comingの著者でもある。上で述べたように、三冊目の著書Deep Thinkingが5月に出る。

彼は、Foundation for Responsible Roboticsの役員顧問団のメンバーでもあり、またOxford Martin Schoolの客員研究員として、人間と機械の意思決定について研究している。

5月17日にニューヨークのマンハッタンに来られた方は、人間の知性の限界や、人工知能のようなツールを、世界を加速するというより、世界をより良くしていくために利用すべき、人類の責任について、いろいろ学べるだろう。

チケットはここでお買いください。

本誌TechCrunchがいろいろなイベントを開催できるのは、スポンサーのおかげです。スポンサーになることに関心のある方は、こちらへお言葉をください。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

専門知識なしで動画からオブジェクト検出 ― Matroidが本日ローンチ

画像が何千語分もの情報をもつとしたら、ビデオはその数字にフレームレートを掛けあわせた分の価値があることになる。本日ローンチしたコンピュータービジョンのMatroidは、誰もがビデオの中に含まれた情報を活用できるようになるサービスだ。直感的に操作できる同社のWebプラットフォームを利用することで、ビデオに映る人物やその他のオブジェクトを検出するディテクターをつくることができる。

Matroid創業者のReza Zadeh氏はスタンフォード大学で非常勤の教授を務める人物。彼が最初にこのビジネスの構想を思いついたのは約10年前だった ― そして今、彼は民主化が進むコンピュータビジョンの分野に参入することとなった。Matroidの得意分野は、医療画像などの中にある情報を取り出すことではなく、ビデオからオブジェクトを検出することだ。

Matroidのユーザーは、オブジェクトを検出するディテクターを構築するためにTensorFlowやGoogle CloudのVideo Intelligence APIを利用する必要はない。必要なのは、みずからが用意したトレーニングセットをアップロードするか、何百万もの画像からなるMatroidのライブラリから必要なものを選択することだけだ。Matroidはトレーニング・プロセスの最中に画像や動画を処理することができる。インプットの処理には複数のニューラルネットワークが利用されている。Matroidにビデオをアップロードすると、そこに映る重要なオブジェクトに四角形の枠を重ねるように指示される。そうすることでディテクターをトレーニングすることができるのだ。

Metaroidを使って監視カメラ用のディテクターをつくり、殺人容疑がかけられた人物の無罪を証明するという例を考えてみよう。映画「My Cousin Vinny(邦題:いとこのビニー)」のJ・ペシを救うのだ(日本版注:いとこのビニーは、J・ペシが演じるビニーがスーパーマーケットを訪れた際に強盗殺人犯に間違われてしまうというストーリー。ビニーの愛車はメタリックミント色のビュイック・スカイラーク)。そのために必要なのは、1964年製のビュイック・スカイラークの画像と自動車のコマーシャルビデオなどを使ってディテクターをトレーニングすることだけだ。そして、そのディテクターを使ってスーパーマーケットの監視カメラにビニーの愛車が映っているかどうか確かめればいい。

MetaroidはNielsenなどの企業と手を結び、テレビや他のメディアの動画コンテンツから有益な情報を抜き出すビジネスを展開する予定だ。Appleを例にすれば、iPhoneやMacBookがHBOのテレビドラマに登場する回数を数えるなどのユースケースが考えられる。しかし、Metaroidが活躍するのは広告関連の分野だけではない。例えば、監視カメラの映像を確認するという作業の一部をMetaroidによってオートメーション化することができる。動物や風に揺れる木を無視して、人間や自動車だけを検出するディテクターをつくればいいのだ。

Metaroidはこのユースケースからマネタイズしようとしていて、ストリーミング動画のモニタリングに課金する予定だ。また、データを社外に持ち出すことを嫌う企業に対しては、ローカルに動作するアルゴリズムを有料で提供する。また、Metaroidはビデオに映る光エフェクトを検出したいなどの特定のニーズにも対応できる。YouTube動画に映るバットマンを検出するのは無料だ。

Metaroid創業者兼CEOのReza Zadeh氏

Zadeh氏率いるMetaroidのチームは現在、コンピュータービジョンのマーケットプレイスを構築しようとしている。これが実現すれば、エキスパートたちがより高度にカスタマイズされたディテクターを販売できるようになる。ディベロッパーたちを惹きつけるため、彼らはビジュアライゼーション・ツールを同社のプラットフォームに追加する予定だ。また、同社はTensorFlowを使ったツール内部の大半を公開している。

「ディテクター分野で最大のシェアを持ちたいと考えています」とZadeh氏は話す。

Matroidがサステイナブルな価値を提供するためには、コミュニティをできるだけ早く形成することが必要だ。そのため、Zadeh氏はScaled Machine Learningと呼ばれるカンファレンスを主催したり、TensorFlowの使い方を学ぶための場を設けるなど、機械学習コミュニティで盛んに活動している。

これまでにMatroidはNEAからの資金調達を完了している。Matroidがコミュニティを早期に形成し、彼らのプラットフォームのユーザーが増えてこれば、NEAはこの投資から利益を上げることができるだろう。

[原文]

(翻訳: 木村拓哉 /Website /Facebook /Twitter

YouTubeが[笑い]も自動キャプション―機械学習で3種の環境音を認識

YouTubeはずっと前から自動キャプションシステムをサポートしている。 近年目覚ましい進歩を遂げたGoogleの機械学習テクノロジーのおかげで、自然言語の音声認識の精度は非常に高くなった。自動キャプションは驚くほど正確にビデオに発言の字幕を作ってくれる。

Googleの今日の発表によれば、自動キャプションシステムはさらに改良され、環境音を認識して[笑い]、[喝采]、[音楽]( [LAUGHTER]、 [APPLAUSE]、 [MUSIC])と字幕をつけるようになったという。

当面、システムが自動的にキャプション化してくれるのは上に挙げた3種類だ。この点について Googleは「この3種類のサウンドは多くのビデオの制作者がマニュアルでキャプション化しているからだ」と説明している。

Googleのエンジニア、Sourish Chaudhuriは今日の発表でこう説明している。「背景音自体はもちろんきわめて多彩だ。しかし〔新たにサポートされた〕3種類の環境音は文脈的な曖昧さが少ない。これに対しして例えば何かが鳴った場合に[RING]とキャプションすると視聴者はすぐに『何が鳴ったのだろう? ベル? アラーム? 電話?』と疑問を抱いてしまう」。

ただYouTubeにこうして環境音のキャプションシステムが導入されたので、今後Googleが対象となる音の種類を増やすのは比較的簡単だろうと予測される。

システムレベルでみると、YouTubeのサウンド・キャプションはGoogleのディープ・ニューラルネットワークを弱いラベル付けをしたデータで訓練した結果を用いている。新しいビデオがアップロードされるつどYouTubeのシステムはサウンドを認識しようと試みる。このシステムについてさらに詳しく知りたい場合は(Viterbiアルゴリズムを用いているという)、 Googleのブログ記事を参照のこと。

画像:ERIC PIERMONT/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+