機械学習に“本物の芸術らしさ”を教育訓練できるか?、二人の学部学生がそんなGANに挑戦

Generative Adversarial Net(GAN)の人気は今がピークなのか、よく分からないが、1年前に比べると、これをいじくっている人びとの数が相当増えている。そしてそれは、すごいことだ。ウィリアムズ大学の二人の学部学生が機械学習の初歩を独学し、そして今やほとんどメインストリームの技術であるGANに関する論文を50近く読んでから、ある教授と一緒に美術作品を生成するGANに取り組み、ほぼ1年で完成させた

コンピューターサイエンスの学生だったKenny JonesとDerrick Bonafiliaは今年の初めごろ、Martin ArjovskyのWasserstein GAN(WGAN)に出会った。ベーシックなGANの安定性を高めたWGANは、アートの様式(スタイル)の学習や新しいアートの生成により適していることが明らかになった。

GANの基本構成要素はジェネレーター(generator, 生成部)とディスクリミネーター(discriminator, 差別部)で、両者が敵対的に対話することによって動作する。ジェネレーターは人工的な画像を作り、それをディスクリミネーターに本物と思わせようとする。同時にディスクリミネーターは、偽の画像をできるだけ多く排除しようとする。

ジェネレーターとディスクリミネーターが対決

しかしGANは、不安定なことで悪名高く、まったく使いものにならないこともある。Wassersteinが改良したGANは、アートと分かるようなものを作り出す程度の安定性はある。そこでチームはWikiArtのデータベースからラベル付きの絵画10万点を取り出し、訓練用の素材として使った。

そのモデルの性能を最大化するためにチームは、ディスクリミネーターに新たな部位を加え、絵画のジャンルを予見できるようにした。またモデルが、生成される画像の“本物性”と“偽物性”にこだわりすぎるのを避けるため、予備訓練によりグローバル条件を加えた。これによりディスクリミネーターは、アートの様式の違いに関する理解を、維持できるようになった。

“難しいのは、成功の判定方法だ”、とJonesは語る。“そのための普遍的な測度はあまりない。それはアートに限った問題ではないが、芸術作品は通常の画像認識のように本物偽物の区別が明瞭でないから、判定がものすごく難しい”。

しかしとりあえずそのプロジェクトは成功し、JonesとBonafiliaは秋になったらソフトウェアエンジニアとしてFacebookに就職する予定だ。Bonafiliaの考えでは、もっと強力な計算機資源を使えたらプロジェクトの性能は大きくアップするだろう。Facebookには、強力なコンピューターがふんだんにあるはずだ。

  1. 0ceh4q72pq9mmiucc.png

  2. 0kgzb_heat-qv0skb.png

  3. 0itdky-dc2mclrun8.png

アートは今、機械学習で人気の高い素材だ。Jonesによるとその理由は、ビジュアルでしかも分かりやすいからだ。Facebookは昨年の秋に、モバイル上のリアルタイムのスタイル変換(style transfer)で関心を喚(よ)んだ〔例: 葛飾北斎のスタイルをふつうの写真に移送(transfer)する〕。JonesらGANGoghチームの作品と違ってStyle Transferは、新しいアートを作り出すのではなく、既存のストリームに(別のスタイルで)変更を加える。

スタイル変換は映画で使われている…女優のKristen Stewartは今年の1月に共著したペーパーで、彼女の短編映画Come Swimへの機械学習の応用を説明している。機械が生成した新しい作品が現代美術の美術館に展示されるのはまだ早いと思うが、今後本物のアーチストがモデルづくりに取り組んだそれらを、美術館はどう扱うか。その問題を歴史上初めて指摘した文献がこの記事だぞ、と自慢しておこう。

〔GAN関連日本語訳記事:(1)(2)(3)(4)。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Google曰く、Gmailのスパムとフィッシングメールは機械学習を使って99.9%ブロックしている

本日(米国時間5/31)Googleは、同社の機械学習モデルがスパムとフィッシングメールを99.9%の精度で検出できるようになったと発表した。

これは、まだ1000通に1通はすり抜けることを意味しているが、かなり良い数字だとGoogleは言っている。私もそう思う。Google自身のデータによるとGmailが受信するメールの50~70%はスパムだ。各種の検出モデルはGoogle Safe Browsingツールにも組み込まれており、悪質なURLへのリンクを検出している。

フィッシング検出性能をさらに改善すべく、GoogleはGmailの配信を少し遅らせて、さらに詳しくフィッシング分析をするシステムを作った。フィッシングメールは、総合的に分析したほうが検出が容易なため、Googleは疑わしいメールの配信を遅らせ、リアルタイムにアップデートされたアルゴリズムを使うことでさらに詳しい分析を行おうとしている。なお、この対象になるメッセージは全体の0.05%にすぎない。

GoogleがGmailに加えようとしているもう一つの新機能は、主として企業が自社のデータを保護することを目的としている。社外の定期的にやりとりしていない相手からのメールに返信しようとすると、Googleは警告を表示して本当にこのメールを送る意思があるかを確認する。Googleは以前から企業向けにこの種の意図しない(および時として意図的な)データ共有を防ぐために高度なフィルター群を提供してきた。しかし、これを設定したくない企業にとって、この新システムは少なくともある程度の保護になるだろう。

そして最後にもうひとつ、Googleはマルウェアサイトにつながる悪意あるリンクをクリックしようとしていることを知らせる新しいクリック時警告も追加した。

[原文へ]

(翻訳:Nob Takahashi / facebook

トップ棋士に3連勝したAlphaGo、引退を表明

盤上ゲームの中で最も戦略的とされる囲碁を打つために開発された、GoogleのAlpha Goが引退することになった。中国で世界最高レベルの打ち手をことごとく破ってからの引退ということになる。最後に対局したのは、世界トップランクの柯潔だ。中国で行われたイベントにて3局戦ったが、いずれもAlphaGoの勝利(3-0)となった。

AlphaGoはもともと、ロンドンのDeepMindにより開発されたものだ。DeepMindは2014年に5億ドルほどの金額でGoogleに買収されている。尚、今回のイベントでは人間5人を同時に相手にするいわゆる「相談碁」でもAlphaGoが勝利している。AlphaGoが世界的な注目を集めたのは、昨年前世界チャンピオンのイ・セドルを破ってからだ。今回の柯潔との対局や相談碁、あるいはペア碁を見るに、どうやらAlphaGoは次のレベルに到達しているようだ。

AlphaGoの引退を発表した、DeepMindのCEOであるDemis Hassabisは次のように語っている

囲碁発祥の地とされる中国で、世界トップレベルの棋士と連戦することは、AlphaGoにとっても進化のための最高の機会となりました。このような最高の機会を経験し、AlphaGoは引退させることといたしました。

今後、AlphaGoの開発チームは「次のレベル」のための開発に注力することとなります。アルゴリズムをより汎用的なものに改造し、この世の中に存在する複雑な問題を解決するためのお手伝いができるようになればと考えています。想定しているのは、病気の治療方法の発見や、消費エネルギーの劇的削減、革新的な新素材の開発などです。

ボードゲームの中でもっとも複雑だとされる囲碁にチャレンジすることで、AIの能力を高め、人間と関わるやり方も磨いてきたわけだ。Googleだけでなく、Tencentもゲームの中でのAIの活用/成長を狙っている。ゲームの世界で、その可能性を実証して注目を集めることで、次のステップに進む準備が整ったと判断したのだろう。AlphaGoは、新たな段階に進むことを決断したわけだ。

これまでにもDeepMindは、実用分野での可能性を探ってきている。昨年にはイギリスの国民保険サービスとの間で情報共有について合意している。但しこれは、営利企業に対して膨大な数の個人データを引き渡すことになるわけで、反対の声もおおくあがっている。現在は個人情報補語監視機関(Information Commissioner’s Office:ICO)による精査が行われているところだ。

こうした混乱は、AI技術自身がもたらしたものではない。しかし活躍の機会を、現時点で十分に活用できていないということにはなる。

「医療分野においても、AIが新たな知識や問題の解決法をもたらすことができれば、これは大きなブレイクスルーとなるわけです。はやくそうした場での活躍を実現したいと考えているのです」とHassabisは述べている。

そのようなわけでAlphaGoは囲碁から離れることになる。但し、ただちに完全に手が切れるというわけではない。DeepMindは、イ・セドル戦からのAlphaGoの進化過程を報告書としてまとめる予定なのだという。また、囲碁初心者が囲碁の魅力を知り、また経験者がより高いレベルになるための学習ツールの開発も行なっているのだとのこと。中国で行われたイベントでも見られたが、柯潔もAlphaGoから学び戦術を自分のものとして取り入れたりしている。そのような可能性をもったツールが登場するのは大いに楽しみだ。

原文へ

(翻訳:Maeda, H

AlphaGo、世界ランク1位のプロ棋士に連勝

AlphaGoは、AIの実力が人間を上回ることを再度証明してみせた。人間の方が上回る点がないわけではなかろう。しかし少なくとも囲碁に関しては、AIの実力が人類を上回るようなのだ。

AlphaGoがその名を轟かせたのは、トップレベルの棋士であるイ・セドルを4対1で破ってからのことだ。しかしそこにとどまらず、AlphaGoは世界ランク第1位の柯潔にも連勝してみせたのだ。この対局は全3局が予定されており、今週中に第3局が打たれる予定となっている。

柯潔は現在19歳。第1局は半目勝負(非常な僅差)であったものの、今回は中押し負け(途中でのギブアップ)に追い込まれてしまった。AlphaGoのアナリストによれば、序盤はむしろ柯潔がうまく打っていたのだとのこと。

「これは勝てるのではないかと、どきどきしていたんだ。中盤では勝ちそうだと思ったよ。でもAlphaGoの方はそう感じていなかったのかもしれないね。こちらは心臓の音が聞こえるほど舞い上がっていたけどね」と、対局後に柯潔は述べていた

対局はもう1局残っている。しかし第3局の結果がどうであれ、AlphaGoは世界が認めるナンバーワンプレイヤーを破ったことになるわけだ。歴史の転換点とも位置づけられる対局だったかもしれないが、中国では一切ライブストリーミングもされず、大きな不満の声も上がっている。

AlphaGoを生んだのはロンドンに拠点をおくDeepMindだ。2014年にはGoogleが同社を5億ドルほどて買収している。プロ棋士に勝利するという話は広く世間の耳目を集めるが、DeepMindは囲碁以外の知的活動分野でも世の中の課題を解決し、実用的AIを構築しようともしている。

ただし、そちらの方面ではまだ十分な結果が出ているとは言えない状況だ。たとえばイギリスのNHS(National Health Service:国民保険サービス)との間で、避けられる死を防ぐための医療を構築するためにデータ共有することとしたが、このデータ共有については不適切なものであるとの判断が下されてもいる。

膨大な数の患者データを、Googleの所有する企業に提供することが適切かどうかについて大いに議論になっているわけだ。DeepMindとNHSとの共同プロジェクトについては、データ保護の観点からも検証しているところでもある。

原文へ

(翻訳:Maeda, H

一歳を迎えたGoogleのTPUチップがアップグレード、機械学習/ディープラーニングのすそ野をさらに広げる

Googleが今日(米国時間5/17)のGoogle I/Oカンファレンスで、同社特製の機械学習チップTensor Processing Unit(TPU)の次世代バージョンを発表した。この、機械学習のタスクを高速化する専用チップは、従来のCPUやGPUよりも速いとされているが、昨年の同カンファレンスで発表されて以来、今回が初めてのアップグレードになる。

まず、スピードのアップだ。Googleによると、第二世代のTPUは1基が180TFLOPSの性能を有する。まだベンチマークは見ていないが、スピード以外でも進歩している。第一世代のTPUは既存のモデルを使って推論するだけだが、第二世代はモデルの訓練もできる。モデルの訓練は機械学習のワークフローの中でもとくに重要だが、その全過程をこの強力なチップがやってしまうのだ。

機械学習のモデルとは、たとえば写真に写っているものが木か車か猫かを正しく同定する能力のことだ。機械学習の推論とは、モデルを使って行う確率つきのオブジェクト同定処理だ。たとえば、“この写真に写っているのは85%の確率で木であってブロッコリの茎ではない”、などと推論する。

Googleの今日の声明文によると、同社の大規模な翻訳用のモデルを訓練するのに、市販の最良のGPU 32基を使用してまる一日、その1/8の台数の“TPUポッド”〔64TPUs, 11.5PFLOPS〕では午後の数時間で完了した、という。

GoogleのTenso Flowチップセット。写真提供: Google

このような比較はいつも、よく調べないと正しい意味が分からないが、とにかくGoogleは、GPUより速いと言っている。今日の機械学習の演算では多くの場合、もっとも強力なチップとしてGPUが使われているのだ。

さらにGoogleは、このチップの能力を同社のクラウドプラットホームからSaaSのサービスとして提供している。誰もが気軽に、この世界に入れるように。また、IntelのSkylakeとかNvidiaのVoltaなど、ほかのチップで作ったモデルを、TPUのクラウドへ移植して使うこともできる。

またコストをあまりかけられない試行や研究用には、無料のクラウドサービスTensorFlow Research Cloudがある。そこでは、研究者たちが、クラウド上の1000 TPUのクラスターを利用できる。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

クラウド上で1000 TPUのクラスターをディープラーニングの訓練や推論に使える無料のプログラムをGoogleが外部研究者に提供

Google I/O初日(米国時間5/17)の最後を飾ったのは、研究者たちが無料で同社最先端の機械学習技術を利用できるプログラム、TensorFlow Research Cloudだ。研究者はその上で自分のアプリケーションを動かすことができ、利用にあたって、大学に籍があるなどの資格要件はない。

利用を認められた研究者は、クラウド上の1000 TPUのクラスターにアクセスして訓練や推論処理を実行できる。TPUは、1基の性能が180TFLOPSで、64GBのメモリを自分で持つ。使える時間は、承認されたプロジェクトによって異なる。

承認の条件のひとつは、その研究プロジェクトの詳細が他の研究者によるレビューの可能なメディア上に一般公開され、コードがオープンソースであることだ。公開はまずい、というプロジェクト用にGoogleは、民間企業が社内的に利用できるCloud TPU Alphaというプログラムを準備中だ。

申し込みはまだ完全オープンではないが、Googleに問い合わせれば、記入すべきフォームを指示される。そこに、訓練集合の大きさとか、モデルの訓練に要する時間、モデルの訓練に使用したいプラットホーム、使用するハードウェア、などを記入する。

審査は段階的に行われ、落ちた人はまた新しいプロジェクトで再挑戦するよう、Googleは奨励している。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ニューラルネットワークを使って、ゲームのアニメーションのぎこちなさを減らす

最近のゲームのグラフィックス精度には目を見張るが、クリエーターが表現に苦労することの一つが人間の滑らかな動きだ。本物のモーションキャプチャーデータを利用したニューラルネットワークに基づくアニメーションシステムを使えば、アバターの歩いたり走ったりジャンプする動きをもっと自然にできるかもしれない。

もちろん最近のゲームをプレイしたことのある人なら、すでに多くのゲームでスムーズな動きが実現しているのをご存知だろう ―― しかしそのためには、アニメーターたちがさまざまな動きをライブラリーから選びあらゆる場面にリンクさせる忍耐強い作業が必要だ。女性キャラクターが2階に登りながら弓を引き、さらにかがみこんだらどうなるのか?彼女が細い棒の上でバランスを取っている間に撃たれたらどうなるのか?可能性は無限にある。

エジンバラ大学とMethod Studiosの研究者が、さまざまな動きのモーションキャプチャーの部品を組み合わせる機械学習システムを作った。例えば「この方向へ行く」と入力すれば、地形を考慮して、例えば駆け足から小さな障害物を飛び越える場面にもっとも適したアニメーションを出力する。

駆け足からジャンプへと遷移するカスタムアニメーションを作る必要はない。アルゴリズムが判断してスムーズな動きを生成し、アニメーションのタイプが切り替わる際の不快な動きはない。多くのゲームエンジンが、足の位置やアニメーションのブレンドなど間に合わせの機能を提供しているが、これはもっと本格的なものを目指す新しい方法だ。

機械学習は以前からこの分野に導入されてきたが、ビデオでも言っているように、生成されるシステムはかなり原始的だった。動きが間違っていたりアニメーションが抜けることがあり、それはどれを使えばいいのかシステムにはわからないからだった。アニメーションの状態を決めつけすぎて動きがぎこちなくなることもある。

これを避けるために研究者らは、ニューラルネットワークにフェーズ機能を追加することで、例えばジャンプの途中で歩く、といった異なるタイプのアニメーションをあやまって混ぜることを防いだ。

「われわれの方法はデータ駆動なので、キャラクターは単にジャンプのアニメーションを再生するのではなく、障害物の高さに基づいて動きを連続的に調節している」と新しい方法を説明するビデオで研究者が語った。

これをそのままでゲームに使うことはもちろんできないが、アニメーションのブレンディングや作成のもっと高度な方法を作るための出発点になるだろう。これは、アニメーターの不満が減り、キャラクターの動きはもっと自然になるという意味かもしれない。あとは、エイリアンや蜘蛛やその他の生き物など、ふだんモーションキャプチャースタジオで見かけないものはどうするかだけが問題だ。

Daniel Holden、Taku Komura(以上エジンバラ大学)、Jun Saito(Method Studios) の3名が今年のSIGGRAPHで発表する。Holdenのウェブページに詳しい情報がある。

[原文へ]

(翻訳:Nob Takahashi / facebook

GoogleのCloud PlatformがGPUをサポート

tesla-m40-header

3か月前にGoogleは、2017年の早い時期に、機械学習などの特殊なワークロードためにハイエンドのグラフィクスプロセシングユニット(graphics processing unit, GPU)のサポートを開始する、と発表した。2017年の早い時期とは今のことだから、Googleは言葉に違(たが)わず今日から、Google Cloud Platform上でGPUを使えるようにした。予想通りそれはNvidiaのTesla K80で、ユーザー(デベロッパー)はひとつのCompute Engineマシンで最大8つを動かすことができる。

GPUベースの仮想マシンを使えるのは当面、三つのデータセンター、us-east1, asia-east1, そしてeurope-west1だけだ。ひとつのK80コアに2496のストリームプロセッサーと12GBのGDDR5メモリがある(K80ボードには2つのコアと24GBのRAMがある)。

image02

複雑なシミュレーションを動かしたり、TensorFlow, Torch, MXNet, Caffeeなどのディープラーニングフレームワークを使っているときには、計算力はどれだけあっても過剰ではない。GoogleがこれらのGPUインスタンスでねらっているのも、ハイエンドマシンのクラスタを常時動かして機械学習のフレームワークを駆動しているようなデベロッパーだ。このGoogle Cloud GPUは、GoogleのCloud Machine Learningサービスおよび同社のさまざまなデータベースとストレージのプラットホームに統合される。

GPUの利用料金単価はアメリカでは1時間70セント、ヨーロッパとアジアのデータセンターでは77セントだ。時間単価としてはお安くないが、Tesla K80の2コア/24GB RAMのアクセラレータは、たちまち数千ドルの節約を稼ぎだしてくれるだろう。

この発表から数週間後にGoogleはサンフランシスコで、Cloud NEXTカンファレンスを開催する。そこではおそらく、同社の機械学習をもっと多くのデベロッパーに使ってもらうための企画が、発表されるだろう。

image00-1

〔参考記事: AWSのGPUインスタンス

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

企業のクラウド環境をモニタしてリソース等の最適化を行うYotaScaleが$3.6Mを調達

Vector high tech internet data center. Network equipment that is used to organize the server room

エンタープライズ指向のアクセラレータAlchemistを卒業したYotaScaleが、360万ドルのベンチャー資金の調達を発表した。そのラウンドに参加した投資家は、Engineering Capital, Pelion Ventures, およびエンジェルのJocelyn Goldfein, Timothy Chou, そしてRobert Dykesだ。同社は機械学習を利用して、企業のクラウドコンピューティングの実行性能(パフォーマンス)や可用性、費用などの最適化を図る。同社と競合するCloudHealth TechnologiesCloudabilityも、この今や熱い市場で、合わせて8000万ドルの資金を獲得している。

クラウドコンピューティングは、今やどの産業でも事業の不可欠な要素になりつつあるが、しかしイノベーションが急速なので、インフラの進化に適切に付き合っていくのが難しい。その責任を人間に丸投げするのではなく、YotaScaleはクラウドインフラの実行性能管理そのものを自動化する。

同社は、きわめて多面的で複雑なクラウドデータを絶えず精査して、顧客企業のインフラストラクチャがその重要な事業的プライオリティに向けて確実に最適化されている状態を保つ。プライオリティは、費用の最小化などシンプルなものもあれば、目標の異なる複数のプロジェクトが関与する複雑な動的構造のこともある。

“機械の稼働率が低い、などの単純なことなら人間にも分かるし、一部の機械を止めればすむことだ”、とYotaScaleのCEO Asim Razzaqは語る。

Razzaqのシステムは、クラウドの利用データに課金とログのデータを結びつける。その複合データが、ベースラインと対照して異状を検出するための基盤になる。大量のデータではない、と思われるかもしれないが、リソースの消費やCPUの利用状態などの稼働状況を外挿するには十分なのだ。

むしろ、異状検出で難しいのは‘正常’の定義だ。何が正常かは、状況によって千差万別だからだ。分かりやすい例としては、CPUの利用がスパイクしても、それがブラックフライデーのeコマースなら全然異常ではない。そこでYotaScaleは履歴データにだけこだわるのではなく、今後の見通しも重視する。それによって、状況によるデータの浮動も理解できるようになる。変化が見られたら、それらにいちいちフラグをつけるのではなく、パフォーマンスの見通しと実態を突き合わせる。

クラウドインフラストラクチャのデータは、さまざまなタイプのデータがさまざまな時間間隔で生成される。毎時というものもあれば、毎日、というものもある。それらの違いを正確に見極めながら最適化を図る作業が、非常に難しい。アンサンブル学習という機械学習のテクニックを利用して分析の精度を上げ、捕捉したデータの多面的な特徴を管理している。基本は回帰分析だが、用途によってはそのほかの半教師ありモデルも使っている。

YotaScaleのユーザーであるApigeeやZenefitsなどは、機械学習に頼ってクラウドコンピューティングのニーズの理想的な管理ができている。その負担が、クラウドからもDevOpsからも消えている。また言うまでもなく、機械学習はリアルタイムの分析がとても得意だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの「A.I. Duet」は人間に合わせて即興演奏してくれる

2017-02-16_0955

Googleは今日(米国時間2/16)、楽しい機械学習実験を新たにスタートした。ウェブベースで行われるこの実験では、パソコンのキーボード(または対応するMIDIキーボード)でメロディーを奏でるとコンピューターがデュエット演奏してくれる。

しくみはこうだ。まずいくつか音階を弾いてコンピューターがレスポンスするのを待つ。ただしコンピューターから戻ってくるサウンドはデタラメに聞こえることが多い。演奏した音階と演奏の速さが何かしら関係しているのは確かだが、その「関係」は何らかのメロディーにも演奏のタイミングやリズムに近いものにも変換されない。まあそれがコンピューターにとっての音楽の楽しみかたなのだろう。

しかし、時にはアルゴリズムの理解が正しいこともあり、マシンとのすてきなやりとりが、音楽らしきものに感じることもある。

Googleによるとこの実験は機械学習ライブラリーTensorflowのMagentaというオープンソースプロジェクトに基づくもので、機械学習を音楽とTone.jsに持ち込むことが狙いだ。システムでは事前にプログラムされたアルゴリズムは使っておらず、既存のメロディーを使った訓練を受け、そこで得た知識を使ってレスポンスを返す。

[原文へ]

(翻訳:Nob Takahashi / facebook

GoogleとKaggleの共催で大量のビデオに自動的にタグ付けする機械学習アプリケーションの懸賞、賞金総額10万ドル

verticals-mosaic-6x3-big

GoogleとKaggleが今日(米国時間2/15)、機械学習の技術でビデオのタグ付けを自動化する方法の懸賞発表した

優勝賞金は3万ドルで、2位から4位まではそれぞれ2万5千、2万、1万5千、1万ドルの賞金をもらえる。応募するデベロッパーは、Googleが最近アップデートしたビデオデータの集合、YouTube-8M V2のビデオを分類してタグ付けする。700万本のYouTubeビデオから成るこのデータ集合は、計45万時間ぶんのビデオに相当する。ラベルはすでに付いているから、デベロッパーはそれを訓練データとして利用できる。ただし、まだ誰も見ていないビデオが70万本あるから、それらのタグ付けが難関だ。
kaggle
[ビデオのURL700万 総時間45万時間 オーディオ/ヴィジュアルフィーチャー32億 クラス4716 平均ラベル数3.4]

treemap-big

この懸賞を発表したまさに同じ日に、GoogleはTensorFlowの1.0をリリースしたが、おそらくそれは偶然ではない。懸賞で使用する機械学習フレームワークは、TensorFlowに限定されない。何を使ってもよい。しかしフルフレームで1.71TBにもなるこのデータ集合はGoogleのCloud Platform上にあるから、モデルの訓練にもGoogleのサービスを使うデベロッパーが多いだろう。しかも今回は、Cloud Platformを無料で使えるオプションもある。

先週Googleは、ビデオデータ集合YouTube-BoundingBoxesをローンチした。名前が示すとおり、このデータ集合(500万本のビデオ)には下図のように、各フレームにオブジェクトを指示するバウンディングボックス(囲み枠)がある。今回の懸賞でデベロッパーがそれらを使うことはないが、Googleがビデオの分類に関心を持っていることの表れでもある。日増しに成長を続けているYouTubeは、そこだけでの検索件数が、Google検索と競合するほかのどんな検索エンジンよりもたぶん多いのだ。

image00

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IBMの機械学習フレームワークPower AIがGoogleのTensorflowをサポート、Intelより一歩遅れて

shutterstock_157995017

IBMには、同社のPowerプロセッサーとNVIDIAのNVLinkをベースとするサーバーを使っている企業のための機械学習フレームワークPowerAIがある。NVLinkはGPUとCPUを結ぶ高速リンクで、ディープラーニングの計算はその多くをGPUが担当する。今日(米国時間1/26)同社は、そのPower AIが、機械学習ライブラリの中ではとくに人気のあるGoogleのTensorflowをサポートする、と発表した。

TensorFlowは公開されてまだ1年とちょっとだが、短期間でGitHub上の一番人気のオープンソース機械学習ライブラリになった。IBMのPowerAIはすでに、CAFFETheano, Torch, cuDNN, NVIDIA DIGITSなどのフレームワークをサポートしていたが、Tensorflowのサポートがないことが、まるで欠陥のように感じられていた。

IBMはPowerAIのNvidia NVLinkインタフェイスとPascal P100 GPUアクセラレータの組み合わせを、強力な差別化要因とみなしていた。その際、競合他社としていちばん意識しているのがIntelだが、そのIntelが最近Googleと組み、同社のCPUでTensorFlowのパフォーマンスを上げようとしている。

IBMはもちろん安物のサーバーを売っている企業ではないので、Power AIをサポートするマシン、Power System S822LC for high-performance computingは、プライスリストにすら載っていない。その一般商用バージョンの価格は、1万ドル弱から上だ。

IBMの今日の発表の中には、TensorFlowのサポートに加えて、ニューラルネットワークを作るためのフレームワークChainerのサポートがあった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Microsoftがインドで目の健康のために機械学習を活用、Google DeepMindに対抗

machine-learning-msft

同じ企業間競争でも、障害者の生活が少しでも良くなるための競争なら、大いに奨励したいね。Microsoft Indiaは、GoogleのDeepMindのやり方に倣って、インドにデータドリブンの視覚障害者支援サービスを導入するための研究グループ、Microsoft Intelligent Network for Eyecare(目のケアのための人工知能ネットワーク)を立ち上げた

DeepMindの眼科医学へのアプローチはイギリスがターゲットだったが、Microsoftは必ずしも対象国を限定しない。同社はアメリカ、ブラジル、オーストラリア、そしてもちろんインドの研究者たちの協力を求めながら、機械学習モデルを教育訓練し、失明の原因となる症状をシステムが同定できるようにする。

Microsoftの中心的なパートナーとなるハイデラバードのL V Prasad Eye Instituteは、インドの名門病院のひとつだ。このプロジェクトはとくに子どもに力を入れ、屈折矯正手術の結果や、子どもの近視率の変化の予測、といった意欲的な課題に取り組んでいく。

GoogleのDeepMindは、イギリスのNational Health Serviceとパートナーして目のスキャンを分析し、湿性で年齢と関連する黄斑変性や糖尿病性網膜症を検出する…これら二つは、失明に導く症状だ。それは、症状の早期発見によって早期治療を可能にし、目の損傷の重症化を防ぐ、という考え方だ。

アイケア(eyecare, 目のケア)は、これまで医学とは無縁だったような企業が、保健医療分野で機械学習のポテンシャルをテストするための、人気分野になりつつある。人間の健康状態の中でも目の状態や症状は、画像分析によくなじむからであり、それはイコール、機械学習の当面の得意分野でもある。医療診断へのコンピューターの利用は決して新しい技術ではなく、放射線画像の分析などは何年も前から行われている。しかしテクノロジー企業はこのところとくに熱心に、独自の研究開発テーマとしてこの分野に取り組んでいる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

あの鳥は何だろう?と思ったら写真を撮って鳥認識アプリMerlinに見せよう、数秒で分かる

blackburnian-flow2-smallfull

あれはヒメハジロかな? それともオオバン? アビじゃないの? ではなるべく近くで写真を撮り、鳥の種を確認するアプリMerlinに見せよう。数秒で教えてくれるから、まるでそれは、鳥類学者になりたいきみのためのShazamだね。

もう1年あまり前から、写真を認識する機能はMerlinの大きなエコシステムのごく一部でしかないけど、最近コーネル大学の愛鳥家たちが、モバイルアプリでそれができるようにした。写真を撮ってそれをズームすれば、あとはMerlinのデータベースが仕事をしてくれる。

飛んでいるミサゴをGalaxy S4で撮るのは難しい。接写なら水辺の方がいいね。

飛んでいるミサゴをGalaxy S4で撮るのは難しい。接写なら水辺の方がいいね。.

もちろん、スマートフォンの広角カメラでは、小鳥たちの良質な接写は難しい。でもアプリの作者によると、ヘタな写真でも90%は正しく当てるそうだ。確信が持てないときは、いくつかの質問に答えるとよい…どんな鳴き声か、喉に細い帯状の模様があるか、などなど。すると精度は100%に近くなる。オフラインでも利用できるけど、そのためにはあらかじめ、200メガバイトものデータをダウンロードしなければならない。

コーネル大学の協力を得て実際にこのアプリを作ったVisipediaの協同ファウンダーPietro Peronaはこう語る: “このアプリはうちの学生たちの7年間の努力の成果であり、コンピュータービジョンと機械学習の最近の大きな進歩に支えられている”。

もう一人の協同ファウンダー、コーネル大学のSerge Belongie教授は曰く: “今後は鳥だけでなく、蝶や蛙、植物など、いろんなものを視覚的に判定できる、誰もが使えるオープンなプラットホームを作っていきたい”。

アプリはAndroid iOSも無料だが、データをダウンロードして使うためには、500メガバイトぐらいの空きスペースが必要だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのAI翻訳ツールは独自の内部的言語を発明したようだ、そうとしか言えない不思議な現象が

terminat-visio2-620x340

まあ、パニックになる必要もないけど、今やコンピューターが自分たちの秘密の言語を作って、たぶんまさに今、われわれについて話しているんだ。ちょっと話を単純化しすぎたし、最後の部分はまったくのフィクションだけど、GoogleのAI研究者たちが最近、おもしろそうで、しかも人間にとって脅威になるかもしれない、事態の進展に、遭遇しているんだ。

憶えておられると思うが、Googleは9月に、同社のNeural Machine Translation(ニューラルネットワークによる機械翻訳)システムが稼働を開始したと発表した。それは、ディープラーニングを利用して複数の言語間の翻訳を改良し、より自然な翻訳にする、というものだ。そのこと自体はクールだが…。

これの成功のあと、その翻訳システムの作者たちは、あることが気になった。翻訳システムに、英語と韓国語双方向と、英語と日本語双方向の翻訳を教育したら、それは韓国語を日本語へ、あいだに英語を介さずに翻訳できるのではないか? 下のGIF画像を見ていただきたい。彼らはこのような翻訳方式を、“zero-shot translation”(ゼロショット翻訳、分枝のない翻訳)と呼んだ(オレンジ色のライン):

image01

そして — その結果は!、明示的なリンクのない二つの言語でありながら、まあまあの(“reasonable”)翻訳を作り出したのだ。つまり、英語はまったく使っていない。

しかしこれは、第二の疑問を喚起した。形の上では互いにリンクのない複数の概念や語のあいだの結びつきをコンピューターが作れるのなら、それは、それら複数の語で共有される意味、という概念をコンピューターが作ったからではないのか? 一つの語や句が他のそれらと同じ、という単純なレベルではなく、もっと深いレベルで。

言い換えると、コンピューターは、言語間の翻訳に自分が用いる概念(共有される意味概念)を表現する独自の内部的言語を開発したのではないのか? ニューラルネットワークの記憶空間の中では、さまざまなセンテンスがお互いに関連し合っているのだから、その関連の様相から見て、言語とAIを専門とするGoogleの研究者たちは、そうだ、と結論した。

A visualization of the translation system's memory when translating a single sentence in multiple directions.

翻訳システムの記憶の視覚化: 一つのセンテンスを複数方向へ翻訳している

この中間言語(“interlingua”)は、日・韓・英の三言語の文や語の類似性を表している表現の、ずっと深いレベルに存在しているようだ。複雑なニューラルネットワークの内部的処理を説明することはおそろしく難しいから、今これ以上のことを言うのは困難だ。

非常に高度なことをやってるのかもしれないし、あるいは、すごく単純なことかもしれない。でも、それがとにもかくにもある、という事実…システムが独自に作ったものを補助具として使って、まだ理解を訓練されていない概念を理解しようとしている…もしもそうなら、哲学的に言ってもそれは、すごく強力な‘才能’だ。

その研究論文は、Arxivで読める(効率的な複数言語翻訳に関する論文だが、謎のような中間言語にも触れている)。システムが本当にディープな概念を作ってそれを利用しているのか?、この疑問への答は今後の調査研究の課題だ。それまでは、最悪を想定していよう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのCloud PlatformがGPUマシンを提供するのは2017年前半から、ただし機械学習SaaSとAPIはますます充実

google_data_center_2

Googleが今年前半に立ち上げたCloud Machine Learningサービスは、Google自身によれば、早くも“急成長プロダクト”の一つになっている。今日同社は、このサービスの新しい機能をいくつか発表し、機械学習のワークロードを動かしたいと思っているユーザーとデベロッパーの両方にとって、さらにサービスの利用価値を増そうとしている。

これまでGoogleは、競合するAWSやAzureのように、ハイエンドのGPUを使う仮想マシンをデベロッパーに提供してこなかった。しかし、機械学習など、科学の分野に多い特殊でヘビーなワークロード、とくにそれらのアルゴリズムは、GPUのパワーを借りないとうまく動かないことが多い。

デベロッパーたちが一般的にGoogle Cloud Platform上で機械学習のワークロードを動かせる、そのために仮想マシンのGPUインスタンスが提供されるのは、Googleの発表によると、2017年の前半だそうだ。料金は、そのときに発表される。

なぜGoogleは、もっと前からこのタイプのマシンを提供しなかったのだろうか? Google自身、機械学習に非常に熱心だし、競合相手のAzureやAWSはとっくに提供しているというのに(Azureは今日(米国時間11/15)、OpenAIとパートナーシップを結んだ)。

しかしデベロッパーは、Googleの既存のCloud Machine Learningサービスを使って自分の機械学習ワークロードを動かすことはできる。そのための構築部材TensorFlowも利用できる。でもCloud Machine Learningが提供しているような高い処理能力と柔軟性を、Google既存のプラットホームで利用することが、まだできない。

今のGoogleはデベロッパーに、カスタムの機械学習モデルを構築するためのサービスと、機械学習を利用した、すでに教育訓練済みのモデルをいくつか提供している(マシンビジョン(機械視覚)、音声→テキスト変換、翻訳、テキストの情報取り出しなど)。Google自身が機械学習で高度に進歩しているし、独自のチップまで作っている。そこで今日のGoogleの発表では、Cloud Vision APIの使用料が約80%値下げされた。またこのサービスは、企業のロゴや、ランドマークなどのオブジェクトも見分けられるようになった。

そしてテキストから情報を取り出すCloud Natural Language APIは、今日(米国時間11/15)、ベータを終えた。このサービスは、構文分析機能が改良され、数値、性、人称、時制なども見分けられる。Googleによると、Natural Language APIは前よりも多くのエンティティを高い精度で認識でき、また感情分析も改善されている。

消費者向けのGoogle翻訳サービスは、今ではカスタムチップを使っている。またデベロッパー向けにはCloud Translation APIのプレミアム版が提供され、8つの言語の16のペアがサポートされる(英語から中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語、トルコ語、など)。サポート言語は、今後さらに増える。プレミアム版では、これらの言語に関しエラーが55から85%減少した。

この新しいAPIは主に長文の翻訳用で、100言語をサポートする“標準版”は、短い、リアルタイムな会話テキスト用だ。

さらに、まったく新しいプラットホームとしてCloud Jobs APIがある。この、あまりにも専門的で奇異とすら思えるAPIは、求職者と仕事の最良のマッチを見つける。つまり、仕事のタイトル、スキル、などのシグナルを求職者とマッチングして、正しいポジションに当てはめる。Dice やCareerBuilderなどのサイトはすでにこのAPIを実験的に使って、従来の、ほとんど検索だけに頼っていたサービスを改良している。このAPIは、現在、特定ユーザーを対象とするアルファだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習の応用例デモ8種をサイト訪問者がいじって遊べるGoogleのAI Experiments、コードのダウンロードもできる

ai_experiments

Googleの機械学習や人工知能の仕事はおもしろいものが多いが、商業的というより、ややアカデミックだ。でも人間は、そんな、手で触れないものでも、なんとか触(さわ)って理解したいと思う。そこでGoogleは、この新しい技術の小さなデモを集めて、AI Experimentsという展示サイトを作った。

目的は、人びとが機械学習の応用例をいじって遊んだり、コードをダウンロードして原理を理解することだ。今展示されているのは8つだが、そのうちの4つは今すぐにでもWeb上で対話的に体験できる。

giorgio

Giorgio Cam(モバイルがおすすめ)は、ユーザーのカメラが捉えた物を識別し、その言葉で韻を踏み、汽笛で警告を鳴らす。

Quick, Draw!はユーザーのスケッチを認識する絵辞書。ユーザーがいろんな物の絵を描いて、この辞書を教育できる。

drummachine-google

Infinite Drum Machineは、ユーザーが指定した音列に似た音を集める。それらをシャッフルして鳴らすと、MatmosやMira Calixのようなビートにもなるだろう。わざと、そうしてるのだ、と思うけどね。やり過ぎるとひどい騒音になるので、ご注意を。

Bird Soundsは、その名のとおり。鳥の鳴き声をAIがそのリズムや音調で分類している。あなたの家の窓の外でいつも鳴いてる鳥は、そこに見つからないかもしれないけど、鳴き声をpoo-tee-weetなんて書いてある図鑑よりは、ましだな。

そのほかのデモも、ダウンロードしたり、例を見たりできる。たとえばAI duetは、あなたのキーボードの演奏を真似て、それをより高度にしようとする。そしてThing Translatoは、物を見せるとその物の名前を翻訳する。実用性ありそう。

そのほかの実験展示物はここにある。訪問者が自由に出展できるから、今後はもっと増えるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

マイクロソフトの音声認識技術、「人間並み」に到達

whisper

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

The team at Microsoft's Speech & Dialog research group.

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

Google、AIから偏見を排除する方法を研究中

Artificial intelligence and cybernetics

ガーベージイン・ガーベージアウト ― これは常にコンピューティングのルールであり、機械学習も例外ではない。基本的ぬAIは、教えられたことしか知らないので、データに何らかの偏見があれば、それに基づいて訓練されたシステムもそうなる。Googleは、そんな厄介で深刻な問題を引き起こしかねない状態を、”Equality of Opportunity” [機会均等]と名付けた方法を用いて系統的に回避しようとしている。

機械学習システムは、基本的に様々なデータ集合の性質学習する予測エンジンから成り、新たなデータを与えられるといくつかあるバケツのどれかに分類する。画像認識システムなら、車のタイプの違いを学習し、それそれの写真に「セダン」「ピックアップトラック」「バス」等のラベル付ける。

間違いは避けられない。スバルのBRATやシボレーのEl Caminoを考えてみてほしい。コンピューターがどう判断するにせよ、それは間違っている。この少数しか存在しない車両タイプのデータを十分に持っていないからだ。

この例の誤りから起きる問題は取るに足らないだろうが、もしコンピューターが車でなく人間を調べ、住宅ローン不払いのリスクによって分類したらどうだろうか? 共通パラメーターから外れた人々は、システムがデータに基づいて良好と考える条件に当てはまらない可能性が高くなる ― それが機械学習のしくみだからだ。

グループのメンバー情報に、繊細な属性、例えば人種、性別、障害、宗教等があった場合、不公平あるいは偏見をともなう結果を招きかねない」とGoogle BrainのMoritz Hardtがブログに書いている。「ニーズがあるにもかかわらず、繊細な属性に基づくこの種の差別を防ぐための十分吟味された方法論が、機械学習には存在しない」

Hardtは、同僚のEric Price、Nathan Srebroと共同で、この種の結果を避ける方法を説明した論文をまとめ、この種の結果を避ける方法を記載した。次のような数式がたくさん書かれている。

Kolmo-what now?

Kolmo-what now?

しかし要点はこうだ:望ましい結果が存在し、誤った属性のために正しい結果を得られない可能性があるとき、アルゴリズムが自らを調整して、その属性によらず結果の分布が均等になるようにする ― 即ち、本質的でない属性間に等しい価値を置くようシステムを訓練する。

チームが作ったこのインタラクティブ・チャートを使うと直感的に理解できるだろう。これは道徳的に正しい数字をひねり出すためのものではない。モデルの結果はむしろ予測を正確に反映している。もし、ある属性に意味があるなら ― 地域に基づいて信仰する宗教を計算したり、性別による医学的予測を行う場合等 ― それを判定基準に含めればよい。

機械学習が多くの業界で急速に広まる中、Googleの取り組みは実に思慮深く、極めて意義が大きい。新たなテクノロジーの限界とリスクをよく理解しておくことは大切であり、これは地味だが重要な活動だ。

著者らはNeural Information Processing Systems会議で論文を発表する — 誰もがバルセロナを訪れる良い理由だ。

[原文へ]

(翻訳:Nob Takahashi / facebook

Yahooがポルノを検出するニューラルネットワークをオープンソース化、ただし訓練はあなたの仕事

nsfw_score

インターネットの上のものに、どうやってNSFWを指定するのか? Yahooに聞こう。Yahooはそれをやっている。わいせつなコンテンツで訓練した、同社特製の、ポルノ検出ニューラルネットワークだ。そして今回、そのシステムがオープンソースになったから、誰もが使える。そう、そのとおり、フォークするのも自由だ。

それはもちろん冗談。Yahooのアルゴリズムは万能ではない。画像を見てNSFWだ、と判断するのは、もっとも手強い難問の一つだ。昔から、見れば分かるさと誰もが言うが、そう言える人は、全生涯をポルノを見て過ごした人だけだ。コンピューターには、そんな経験はない。

純潔無知なマシンもしかし、Yahooに捕まって何千もの画像で訓練され、画像認識エンジンにされてしまうと、腐敗のきわみに達する。もう、彼の純情は永遠に盗まれてしまった。しかしそれと引き換えに、あなたがネットで検索したとき、結果にいやらしいものが紛れ込む確率は低くなる。

でも、まじめな話、畳み込みニューラルネットワーク(convolutional neural networks, CNN)は画像を分類するための優れたツールだ。そのことは、これまでの数多い研究によって証明されている。特定のタイプの画像のデータベースで訓練すると、アルゴリズムは一定のパターンに対して敏感になる。犬を見分けるCNNなら、尻尾や鼻や、とがった口をたくさん見せられるだろう。車なら、車輪やドアの取っ手やラジエーターグリルを認識する。そしてポルノなら何を、…それはご想像におまかせしよう。

Yahooのシステムはいろんな画像を見て、それらに0から1までの点をつける。ポルノだと判断した画像の点は、1に近い。検閲目的だけでなく、いろんな状況で使えそうだ。刺激的な画像が歓迎される場面もあるが、Web上の大量のデータを相手にするときは、それらを篩い落とせた方が便利だ。

メールやメッセージを、プライバシー侵害にならずに、チェックすることもできる。同僚がいたずらで送ってきたNSFW画像を、職場でうっかり開く醜態は、たぶんなくなる。

オープンソースのコードをビルドしてエンジンができても、まだそれは全然訓練されていない。たくさんポルノを見せて訓練するのは、あなたの役目だ。でも今のインターネットの上なら、それは問題ないだろう。詳しい説明はYahooのブログ記事にある。そしてコードのダウンロードはGitHubからだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))