NvidiaはGPUを使ったゲノム分析ツールキットを新型コロナ研究者に無料で提供

Nvidia(エヌビディア)は、新型コロナウイルス(COVID-19)のパンデミックと戦って感染拡大を防ごうと努力している研究者に、その研究内容の如何を問わず、同社のParabricksツールを90日間無料で提供する。ニーズによっては、期間の延長もありえる。このツールはGPUを利用したゲノム分析ツールキットで、GPUのパワーを利用してこれまで数日かかっていた処理をわずか数時間で完了する。

Parabricksの遺伝子配列(ゲノムシークエンシング)スイートを動かすためにはNvidiaのGPUへのアクセスが必要だが、このソフトウェア実行環境についても無料になる。これは、新型コロナウィルスや感染した患者を研究している者にとって大いに助かる。このGPUメーカーは、さまざまなクラウドベースのGPUサービスプロバイダーへのリンクも提供するのでハードルはさらに低くなる。

過去数年間で遺伝子配列のスピードはめざましく向上したが、そのためには依然として膨大な量の計算機資源を必要とする。Nvidiaが昨年買収したParabricksの技術は、人間の全ゲノムのシークエンシングを1時間未満で行う。しかもサーバーファームの全体を使うのではなく、サーバーを1つしか使わない。

ウイルスの拡散と、それによる呼吸器疾患を防ぐあらゆる取り組みにとって、スピードが重要だ。特に薬物治療やワクチンの研究開発にとっては信頼性の高い情報の欠如が大きな問題だ。ウイルス本体と、感染時および治癒後の患者の遺伝子構造の特性を理解するためには、なるべく大量のシークエンシングをなるべく短時間でやりたい。それによって一般の治療法や免疫療法の発見と実用化も早くなるはずだ。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

NvidiaとVMwareが提携し、GPU仮想化をより容易に

Nvidia(エヌビディア)は米国時間8月26日、GPU仮想化技術(vGPU)をVMWareのvSphereとAWS上のVMware Cloudに導入するために、VMwareと協力していることを発表した。同社のコアなvGPUテクノロジは新しいものではないが、サーバー仮想化をサポートするようになったため、vSphereのような環境で新しいvComputeServerテクノロジーを使用し、ハードウェア・アクセラレーテッドAIやデータサイエンス関連処理を実行することができる。

従来(人工知能の訓練に関する限り)、GPUにより高速化される処理はベアメタルサーバー上で実行される傾向があり、通常は企業の他のサーバーとは別に管理されていた。

「vComputeServerにより、IT管理者は既存のワークフローを維持し、全体的な運用コストを削減しながら、GPUにより高速化された仮想化サーバーの管理を効率化できる」 と、Nvidiaは説明している。「この技術がもたらす利用効率の向上により、企業はGPUの共有と集約において、コスト面でのメリットを享受できる」。

vComputeServerはVMware Sphere、vCenter、vMotion、VMware Cloudと連携する。実際、両社は同じvComputeServerテクノロジーを使用して、AWS上のVMware CloudにもアクセラレーテッドGPUサービスを提供している。これにより、企業はコンテナ化されたアプリケーションを必要に応じて自社のデータセンターからクラウドに移行し、AWSの他のクラウドベース技術に接続できる。

「運用インテリジェンスから人工知能に至るまで、企業は収益に直接影響する高速で正確な予測を行うために、GPUアクセラレーテッドコンピューティングに依存している」と、Nvidiaの創設者兼CEOのJensen Huang(ジェンスン・フアン)氏は述べている。「VMwareとともに、企業全体でイノベーションを促進するために、最も先進的で最高のパフォーマンスを発揮するGPUアクセラレーテッド・ハイブリッドクラウドインフラストラクチャを設計している」

[原文]

(翻訳:塚本直樹 Twitter

ARMが新しいCPUとGPU、そして機械学習チップを発表

ARM(アーム)は、世界でほとんどのスマートフォンが使っている基本チップを設計している会社だ。米国時間5月27日に同社は、高級スマートフォン向けの次期チップデザインを発表した。このデザインに基づいて作られたチップの完成にはまだ時間がかかるだろうが、これまでの例にならえば年末までには最初のチップを見ることができると思われる。今回同社は、Cortex-A77 CPU、Mali-G77 GPU、および省エネルギーを強化した機械学習プロセッサーを発表した。

最近のトレンドを踏まえると、新しいCortex-A77が総合性能の改善だけに焦点を当てていないことは驚きではないが、前世代に比べてIPC性能を20%改善したと同社が約束している点は見逃せない。ハードウェア、ソフトウェア一体となった最適化のおかげで、Cortex-A77は機械学習性能も著しく改善されている。

機械学習プロセッサーも提供している同社がなぜ、そこを強調するのか?ARMによると、現在専用のニューラルプロセッサーを使用しているスマートフォンはほとんどない。実際、スマートフォンの85%はCPUのみまたはCPU+GPUの組み合わせで機械学習の負荷を受け持っている。また、アクセラレーターが利用できる場合でも、それがGPUであれ専用機械学習チップであれ、そこにタスクを引き渡すのはCPUだ。

他の新世代ARM CPU同様、Cortex A77もエネルギー効率および生の性能の改善を約束している。実際ARMは、2013年以来性能を4倍にしたと言っている。

同社はモバイルゲーミングにも賭けている。その延長線上にはモバイルVRやAR体験がある。新しいMail-G77 GPUアーキテクチャは、同社のValhall GPUデザインをベースにした最初のチップであり、G76の1.4倍の性能を約束している。エネルギー効率も30%向上し、機械学習の推論とニューラルネットワークの実行は60%速くなった。

機械学習プロセッサーに関して、ARMはすでにProject Trilliumという、同社CPUと組み合わせて使用する異機種間機械学習処理プラットフォームを提供している。昨年Trilliumを発表して以来、同社はエネルギー効率2倍、最大8コアで32 TOP/秒のスケールドパフォーマンスを実現している。

「新しいスマートフォン体験は、高いハードウェア性能と新たなソフトウェアイノベーションを可能にする機能によって作られる。デベロッパーにとってCPUは、一般計算のみならず機械学習も扱うこれまでになく重要な存在になっている。没頭姓の高いAR/VRアプリケーションや高画質のモバイルゲームなどでも同様だ」と同社が発表文で述べた。

[原文へ]

(翻訳:Nob Takahashi / facebook

NVIDIAの次世代RTXポッドは1280基のGPU搭載、ネット上のハイエンドビジュアルを狙う

このところNVIDIA(エヌビディア)は、クラウドの大物になりたがっている。もともとは高性能なグラフィクスカードでゲームファンの人気企業だったが、最近ではデータセンターやAI、機械学習の推論、そして推論エンジンやデータ視覚化用のGPUに力を入れている。米国時間3月18日に開催されたGTCカンファレンスで同社は、ハリウッドのスタジオなどビジュアルなコンテンツを迅速に作りたいと願っている企業向けに、RTXサーバーの最新の構成を発表した。

そのRTXサーバーポッドは、32のRTXブレードサーバー上で最大1280基のTuring GPUをサポートする。それはサーバー1つあたり40のGPUを意味し、ひとつのサーバーがEIA規格で8Uのサイズになる。GPUは、構成にもよるがQuadro RTX 4000または6000だ。

今日の発表声明はこう述べている。「NVIDIAのRTX Serversは、Optix RTXレンダリングとゲーム、VR、AR、プロフェッショナルな視覚化アプリケーション向けに最適化されたソフトウェアスタックを持ち、レイトレーシングで強化された映画クラスのグラフィクスを、同じ性能のCPUベースのレンダリングクラスターよりもずっと低いコスト(電気料金)で提供する」。

このパワーを複数のユーザーで共有でき、バックエンドのストレージと相互接続ネットワークは、NVIDIAが今月初めに69億ドルで買収したMellanoxの技術が支える。その買収と今日のニュースはNVIDIAの未来にとってデータセンターがいかに重要であるかを物語っている。

DellやHP、Lenovo、Asus、SupermicroなどのシステムメーカーがRTXサーバーを顧客に提供しており、そのすべてをNVIDIAが検証し、それらの上で動くワークロードの管理には同社提供のソフトウェアツールを使用する。

NVIDIAは、これらのサーバーはARやVRをエッジで動かしたり、5Gネットワーク上でビジュアルをクライアントにサーブするのに適している、と力説している。それはあまりにもバズワードまみれとも感じるし、ARやVRに一般消費者が関心を持ったり、5Gネットワークがメインストリームになるのは、まだかなり先だろう。しかしそれでも、例えばゲームプレーをクラウドからストリーミングで提供するといったニーズには今日すでに、これらのサーバーが活躍できそうだ。

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

Apache Sparkの技術を応用するDetermined AIがAI開発を民主化

深層学習では、データサイエンティストは、かなり反復的なプロセスによってモデルを設計し、GPUを利用したシステム上でテストすることになる。そうすることで、はじめて機能するものを手にすることができる。それには、多大な費用と時間がかかる。適切なモデルを仕上げるのに数週間かかることもざらだ。新しいスタートアップDetermined AIは、そこにメスを入れ、そのプロセスをより速く、安く、そして効率的なものにしたいと考えている。そして今日、1100万ドルのシリーズAの資金を得て忽然と表舞台に姿を現した。

今回のラウンドは、GV(かつてのGoogle Ventures)が主導したもので、Amplify Partners、Haystack、さらにSV Angelの協力も取り付けている。同社はすでに2017年、260万ドルのシードラウンドがあったことも発表した。現在までにトータルで1360万ドルを調達したことになる。

Determined AIの共同創立者兼CEOであるEvan Sparks氏によれば、これまでは、Facebook、Google、Apple、Microsoftのような巨大企業だけが、自動運転や音声認識技術など、高度なAIを生み出すためのインフラとシステムを構築することができたのだという。「私たちの考えでは、そうしたことが可能な大きな理由は、それらの大企業はみな社内にソフトウェアのインフラを持っていることにあります。それによって、機械学習のエンジニアとデータサイエンティストのチームは効率的に仕事ができ、素早くアプリケーションを生み出すことができるのです」と、Sparks氏はTechCrunchに語った。

Determined AIのアイデアは、クラスタ計算機のリソース管理からワークフローの自動化まで、すべてを扱えるソフトウェアを作成すること。それにより、大企業と同様の技術を、あらゆる組織の手の届くところに引き寄せることができる。「私たちの使命は、そのソフトウェアを他のみんなのために開発することです」と彼は述べた。ターゲットとする市場は、Fortune 500や、Global 2000に含まれているような企業となる。

同社のソリューションは、カリフォルニア大学バークレー校のAmpLabでの、ここ数年間の研究成果に基づいている。同研究室は、ビッグデータを扱うクラスタ計算機のフレームワーク、Apache Sparkを開発したことでもよく知られている。その研究室で培った知識を使って、顧客のGPUリソースをより有効に活用できるようにするための高度なソリューションを開発したのだ。

「私たちが提供するは、スケジューリングとリソース共有のための一種の基礎レイヤーです。それによって、そうした非常に高価なリソースを扱います。その上に、ワークフローを自動化するための、いろいろなサービスのレイヤーを重ねるのです」と、Sparks氏は説明する。これまでにチームが達成した最先端の成果によれば、現在ほとんどの会社が使っているツールに比べて、5倍から50倍も高速化を実現できるという。

今のところ、このスタートアップは、顧客が現在利用可能な一般的な種類のソリューションから、よりカスタマイズされたアプローチに移行するのを支援しようとしている。そこでは、Determined AIのツールを使って、AIの生産プロセスをスピードアップすることができる。今日のラウンドから得た資金は、成長を促進させ、エンジニアを増強し、ソリューションを開発し続けることを可能にするはずだ。

画像クレジット:Getty Images

原文へ

(翻訳:Fumihiko Shibata)

クラウドサービスのScalewayがGPUインスタンスを1時間1ユーロで提供

フランスのクラウド・ホスティング会社Scalewayは、Nvidia Tesla P100 GPUを使用した新しいインスタンスを公開した。同社はシンプルな価格体系を採用し、料金は1時間あたり1ユーロとした。

今や多くの会社がGPUインスタンスを使って機械学習ベースのアプリやサービスのモデルを訓練している。こうしたインスタンスを活用して3Dモデルを作ったり、その他のGPU主導タスクを実行している会社もある。高価なGPUを山ほど買わなくても、気に入ったクラウドホスティング会社でGPUをオンデマンドで使うことができる。終わったらそのインスタンスを閉じる。

ScalewayのRENDER-SインスタンスはNvidia Tesla P100に16 GBのHBM2メモリーを付けて使っている。RAM 45 GBと400 GBのストレージ(ローカルNVMe SSDなのでビデオ処理は超高速のはず)を備え10コアのIntel Xeon Gold 6148をAVX-512命令セットで使用している。ある程度長い期間使う予定があれば、料金は1時間1ユーロまたは月間500ユーロ(567ドル)のどちらか安い方になる。

Google Cloudでは、Nvidia P100のオンデマンド・インスタンスを1時間あたりアジア・ヨーロッパでは1.60ドル、米国では1.46ドルで使える。MicrosoftもP100 GPUのクラウド・インスタンスを1時間2.07ドルで提供している。Scalewayは、これらのサービスを主なライバルと見ているのだろう。

AmazonものAmazon Web ServiceにもGPUインスタンスがある。Nvidia Tesla V100というもっと強力な GPUを使うインスタンスもある。価格も高く1時間当たり3ドルだ(価格はデータセンターによって異なる)。古いGPUを使うAWSインスタンスもあるが、性能は落ちる。

OVHもTesla V100 GPUを使った インスタンスを1時間当たり2.30ユーロ(2.61ドル)で提供している。DigitalOceanとLinodeではGPUインスタンスを見つけることができなかった。

おそらく殆どの人にとってGPUインスタンスは必要ない。しかし、次のクラウドプロバイダーを探している会社にとっては、重要な要素になりうる。支払先を一箇所にまとめたければ、幅広いオプションのある会社を選ぶ必要がある。

[原文へ]

(翻訳:Nob Takahashi / facebook

推論過程をGPUで加速するAmazon Elastic Inferenceはディープラーニングのコストを75%削減する

Amazon Web Servicesが今日、Amazon EC2のどんなインスタンスでもGPUによる推論の加速ができるサービスAmazon Elastic Inferenceを発表した。これにより、ディープラーニングのコストが最大75%削減できるという。

AWSのCEO Andy Jassyは、今朝のAWS re:Inventのステージでこう述べた: “従来のP3インスタンス(GPU常備のインスタンス)では通常、GPUの利用率がせいぜい10%から30%ぐらいで、エラスティックな推論用としては無駄が多い。それだけの費用やGPUを、無駄に使うべきではない。Amazon Elastic Inferenceでは、もっと費用効率の良い方法で推論エンジンを動かせるから、きわめて画期的なサービスだ”。

Amazon Elastic Inferenceは、モデルの作成/学習ツールAmazon SageMakerのノートブックインスタンスとエンドポイント用にも利用でき、“内蔵アルゴリズムとディープラーニングの環境を加速できる”、と同社はブログ記事で言っている。機械学習のフレームワークは、TensorFlow, Apache MXNet, そしてONNXをサポートしている。

[顧客の皆様には、仕事の性質に合った正しいツールを使っていただきたい。このたび発表するAmazon Elastic Inferenceを使うと、エラスティックな(伸縮性のある)GPUサポートを加えて、どんなEC2インスタンスの上でもスケーラブルな推論ができ、大幅な経費節約が可能だ。]

三つのサイズが提供されている:
(混合精度, mixed-precision, FP16とFP32の併用使い分け)

  • eia1.medium: 8 TeraFLOPsの混合精度パフォーマンス
  • eia1.large: 16 TeraFLOPsの混合精度パフォーマンス
  • eia1.xlarge: 32 TeraFLOPsの混合精度パフォーマンス

この新しいサービスを詳しく知りたい方は、こちらへ

more AWS re:Invent 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

NvidiaがローンチしたTesla T4は最速のデータセンター用推論プラットホームだ

Nvidiaが今日(米国時間9/1)、データセンターにおける機械学習と推論のための新しいGPUを発表した。そのTesla T4 GPUs(TはNvidiaの新しいアーキテクチャTuringを指す)は、クラウドコンピューティングのメジャーなプロバイダーのほとんどが現在提供しているP4 GPUsの後継機種だ。Nvidiaによると、GoogleはT4 GPUsをクラウドプラットホームで採用する最初の企業のひとつだ。

Nvidiaによると、T4はP4よりも相当に速い。たとえば言語の推論では、T4はCPUを使うよりも34倍速く、P4より3.5倍速い。T4のピーク時性能は4ビットの整数演算で260TOPS、浮動小数点演算で65TOPSだ。T4は、標準的な75ワットのLow Profile PCI-eカードに載っている。〔関連記事

しかしもっとも重要なのは、Nvidiaがこれらのチップを、AIの推論専用に設計したことだ。NvidiaのVPで同社のTeslaデータセンター事業部のGM Ian Buckはこう語る: “Tesla T4が推論用としてこれほど効率的なGPUであるのは、Turingアーキテクチャの新しいテンソル・コアのせいだ。CEOのJensen Huangがすでに述べたように、そのTensorコアはゲームやレンダリングやAIにも有効に利用できるが、設計の前提は推論だ。トータルでこのチップには、320のTuting Tensorコアと2560のCUDAコアがある”。

Nvidiaは今回、新しいチップのほかに、同社のソフトウェアTensorRTの、ディープラーニングのモデルを最適化するアップデートをローンチした。この新しいバージョンには、TensorRT推論サーバーも含まれており、それはデータセンターの推論のための完全にコンテナ化されたマイクロサービスとして、既存のKubernetesインフラストラクチャにシームレスに接続する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Nvidia、次世代ゲーム用GPU、RTX 2080/Ti発表――RTはレイトレーシングの頭文字

Nvidiaはドイツで開催中のGamescomの会場でプレスカンファレンスを開き、次世代GPUを発表する。カンファレンスはドイツ時間で午後6時から開催予定〔開催ずみ。下のビデオで1:50前後からカンファレンスの模様が録画されている〕。

Nvidiaの今回の発表は先週のTuringアーキテクチャの発表に続くもので、次世代プロダクト、RTX 2080、RTX 2080 Tiなどの製品についてコンフィグレーションや価格を始めとする詳細が分かる。

カンファレンスには#BeForeTheGameというタイトルが付されている。これからするとNvidiaはコンシューマー向け製品、特にゲーム用GPUを発表するのだろう。GeForce GTX 1080は依然として高負荷ゲームを快調に作動させているが、Nvidiaは常にコンピューターのグラフィックス能力を一歩先へ拡大する努力を続けてきた。

Next INpactの情報によれば、今日、2種類のプロダクトが発表されるという。GeForce RTX 2080はCUDAコア数2944、8GBのGDDR6メモリで、GeForce RTX 2080 TiはCUDAコア4352、11GBのGDDR6メモリを備えるという。

Nvidia先週、プロ用途のワークステーション向けとしてQuadro RTXを発表している。同社は新世代GPUで大幅な処理能力の改善を行う。特にレイトレーシングに最適化されていると期待されている。RTXのRTはray tracingの頭文字だ。

レイトレーシング自体は新しいテクノロジーではないが、現在のハードウェアでリアルなレイトレーシングを実行するのは非常に困難だった。RTX GPUはこの処理に特化したハードウェアだ。

ちなみに、暗号通貨の発掘ブームが一段落したおかげでGPUの購入もやや楽になるはずだ。

原文へ


滑川海彦@Facebook Google+

Nvidiaの新しいハイエンド、TuringアーキテクチャはリアルタイムのレイトレーシングとAIを合体

このところ、Nvidiaの新しいアーキテクチャTuringに関するリークは、サンタクララにある同社の本社が震源だったようだ。それを当然と思わせるかのように同社は、今日のSiggraphのキーノートで、この新しいアーキテクチャと、Quadro系列の一員となる、プロ用ワークステーションのグラフィクスカード3種のローンチを発表した。

NvidiaによるとTuringアーキテクチャは、“2006年のCUDA GPU以来のもっとも偉大な飛躍”だ。相当な大言壮語だが、意外と真実をついているのかもしれない。これらの新しいQuadro RTxチップは、同社の新製品RT Coresをフィーチャーする最初のチップであり、ここで“RT”はレイトレーシングを意味する。それは、光がシーン中のオブジェクトと対話/干渉するときの径路を追跡するレンダリング方法だ。この技術の歴史は、とても長い(AmigaのPOV-Rayをおぼえておられるだろうか)。従来からこの技術はきわめて計算集約的だったが、物をリアルに見せる点では優れていた。最近では高速GPUが並列処理で一度にたくさんの計算をできるようになったため、Microsoftが最近、DirectXにレイトレーシングのサポートを加えるなど、新たな脚光を浴びている。

NvidiaのCEO Jensen Huangはこう語る: “ハイブリッドレンダリングがわれわれの業界を変え、そのすばらしい技術の可能性が、美しいデザインとリッチなエンターテインメントと、充実した対話性で、私たちの生活を豊かにするだろう。リアルタイムのレイトレーシング*の到来は長年、われわれの業界の見果てぬ夢だったのだ”。〔*: レイトレーシングのリアルタイム化。〕

この新しいRTコアはレイトレーシングをNvidiaの従来のPascalアーキテクチャに比べて最大25倍高速化し、Nvidiaが主張する最大描画速度は毎秒10 GigaRaysだ(下表)。

Turingアーキテクチャによる三つの新しいQuadro GPUは、当然ながら同社のAI専用ユニットTensor Coresと4608基のCUDAコアを搭載し、最大毎秒16兆の浮動小数点数演算と、それと並列に毎秒16兆の整数演算を行なう。そのチップは作業用メモリとしてGDDR6メモリを搭載し、NvidiaのNVLink技術によりメモリ容量を96GB 100GB/sまで増強している。

AIの部分は、いまどき当然であるだけでなく、重要な意味もある。Nvidiaが今日ローンチしたNGXは、AIをグラフィクスのパイプラインに持ち込むための新しいプラットホームだ。同社はこう説明する: “NGXの技術は、たとえば、標準的なカメラフィードから超スローなスローモーションの動画を作りだすなど、これまでは10万ドル以上もする専用カメラにしかできなかったことをする”。また映画の制作現場は、この技術を使って容易にワイヤを消したり、正しいバックグラウンドで欠けているピクセルを補ったりできるそうだ。

ソフトウェアに関しては、Nvidiaは今日、同社のMaterial Definition Language(MDL)をオープンソースにする、と発表した。

今すでにTuringアーキテクチャのサポートを表明している企業は、Adobe(Dimension CC), Pixar, Siemens, Black Magic, Weta Digital, Epic Games, Autodeskなどだ。

もちろんこれだけのパワーには、お金もかかる。新しいQuadro RTX系列は16GBの2300ドルが最低価格で、24GBでは6300ドルになる。倍の48GBなら、約1万ドルだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudがNvidiaのTesla P4推論アクセラレーターをサポート

今やクラウドプラットホームは、GPUのサポートなくして完全とは言えない。今日のハイパフォーマンスワークロードや機械学習のタスクは、それなくしてサポートできないからだ。それらは多くの場合、機械学習のモデルの構築に使われることが多いが、しかし今日(米国時間8/6)Googleは、Nvidia P4アクセラレーターのサポートをローンチし、既存のモデルをより高速に走らせることによる推論の性能アップにフォーカスしようとしている。

また、これらの機械学習のワークロードのほかに、Google Cloudのユーザーは、高速なグラフィクスカードを必要とするリモートディスプレイのアプリケーションを、GPUを使って動かすことができる。そのためにGPUは、リモートデスクトップにログインするユーザーのためにサーバーサイドのグラフィクスの応答性を高めるシステム、Nvidia Gridをサポートする。

P4には8GBのDDR5メモリがあり、最大で毎秒22テラの整数演算ができるから、ほとんど何でもできるカードだ。しかも買うと2200ドル以上はするから、時間制で借りる方が賢明だろう。

Google Cloud上でP4を使うと、標準料金では1時間60セント、プリエンプティブルでよければ21セントだ。Googleの料金としてはP100やV100 GPUより安いが、ただし両者はユースケースがまったく違う。

この新しいGPUは最初、us-central1(Iowa), us-east4(N. Virginia), Montreal(northamerica-northeast1), europe-west4(Netherlands)の各リージョンで提供され、徐々にそのほかのリージョンでも提供される予定だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

NvidiaのGPUによる高速化技術がついにKubernetesをサポート

やっと、という感じだが、NvidiaのCEO Jensen Huangが今日(米国時間3/27)、彼のGTC(GPU Technology Conference)キーノートで、Googleで生まれ育ったコンテナオーケストレーションシステムKubernetesをNvidiaのGPUでサポートする、と発表した。

その意味は、何百何千ものGPUが機械学習処理の高速化などのために使われているような、いわゆるハイパースケールなデータセンターでGPUの使用を最適化し、デベロッパーがコンテナをなんの変更も加えずに複数のクラウドへデプロイできるようにする、ということだ。

Jensenはこう言った: “今やフレームワークは高速化し、コードも高速化した。では、それをデータセンターの世界へデプロイするにはどうするのか? そうだ、そこにはうまい具合に、Kubernetesというものがある。良かった!すごく良かった!”。

NvidiaはKubernetesのGPUによる高速化技術とそのコードを、オープンソースのコミュニティに寄贈する。機械学習のワークロードは、計算とデータの両方で巨大なものになりがちだ。Kubernetesはそんなワークロードのオーケストレーションを助け、そして今や、その仕事にGPUを使える。

Huangは次のように述べて、会場からの笑いを誘った: “Kubernetesは今やGPU対応だ。DockerのコンテナはGPUが加速する。そして私がこれまで名を挙げたようなフレームワークはすべて、GPUで加速される。そしてまた、みなさんが抱え込んでいる推論のワークロードもGPUが加速する。そしてこれらのクラウドのすべてでNvidiaのGPUが動く。そしてさらに、すばらしいオーケストレーションのレイヤとしてKubernetesがある。完全に満たされた人生だね”。

KubernetesのGPUによる高速化は、今日の発表以前にもある程度サポートされていた。たとえばGoogleは、そのKubernetes EngineですでにGPUをサポートしている。

 

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIをクラウドにデプロイする過程を単純化するためにPaperspaceはサーバーレスを選ぶ

GPUベースのインフラストラクチャをサービスとして提供することは、スタートアップにとって容易なことではないが、機械学習やVFXを多用するモダンなソフトウェアの開発とデプロイを目指すクラウドインフラストラクチャサービスPaperspaceは、あえてそれに挑んでいる。そして同社は今日(米国時間3/21)、さらに次の一歩として、AIや機械学習のプロジェクトでサーバーのデプロイを不要にするサービスプラットホームGradientを発表した。

どんなサーバーレスのアーキテクチャでも、サーバーがいなくなるわけではないが、ユーザー(デベロッパー)が手作業でそれらをデプロイする必要はなくなる。Gradientはコードをデプロイする手段を提供し、アロケーションやマネージメントはすべてPaperspaceが面倒見る。それにより、機械学習のモデルの構築に伴う複雑性の、大きな塊(かたまり)を取り除く。

同社の協同ファウンダーでCEOのDillon Erbによると、数年前に同社を立ち上げたときはGPUは今日のクラウドサービスのように一般化していなかった。最初は仮想マシンのGPUインスタンスを立ち上げるやり方が主流で、今でもそうだが、問題はツールの不備だった。

Erbの説明では、大企業はツールセットを内製することが多い。しかし実際には、それだけのリソースを持たない企業がほとんどだ。“GPUなどで十分な計算パワーがあっても、それだけではだめで、ソフトウェアスタックが必要なんだ”、と彼は言う。

同社が昨年1年間を費やして作ったGradientは、デベロッパーにそのための構造を提供し、それにより彼らは、もっぱらモデルやコードの構築と、プロジェクトを軸とするコラボレーションに集中できるようになる。そしてマネージメントは、Paperspaceにまかせる。DevOpsのチームが、チームとコードとその下のインフラストラクチャの間の対話を管理する必要も、なくなる。

“コードとDockerのコンテナだけをいただければ、VMのスケジューリングなどはわれわれがいたします。ご自分でマシンを立ち上げる必要はありません”、とErbは語る。

Paperspaceは、Y Combinatorの2015年冬季クラスを卒業して以来、クラウドにGPUをデプロイするという難題に取り組んできた。2014年にローンチしてから今日までに1100万ドルあまりを調達してきたが、シードラウンドの400万ドルがやっと2016年だった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

異星人探索は暗号通貨マニアたちのせいで妨害されている

何百万人もの愚か者たちが、暗号通貨(仮想通貨)を掘り出し、最新の最も愚かで、極めて無責任な成金技術の恩恵にあずかろうとしているおかげで、異星人の探索を行うという真に重要な仕事が妨げられている。BBCが最初に報告したこの驚くべき事実は、私の水曜日を台無しにしてしまった。

通常私は、暗号通貨とBitcoin関連では沈黙を守っている。これは私がいかなるポジションも持っていない(所有する暗号通貨はゼロだ)だけでなく、私はそれが中身のない、愚かしく熱に浮かれた流行だと考えているからだ。しかし熱狂が収まる気配はなく、暗号通貨の採掘に利用されるGPUへの需要は高まっている。それが意味することは、それらのGPUが適した、他の目的に利用することができないということだ、そうした目的の中には観測データを解析し、そこから地球外生命の兆候を見出そうとする作業も含まれる。

BBCによれば、UCバークレーの研究チームは、彼らの天体望遠鏡研究室のGPU能力を拡大するために、国立科学財団(NSF)の助成金を利用しようとしていたが、調達しようとしていたGPUの価格が倍になっていたために、計画していたものに対して資金が足りないことに気が付いたという。

どこかの誰かが、2018年の最後のビール予算を、暗号通貨採掘機器に投じて幻の給料日を追い求めたせいで、GPUたちの価格が押し上げられ、そのおかげで他の知的生命体の発見が邪魔されたならば、私の怒りは倍増するだろう。しかし知的生命体はいずれにせよ私たちを滅亡させるに違いない。なぜなら、私たちときたら、強力なPCを夜通し動作させて、虚構に過ぎない価値をもつ意味のないデータを探し回る熱狂に囚われた、二級知性だということを表明しているのだから。

[原文へ]
(翻訳:sako)

FEATURED IMAGE: RAMIN RAHIMIAN/THE WASHINGTON POST/GETTY IMAGES

Google CloudがプリエンプティブなGPUをローンチ、料金は50%安

Google Cloudが今日(米国時間1/4)、プリエンプティブなGPUのローンチを発表した。GoogleのプリエンプティブVMやAWSのスポットインスタンスなどと同様に、これらのGPUも相当な低料金で利用でき、しかし preemptibleの名のとおり、Googleがそのリソースを必要とするときにはいつでもシャットダウンされる。ユーザーはそのとき、30秒の警告をもらうだけだ。またこのプリエンプティブGPUは、最大24時間しか利用できない。

使用できるGPUは、Google Cloudプラットホームが今提供しているNVIDIA K80とNVIDIA P100だ。料金は1GPUあたり、K80が1時間0.22ドル、P100が0.73ドルだ。それプラス、VMの料金もあるだろう。その場合の料金もプリエンプティブVMの料金になるが、こちらはGPUのワークロードが終わる(またはGPUシャットダウンの警告が出る)まではシャットダウンされない。

Googleによると、これらのプリエンプティブなGPUは、フォールトトレラントな機械学習など、バッチで処理される計算集約的なワークロードに適している。Googleのマネージドインスタンスグループ機能を併用すれば、ダウンしたあとでもプリエンプティブなインスタンスを自動的に再生成できる。

Googleは今日の発表のわずか数か月前に、通常のGPUを大幅値下げしている。

またGoogleのリリースノートによると、GPUは今ではGoogle Cloudのアメリカ中部リージョンでも利用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AIチップスタートアップの競争は既に始まっている

今年は、すべての目がNvidiaに注がれたかのようだった。ゲーム、データセンターへの関心の高まり、AIアプリケーションへの適用の可能性などの、すべての面で膨大な需要を抱えて、株価が爆発的に上昇したためだ。

しかし、Nvidiaの株価とそのチャートは、AIが技術の世界に広がり続けた2017年の特に目を引くトピックだったかもしれないが、AIの世界では、より深い影響があるかもしれない更に微妙なことが起きている。

今年は、AIの上に構築される将来のデバイスに、パワーを与える独自のハードウェアに取り組む多くのスタートアップたちが、膨大な資金を調達した。これらのスタートアップの中には大規模な展開には程遠い(それどころか製品を出荷さえしていない)ものもあるが、資金調達には困っていないようだ。

画像や音声認識といった処理を構成する2つの主要な要素 ―― 推論と機械学習の最適化を求めて、スタートアップたちは、基本的な方法を見つけようと競い合っている。それらの機能をより速く、より電力効率が高く、次世代の人工知能組込デバイスのためにより適切に実行できるようにするためだ。私たちがCPUで習熟してきた、従来の計算アーキテクチャーの代わりに、いまやGPUが、AI処理が必要とする矢継ぎ早の計算処理を任せるための、頼れるシリコン部品の1つになったのだ。そして、そうしたスタートアップたちは、それをさらに改善できると考えている。

スタートアップたちについて話す前に、何が現在起きているかの感覚をつかむために、まず前述のNvidiaチャートを簡単に見てみよう。今年末の変動にも関わらず、全体としてNvidiaの株価は、2018年に向けて80%近くの上昇を見せている。

 

このことから当然、全てのスタートアップたちは、AI市場におけるNvidiaの死角を見出そうと必死だ。投資家たちもまた、それに注目している。

まず私たちが耳にしたのは、Cerebras SystemsがBenchmark Capitalから資金を調達したという、昨年12月のニュースだった。その当時は、AIチップ業界はまだ今ほど明確にはなっていなかったように見える、しかしそれから1年が経ち、NvidiaがGPUマーケットを支配していることが、この分野の発展を示す明確な指標となった。Forbesは今年8月に、同社の評価額が9億ドル近くに達したと報じた 。明らかに、ここで何かが起きたのだ。

Graphcoreも今年は動きを見せた。Atomicoが主導した、7月の3000万ドルの資金調達が終わったばかりであるにも関わらず、この11月にはSequoia Capitalが主導する、新たな5000万ドルの資金調達を発表したのだ。Graphcoreはまだ、Cerebras Systemsと同様に、Nvidiaのようなすばらしい製品をまだ市場に投入していない。一般的に、ハードウェアのスタートアップは、ソフトウェア上に構築を行うスタートアップよりも、多くの課題に直面するにもかかわらず、このスタートアップは年間で8000万ドルを調達することができたのだ。

中国のAIスタートアップにも投資の突風が吹いた。Alibabaは、Cambricon Technology という名のスタートアップに、10億ドルと伝えられる資金を投入した。Intel CapitalはHorizon Roboticsのために1億ドルのラウンドを主導した。そしてThinkForceと呼ばれるスタートアップが、今月始めに6800万ドルを調達した

Groqについては言うまでもないだろう。これは元Googleのエンジニアたちによるスタートアップで、Social+Capitalから約1000万ドルを調達した。上に挙げたスタートアップたちに比べれば狭い範囲を対象にしているようである。さらに別のチップメーカーであるMythicも、930万ドルの資金調達を行った

ということで、いまや1つ2つではなく、7つスタートアップが似たようなエリアを狙っているのだが、その多くは数千万ドルの資金を調達し、少なくとも1つの評価額は9億ドルに迫ろうとしている。重ねて言うが、これらはみなハードウェアスタートアップ、しかもさらに多額の資金調達を必要とするであろう次世代のハードウェアスタートアップたちなのだ。しかし、これは無視することのできない領域だ。

スタートアップだけでなく、世界の大手企業たちも独自のシステムを構築しようとしている。Googleは今年の5月に、推論と機械学習に特化した次世代TPUを発表した。Appleは次世代iPhone向けに、独自のGPUを設計した。 両社は、ハードウェアをそれぞれの特定の用途、例えばGoogle CloudアプリケーションやSiriなどに合わせてチューニングする方向へ向かっている。またIntelは10月に、Nervana Nueral Network Processorを2017年末迄に出荷すると発表した。Intelは昨年の8月に、Nervanaを3億5000万ドルで買収していた のだ。

これらのすべては、スタートアップ企業や大企業たちによる大規模な動きを表している。それぞれの会社が独自の解釈によるGPUを追い求めているのだ。しかしCudaと呼ばれる独自のプラットフォームへ、開発者たちをロックインしようとする動きを始めたNvidiaを、その地位から追い落とすのはさらに難しい仕事になりそうだ。そして新規のハードウェアをリリースし、開発者たちを誘い込もうと考えるスタートアップたちにとっては、それにも増してさらに難しい仕事になるだろう。

シリコンバレーの投資家たちと話をしてみると、それでもいくつかの懐疑的な見方に出会う。例えば、Amazonのサーバーの中にある古いカードに搭載されたチップで、自分たちの機械学習の目的には十分なのに、どうして企業がより速いチップを買わなければならないのだろうか?しかし、まだこのエリアには膨大な資金が流れている。それらは、Uberに大きな賭けをしたのと同じ企業たち(そこにはかなりの乱れがあるが)とWhatsAppから流れて来ているのだ。

Nvidiaは、依然としてこの分野では明確なリーダーであり、自動運転車のようなデバイスがますます重要になるにつれて、その支配力は続いて行くように見える。しかし、2018年に入れば、これらのスタートアップたちが、実際にNvidiaを追い落とすことができるかどうかについての、よりはっきりとした見通しを得ることができるようになっていくだろう。そこにはIoTナンチャラに組み込むことのできる、より速く、より低消費電力のチップを作ることで、より効率的な推論を行い、デバイスたちの約束を真に果たせる魅力的なチャンスがある。そしてまた、モデルを訓練する際に(例えば、車に対してリスはどのように見えるかといったことを教えるなど)、非常に大きな負荷がかかりそうな場合にも、サーバーたちをより高速に、より高エネルギー効率のよいものにするチャンスがあるのだ。

[原文へ]
(翻訳:sako)

Nvidiaの2999ドルのTitan VはAI処理のための110テラフロップスのGPUだ

Nvidiaのカードは機械学習のワークロードを動かすためのデファクトスタンダードだが、今日(米国時間12/8)同社は、また新たな、ハイエンドのコンピュート専用型カードを陣容に加えた。Titan Vがそれだ。このカードはNvidiaのVoltaアーキテクチャがベースで、211億個のトランジスタを載せた815平方ミリメートルのチップだ。計算性能はきっちり110テラフロップスである。

もちろん、これだけのパワーはお安くない。12GBのHBM2メモリを搭載したタイプで小売価格は2999ドルだ。でも単独のパワーで比較すると、1299ドルだった前の機種Titan Xpの9倍となる。

しかしそれでもこれは、Nvidiaの最強のカードではない。その栄誉は今でも112テラフロップスのTesla V100が握っている。その小売価格は1万ドルに近い。でもそれは、Nvidiaの最強のPC用GPUだ。Titan VとV100は、共通している部分も多い。Titan VのコアはV100 GPUだが、メモリが少なくてメモリバスも狭い。

Titan Vのローンチは、かなりのサプライズだった。NvidiaのCEO Jen-Hsun HuangはNIPSカンファレンス(12月4-9日)のキーノートで、新しいハードウェアの発表をすると期待されていなかったようだ。

でも、Titan Vは発表された。Huangは述べる: “Voltaのビジョンは、ハイパフォーマンスなコンピューティングとAIの限界を押し広げることだった。その新しいプロセッサーアーキテクチャでは、プロセッサーの命令や数値の形式、メモリのアーキテクチャ、プロセッサーのリンクなどで新しい地平を開いた。そしてTitan Vでは、Voltaを世界中の研究者や科学者の手に渡したい。彼らによる画期的な発見が、待ち遠しい”。

このカードもまさしく標準的なPCI-Eのビデオカードだから、PUBGをプレイすればごきげんだと思うが、でも主な想定ユーザーは科学的シミュレーションや機械学習のモデルの構築にこのような並列処理のパワーを求めていた研究者たちだ(もちろん暗号通貨のマイニングにも使えるだろう)。Titan Vは5120のCudaコアを載せているだけでなく、機械学習ワークロードの高速化に向けて最適化された640のTensor Core〔行列演算器〕もある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ビデオゲームのテクノロジーがニューラルネットの実用化に貢献した

【編集部注】著者のOphir Tanzは、GumGumのCEOである。GumGumはコンピュータービジョンの専門知識を持つ人工知能企業で、広告からプロスポーツに至る世界中のさまざまな分野にAI技術を応用しようとしている。カーネギーメロン大学で学士・修士の学位を修めたTanzは、現在ロサンゼルスに住む。

id SoftwareのJohn Carmackが、1993年にDoomをリリースしたとき、彼はその血なまぐさいファーストパーソン・シューティングゲーム(1人称視点でのシューティングゲーム。最初に3D環境を採用したものの1つであり、あっという間に人気作になった)が、その後の機械による情報処理を、如何に変えてしまうかには全く自覚がなかった。

その6年後にはNvidiaが、急成長するゲーム業界向けに、3Dグラフィックスの生成に特化した、初めてのグラフィックプロセッシングユニット(GPU)であるGeForce 256をリリースした。それから17年。GPUはその開発の元々の動機であったハイエンドゲームだけではなく、人工知能(AI)の大きな進歩のための原動力ともなっている。

より強力なGPUの誕生により、深層機械学習とニューラルネットワークは、私たちが関わる仕事や運転する車から、医者に行ったときに受ける診断までの、およそ全ての社会的様相を変えようとしている。

私たちがこれまでに書いた「数学抜きのニューラルネットガイド」の第1回(数学知識もいらないゼロからのニューラルネットワーク入門)と第2回(Why the Future of Deep Learning Depends on Good Data――深層学習の未来が良いデータに依存している理由)では、深層学習がどのように機能しているのか、そして何故AIの成功にはデータが重要なのかについて、それぞれ解説を行った。シリーズの第3回となる今回は、今日の深層学習ブームの先導に役立っている処理系の開発に焦点を当てる。まずは、GPUとCPUの仕組みの違いを理解することが役立つ。

GPUとCPU

今なら読者も既に「中央処理装置」あるいはCPUという用語には馴染みがあるだろう。これはコンピューターの中にある頭脳である。コードを読み込んで、数の計算からHDビデオの再生、そして様々なプログラムを、淀みなく一斉に実行してくれるものだ。あのしつこかった「インテル入ってる」マーケティングキャンペーンを覚えているだろうか?あれはCPUのことを宣伝していたのだ。

しかし、CPUがコンピューターの唯一の頭脳ではない。マシンの中には、特定のタスクに対してはCPUよりも優れた性能を発揮する機構が抱えられているのだ。そうしたものの中で、最も重要なものがグラフィックスプロセッシングユニット(GPU)だ。これらのチップは、いくつかの点ではCPUに似ているものの、その他の点では大きく異なる。

最新のCPUの多くは、その内部に2〜8個の「コア」(本質的にはミニCPU)を持っていて、それぞれが同時に異なる操作を処理することができる。これらのコアは、投入されたどのような命令でも処理することができ、お互いにシームレスに切り替えることができる。このため、ビデオを見ながらソフトウェアをダウンロードし、同時に、特に引っかかりも感じずに親友たちとSnapchatを楽しむこともできるのだ。

野球のボール、ボウリングのピン、斧、りんご、卵などを同時にジャグリングするサーカスのパフォーマーを想像してみて欲しい。非常に目まぐるしく、彼はリンゴをかじりながら、斧を置いて火の付いた松明を拾い上げる。これがCPUである。要するに一度に様々な仕事をこなすことのできる何でも屋だ。


これとは対照的に、最新のGPUは数千ものコアを持っているが、そのデザインは遥かにシンプルだ。それぞれのコアは特定の1つの仕事しかできないが、しかし集団としてその仕事を、正確に同時に、何度も繰り返し、非常に素早く行うことができるのだ。

GPUサーカスパフォーマーは、ボウリングピンしか扱うことができないが――その代わりに同時に1万本ものピンをジャグリングすることができる。一方CPUは、万能でなければならない上に、柔軟にマスチタスキングも行わなければならないために忙しく、そんなに大量のボウリングピンを一度に扱うことができない。

この性質は、たとえばゲーム環境の中で3Dグラフィックスを創りだすために数十億のポリゴンを生成するといった、膨大な繰り返し演算が必要な仕事を行なう場合に、GPUを圧倒的に優位なものとする。そして、膨大な量のデータに対して、何度も何度も同じ操作を繰り返さなければならないニューラルネットワークのトレーニングに対しても、GPUが理想的なものとなるのだ。

遊びの中のGPU

GPUは、毎秒数十億回の複雑な数学的計算を行うことで、その魔法を実現している。

ビデオゲーム環境は、小さな三角形で構成されている。それらは様々な方法で組み合わされて、スクリーンの上に表示される土地、空、山、宇宙船、怪物などを形作っている。それらの三角形は、それぞれ環境内での位置、他の三角形に対する角度、色、テクスチャなどを示す、異なる数字で構成されている。GPUはこれらの数値を取り込み、それを平たいディスプレイ上のピクセル(画面上の点)に変換する。画面がリフレッシュされるたびに、またはシーンが少しでも変化するたびに、GPUは新しいピクセルを生成するために計算を行わなければならない。これが、最終的にコール・オブ・デューティーやグランド・セフト・オートといったリッチな3Dゲーム環境を生み出している。

毎秒60フレームで動作するHDディスプレイの場合、GPUは一度に1億2000万ピクセルを生成する必要がある。このため非常に強力なCPUであっても、1つのフレームを描画するのに1〜2秒が必要となる。しかし、同時に実行される何千ものGPUコアに仕事を分割すれば、仕事はほぼ瞬時に終了する(こうしたプロセスは並列処理と呼ばれる)。

非常に雑なたとえだが、この違いはミケランジェロを雇って天井にフレスコ画を描かせることと、数千人の職人を雇ってそれぞれに天井の1平方インチのエリアを担当させることの違いのようなものだ。

2010年に、米国空軍が1760台のプレイステーション3をデイジーチェーンで接続して、スーパーコンピューターを作ることができたのも、このGPUの圧倒的な馬力のお陰だ。その当時、それは米国防総省の中で最も強力なコンピューターだったが、従来のスーパーコンピューターよりも90%以上安価であり、電力消費量も10分の1だった。

RAMの中の象

画像認識にGPUを使用するのは、逆方向の動作だ。数値を画像に変換する代わりに、画像を数値に変換するのだ。

たとえば数千のGPUで構成されたニューラルネットワークを構築したとしよう。それぞれGPUが数千のコアを持つそのネットワークは、本質的にスーパーコンピューターだ。今このスーパーコンピューターに、ゾウを識別する方法を教えたいと考えているとする。教師あり学習と呼ばれる方法を利用するならば、考えられるすべての角度から撮影された数十万の象の画像に「象」というラベルを貼って、ネットワークに供給するところから始めることになる。ネットワークは、各画像内のすべてのエッジ、テクスチャ、形状、そして色をマッピングして、そのラベルを有する画像と一致する数学的パターンを特定しようと試みる。

学習過程では、ネットワークが見るもの全てを象であると判断しないように、ゾウを含まない画像も投入することになる。これにより、ネットワークは徐々にモデルを調整し、全体的な精度を向上させることができる。ネットワークは各画像でこのプロセスを連続して行い、それぞれの新しいパス毎に象探索アルゴリズムを改良して行く。

そして出来上がったスーパーコンピューターに新しいイメージを入力すれば、そのイメージが象であるか否かが判断される。もしニューラルネットワークが間違った場合には、より多くのトレーニングで調整が行われることになる(バックプロパゲーションと呼ばれるプロセスである)。画像認識能力が向上しなくなったときが、訓練の終わるときだ。

ここで一番クールなのは以下の点だ:あなたはニューラルネットに対して、象というものは暗い灰色の肌、長い柔軟な鼻、丸みを帯びた背、そして太い脚を持っているものだ、ということを伝えたわけではない。伝えた事はただ「ここに『象』と呼ばれる大量のデータがあります。その共通の性質を把握しなさい」ということだけだ。実際には、ネットワーク自身が、象がどのように見えるかを、自分自身に教えたのだ。

大量計算兵器

GPUがニューラルネットワークの訓練に非常に優れている理由の1つは、行列乗算と呼ばれるものに優れているからだ。つまり、1つの数値テーブル(たとえば、画像のある部分のピクセル値)を別のテーブル(別の部分のピクセル値)と乗算するような演算に優れているということである。ニューラルネットワークは行列の乗算に大いに依存しているため、GPUを使用することで、場合によっては数カ月または数週間かかるトレーニング期間が、数日から数時間に短縮されることがある。

現代のGPUは多くのオンボードメモリを搭載するようになって来ているため、コンピューターのメインメモリとの間でデータを往復させることなく、計算処理を行うことが可能だ。これにより計算はさらに速くなる。またスケーラビリティも優れている。投入するGPUが多ければ多いほど、一度に処理できる計算量が増えるからだ。そしてそれらはプログラム可能なので、手書き文字認識や音声認識などの、さまざまなタスクを実行するようにプログラムすることができる。

ひ弱な人間たち

画像内の物体を認識する際に、GPU駆動のニューラルネットにはどれくらいの性能があるのだろうか?実はそれらは既に人間よりも優れているのだ。2015年には、GoogleとMicrosoftの両者が、毎年恒例のImageNetコンピュータービジョンチャレンジの中で、画像の中の物体の認識能力において、人間よりも正確な深層ニューラルネットを発表している。グラフィックスチップメーカーのNvidiaは、GPUを使ったニューラルネットのトレーニング速度が、わずか3年で50倍になったと主張している。

GPUがそれほどまでに急速に進歩した理由は――お金のためだ。昨年世界中で、ビデオゲームは1000億ドルの売上を果たした――これは映画、音楽、書籍を合わせたものよりも多い額である。ゲームの驚くべき収益性が、GPUやその他のテクノロジーへの研究開発への多大な投資を可能にしたのだ。昨年 Nvidiaは1つのGPUの開発に20億ドル以上を費やした。そのGPUは深層ニューラルネット専用に作られたものである。一方Googleやその他の企業は新しい「Tensorプロセッシングユニット」に取り組んでいる。これもニューラルネット専用に設計され、より多くのデータを効率的に扱うことができるものだ。

こうした投資は、ビデオゲームをはるかに超えた様々な領域で回収されることになる。Googleは、GPUを使ったニューラルネットを使用してAndroidでの音声認識を行い、Googleマップ上の外国語の道路標識の翻訳を行う。Facebookはそれらを使ってあなたの友人たちの顔を認識し、あなたのニュースフィードをカスタマイズする。ニューラルネットは、運転手のいない車の中でのインテリジェンスを提供し、木と一時停止標識の識別を行なう。またそれは、診断医がMRIの中の腫瘍と健常組織との違いを見分ける手伝いをして、癌の早期兆候の検出にも役立つ。そしてそれは原子力発電所の部品に入った亀裂を見つけることも可能だ。

そしてまた、スーパースマッシュブラザーズのプレイがかなり得意だ

いつか、GPUを使うディープニューラルネットによって可能になった発見が、あなたの命を救う日が来るかもしれない。それは皮肉にも、最初のファーストパーソン・シューティングゲームの副産物なのだ。

[原文へ]
(翻訳:Sako)

Facebook、機械学習の訓練時間を大幅に短縮――視覚的認識処理に大きな進歩

スピードが問題となる検索テクノロジーの世界では深層学習モデルの訓練に割く時間は1分ずつがきわめて貴重だ。今朝(米国時間6/8)、Facebookは論文を発表し、この問題に対する独自のアプローチを紹介した。Facebookによれば、ImageNetのResNet-50深層学習モデルの訓練時間を29時間から1時間に短縮することに成功したという。

Facebookがこのようにドラスティックな進歩を遂げることができた理由は、画像認識訓練をこれまでより多数のGPUに分散して並行処理させることに成功したからだ。Facebookはこれを「ミニバッチ」と呼んでいるが、以前のベンチマークでは256種の画像を8基のGPUに分散処理させていた。今日発表された論文のケースでは、ミニバッチのサイズが大幅に拡張され、8192種類の画像を256基のGPUに分散させている。

われわれ一般ユーザーはGPUボードを256枚も持っていないが、大企業や十分な資金のある研究グループならその程度は持っているのが普通だ。処理をこれほど多数のGPUに分散させ、精度を大幅に犠牲にすることなく訓練時間を著しく短縮することに成功したのであれば影響は大きい。

Facebookチームは今回の方法では、初期の学習率を落としているが、これは従来バッチのサイズが大きいと処理が不可能となる問題を避けるためだった。ここでは数学的詳細にはあまり立ち入らないが、ResNet-50では確率的勾配降下法(stochastic gradient descent)が用いられている。

確率的勾配降下法で重要となる変数の一つは学習率(learning rate)だ。学習率は訓練を行う際のステップサイズを決定する。分散処理のサイズが変化すれば学習率も変えなければならず、この部分を最適化できるかどうかが最終的効率にとって決定的だ。

機械学習のデベロッパーはつねに妥協を強いられる。精度をアップしようとすれば学習させるデータセットのサイズを大きくしなければならず、訓練に必要な時間が増大する。当然コンピューティング・リソースも多く必要となる。その意味で、機械学習モデルは精度、スピードのいずれかを優先するデザインとすることが可能だ。しかしいくら20秒で学習が完了しても精度が悪くては役に立たない。

他の多くの研究プロジェクトとは方向を異にし、FacebookのFAIR ( Facebook AI Research)とAML(Applied Machine Learning)の両チームは密接に協力しながら並行処理のサイズを拡大することに努めてきた。Facebookのチームは今回の論文を出発点として、ここで明らかになった問題点をさらに研究していく計画だ。

FacebookのAMLチームのメンバー、Pieter Noordhuisは「今回の研究では答えよりむしろ質問を増やす結果になった。訓練用画像数が8000のあたりにティッピングポイントがあり、これを超えると再びエラー率が急増するが、その理由が分からない」と述べている。

深層学習のフレームワークはFacebookが開発してオープンソース化したCaffe2が用いられた。今回の実験はFacebookが開発したBig Basin GPUサーバー上で実行された。さらに詳しく知りたい場合、Facebookが発表した詳細はこちら

画像:Toast and Jam Films

[原文へ]

(翻訳:滑川海彦@Facebook Google+

「世界最強のグラフィクスカード」を自称するAMDの長く待たせた新型機Radeon Vegaが6月に発売

グラフィクスカードに関してちょっと間(ま)が開(あ)きすぎた感のあるAMDから、ついにその次世代機Radeon Vega Frontier Editionが出た。この、おそらくペア搭載(duo)と思われるハイスペックGPUがねらうのは、NvidiaのPascalシリーズGTX 1080と1080Ti、そしてさらに最新のTitan Xpも標的だ。

その細部は: 64コア、単精度12.5TFPSのプロセッサー、帯域16GBのキャッシュ、そして8Kディスプレイのサポートだ。

それでも飽きたらぬAMDは、同機の水冷バージョンも用意した。限定生産だが、もっとも過酷な処理負荷に対応し、自分が焼け死ぬことを防ぐ。

同社American Micro DevicesはRadeon Vegaプラットホームを、AIなどのアプリケーションのための“世界最強のグラフィクスカード”と呼ぶ。これまでPC上のゲーマーたち向けにはNvidiaに人気をさらわれたが、それでもAMD製品は、サーバーやデスクトップ、ラップトップ、ゲーム専用機などさまざまなシステムに、全世界的に採用されてきた。

そして今回のVegaは、スピードでもNvidiaに勝つことが目的だ。“速い”という言葉が、Nvidiaの可用性の高いPascalに付着している状態を、解消したい。長年のAMDファンは、まるで醒めぬ夢のように、そう思い続けてきた。

AMDは、Vegaの得意分野を二つ挙げている: 今後のAIの研究を加速する機械学習の開発と、そしてもちろんゲームをさらに贅沢にするフォトリアリスティックな描画能力だ。

発売予定は6月半ば、価格は未発表だが、1000ドルラインまで届くかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))