Nvidiaで生まれた怪獣HGX-2はHPCやAIのサーバーを単一アーキテクチャでまかなう

Nvidiaが昨日(米国時間5/29)発表したモンスターHGX-2は、ギークの夢の実現だ。それはクラウドサーバー専用機と称され、しかもハイパフォーマンスコンピューティングと人工知能の要件をひとつの強力なパッケージで満足させている。

まず、誰もが気になる仕様から。プロセッサーは16x NVIDIA Tesla V100 GPUsで、処理能力は低精度のAIで2ペタFLOPS、中精度なら250テラFLOPS、最高の精度では125テラFLOPSだ。標準メモリは1/2テラバイトで、12のNvidia NVSwitchesにより300GB/secのGPU間通信をサポートする。これらにより、総合性能は昨年リリースされたHGX-1のほぼ倍になる。

図提供: Nvidia

NvidiaのTeslaデータセンタープロダクトを担当するマーケティングマネージャーParesh Kharyaによると、これだけの通信スピードがあれば、複数のGPUを一つの巨大なGPUのように扱うことができる。“それによって得られるのは、膨大な処理能力だけでなく、1/2テラバイトのGPUメモリを単一のメモリブロックのようにアクセスできる能力だ”、と彼は説明する。

図提供: Nvidia

残念ながらこのボックスをエンドユーザーが直接買うことはできない。売り先はもっぱら、ハイパースケールなデータセンターやクラウド環境をエンドユーザーに提供する、インフラのプロバイダー、いわゆるリセラーたちだ。これによりリセラーは、ワンボックスでさまざまなレンジ(幅)の精度を実現/提供できる。

Kharyaはこう説明する: “プラットホームが統一されるので、企業やクラウドプロバイダーなどがインフラを構築するとき単一のアーキテクチャだけを相手にすればよく、しかもその単機がハイパフォーマンスワークロードの全レンジをサポートする。AIやハイパフォーマンスなシミュレーションなどで、各ワークロードが必要とするさまざまなレンジを単一のプラットホームで提供できる”。

彼によると、このことがとくに重要なのが大規模なデータセンターだ。“ハイパースケールな企業やクラウドプロバイダーでは、スケールメリットを確実に提供できることがきわめて重要だ。そのためにも、アーキテクチャがバラバラでないことが有利であり、アーキテクチャが統一されていればオペレーションの効率も最大化できる。HGXを使えば、そのような単一の統一的プラットホームへ標準化することが可能だ”、と彼は述べる。

そしてデベロッパーは、そういう低レベルの技術を有効利用するプログラムを書くことができ、必要とする高い精度を一つのボックスから得ることができる。

HGX-2が動くサーバーは、今年後半にLenovo, QCT, Supermicro, Wiwynnなどのリセラーパートナーから提供されるだろう。

画像クレジット: Nvidia

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google、NvidiaのTesla V100 GPUをクラウドで提供開始

Google は今日(米国時間4/30)、Nvidiaの高性能GPU Tesla V100がCompute EngineおよびKubernetes Engineで利用可能になったことを発表した。現在はまだ公開ベータだが、GPU作業でGoogleの完全サポートを必要とする利用者には、やや性能の低いNvidia P100 GPUがベータを終え一般公開された。

V100 GPUは、今もNvidiaの高性能コンピューティングのラインアップの中で最も強力なチップだ。登場からしばらく時間がたっており、Googleはやや遅れた参入となった。AWSIBMはすでにV100を顧客に提供しており、Azureではプライベートプレビューを行っている。

GoogleはNvidiaのマルチGPUプロセッシングのための高速インターフェースであるNVLinkも使用していることを強調しているが、ライバル各社もすでにこれを使っていることは指摘しておくべきだろう。NVLinkはGPU-to-GPUのバンド幅を従来のPCIe接続より9倍速くすることで作業によっては40%性能が高くなるとGoogleは約束している。

もちろん性能のためにはお金が必要だ。V100の使用料は1時間につき2.48ドル、P100が1.46ドルだ(これは標準価格であり、Preemptible仮想マシンは半額で利用できる)。これ以外に通常の仮想マシンまたはコンテナを動かすための料金を払う必要がある。

現在V100マシンは、1 GPUまたは8 GPUの2種類の構成で利用可能で、将来は2または4 GPUの構成も加わる予定。P100には、1、2、または4GPUが用意されている。

[原文へ]

(翻訳:Nob Takahashi / facebook

AIをクラウドにデプロイする過程を単純化するためにPaperspaceはサーバーレスを選ぶ

GPUベースのインフラストラクチャをサービスとして提供することは、スタートアップにとって容易なことではないが、機械学習やVFXを多用するモダンなソフトウェアの開発とデプロイを目指すクラウドインフラストラクチャサービスPaperspaceは、あえてそれに挑んでいる。そして同社は今日(米国時間3/21)、さらに次の一歩として、AIや機械学習のプロジェクトでサーバーのデプロイを不要にするサービスプラットホームGradientを発表した。

どんなサーバーレスのアーキテクチャでも、サーバーがいなくなるわけではないが、ユーザー(デベロッパー)が手作業でそれらをデプロイする必要はなくなる。Gradientはコードをデプロイする手段を提供し、アロケーションやマネージメントはすべてPaperspaceが面倒見る。それにより、機械学習のモデルの構築に伴う複雑性の、大きな塊(かたまり)を取り除く。

同社の協同ファウンダーでCEOのDillon Erbによると、数年前に同社を立ち上げたときはGPUは今日のクラウドサービスのように一般化していなかった。最初は仮想マシンのGPUインスタンスを立ち上げるやり方が主流で、今でもそうだが、問題はツールの不備だった。

Erbの説明では、大企業はツールセットを内製することが多い。しかし実際には、それだけのリソースを持たない企業がほとんどだ。“GPUなどで十分な計算パワーがあっても、それだけではだめで、ソフトウェアスタックが必要なんだ”、と彼は言う。

同社が昨年1年間を費やして作ったGradientは、デベロッパーにそのための構造を提供し、それにより彼らは、もっぱらモデルやコードの構築と、プロジェクトを軸とするコラボレーションに集中できるようになる。そしてマネージメントは、Paperspaceにまかせる。DevOpsのチームが、チームとコードとその下のインフラストラクチャの間の対話を管理する必要も、なくなる。

“コードとDockerのコンテナだけをいただければ、VMのスケジューリングなどはわれわれがいたします。ご自分でマシンを立ち上げる必要はありません”、とErbは語る。

Paperspaceは、Y Combinatorの2015年冬季クラスを卒業して以来、クラウドにGPUをデプロイするという難題に取り組んできた。2014年にローンチしてから今日までに1100万ドルあまりを調達してきたが、シードラウンドの400万ドルがやっと2016年だった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudがプリエンプティブなGPUをローンチ、料金は50%安

Google Cloudが今日(米国時間1/4)、プリエンプティブなGPUのローンチを発表した。GoogleのプリエンプティブVMやAWSのスポットインスタンスなどと同様に、これらのGPUも相当な低料金で利用でき、しかし preemptibleの名のとおり、Googleがそのリソースを必要とするときにはいつでもシャットダウンされる。ユーザーはそのとき、30秒の警告をもらうだけだ。またこのプリエンプティブGPUは、最大24時間しか利用できない。

使用できるGPUは、Google Cloudプラットホームが今提供しているNVIDIA K80とNVIDIA P100だ。料金は1GPUあたり、K80が1時間0.22ドル、P100が0.73ドルだ。それプラス、VMの料金もあるだろう。その場合の料金もプリエンプティブVMの料金になるが、こちらはGPUのワークロードが終わる(またはGPUシャットダウンの警告が出る)まではシャットダウンされない。

Googleによると、これらのプリエンプティブなGPUは、フォールトトレラントな機械学習など、バッチで処理される計算集約的なワークロードに適している。Googleのマネージドインスタンスグループ機能を併用すれば、ダウンしたあとでもプリエンプティブなインスタンスを自動的に再生成できる。

Googleは今日の発表のわずか数か月前に、通常のGPUを大幅値下げしている。

またGoogleのリリースノートによると、GPUは今ではGoogle Cloudのアメリカ中部リージョンでも利用できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google Cloud PlatformがGPU使用のVMインスタンスを最大36%値下げ、AWSを意識か

Googleが今日(米国時間11/20)、Google Compute Engineの、Nvidia’s Tesla GPUを使用するインスタンスを最大36%値下げする、と発表した。アメリカのリージョンでは、やや古いK80 GPUを使うと1時間0.45ドル、新しくて強力なP100マシンは1.46ドルになる(いずれも秒課金による)。

またプリエンプティブルVM用のローカルSSDは、40%値下げされる〔参考: 8月の値下げ〕。GPUは、プリエンプティブルVMでは使えない。だから値下げは朗報でも、GPUのユーザーには関係ない。

今回のGPUインスタンスの値下げは明らかに、クラウド上で機械学習のワークロードを動かすユーザーのためだが、そのほかにも物理シミュレーションや分子モデリングなど、数百のコアを持つGPUを有利に使えるアプリケーションはいろいろある。たとえばGoogle Cloud Platform上ではまだベータであるP100は、コア数が3594 だ。

インスタンス一つにつき、P100は最大4基、K80なら8基を使える。通常のVMと同じくGPUユーザーにも継続利用割引はあるが、実際にはGPUを1か月動かしっぱなし、というユーザーはあまりいない。

AWSの今年のデベロッパーカンファレンスが来週からラスベガスで行われるが、Googleの今回の発表は明らかにそれを意識していると思われる。AWSも今年はAIや機械学習関連の発表が多いだろうし、値下げも当然ありうるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa