米国時間11月1日、AWSは、最新のGPUによるインスタンスを立ち上げた。P4と呼ばれるその新しいインスタンスは、AWSが最初のCluster GPUインスタンスを立ち上げてから10年後のローンチとなる。この新世代のインスタンスはIntelのCascade Lakeプロセッサと8つのNVIDIA A100 Tensor Core GPUを使用する。AWSの仕様によると、ディープラーニングのパフォーマンスは旧世代の最大2.5倍となり、モデルの訓練費用は60%安くなるという。
現在のところサイズは1つだけで、AWSではp4d.12xlargeインスタンスと呼ばれている。8つのGPUはNVIDIAのNVLink通信インタフェイスで接続され、同社のGPUDirectインターフェイスもサポートされる。
320GBの高速メモリーと400Gbpsのネットワーキングにより、いうまでもなく極めて強力なマシンだ。加えて96のCPUコア、1.1TBのシステムメモリ、そして8TBのSSDストレージを備えたこのインスタンスは、オンデマンドの料金が1時間32.77ドル(約3432円)と聞いても誰も驚かないだろう。ただしその料金は、1年の予約インスタンスなら1時間20ドル(約2095円)、3年の予約インスタンスでは11.57ドル(約1212円)となっている。
極端なケースとしては、EC2 UltraClusterとAWSが呼ぶこれらのマシンに4000以上のGPUを組み合わせて、スーパーコンピューターが行うようなハイパフォーマンスコンピューティングに使うこともできる。これだけの料金では、小さな試作アプリでモデルの訓練に使うのも難しいが、AWSはすでに。協力企業は、Toyota Research Institute(TRI)、GE Healthcare、Aonといった数社のエンタープライズ顧客と協力してこれらのインスタンスとクラスターをテストしている。
「Toyota Research Instituteでは、誰もが自由に移動できる未来の研究開発を行っている。前世代のP3インスタンスでは、機械学習のモデルの訓練を数日から数時間に短縮できた。今回のP4dインスタンスではGPUのメモリーが増え、浮動小数点数のより効率的な形式を使えるため、弊社の機械学習チームはさらに複雑なモデルをしかも前より高速に訓練できるだろう」とTRIのインフラストラクチャ工学担当技術長であるMike Garrison(マイク・ギャリソン)氏は述べている。
関連記事:NVIDIAがAmpereアーキテクチャのデータセンター用GPUを出荷、タンパク質モデリングなどAI学習の性能が20倍に
カテゴリー:ハードウェア
タグ:AWS
画像クレジット:Pedro Fiúza/NurPhoto/AP
[原文へ]
(翻訳:iwatani、a.k.a. hiwa)