地球上で最も大きく、最もパワフルなコンピューターを構築するための世界的な競争が過熱する中、Meta(別名Facebook)は「AI Research SuperCluster(RSC、AIリサーチ・スーパークラスター)」でその混戦に飛び込もうとしている。完全に稼働すれば、世界最速のスーパーコンピュータのトップ10に入る可能性があり、言語やコンピュータビジョンのモデリングに必要な大規模な演算に使用されることになる。
OpenAIのGPT-3が最も有名であろう大型AIモデルは、ノートPCやデスクトップではまとめられるものではなく、最先端のゲーム機をも凌駕する高性能コンピューティングシステムによって、数週間から数カ月にわたって継続的に計算された最終的な成果だ。また、モデルのトレーニングプロセスが早ければ早いほど、そのモデルをテストして、より良い新しいモデルを生み出すことができる。トレーニングの時間が月単位になるというのは、とても重要なことだ。
RSCは稼働しており、同社の研究者たちはすでにそれを使って仕事をしている。ユーザー生成データを使用して、と言わなければならないが、データはトレーニング時までに暗号化されており、施設全体が外部インターネットから隔離されていることをMetaは慎重に説明した。
スーパーコンピュータは驚くほど物理的な構築物であり、熱、ケーブル配線、相互接続などの基本的な考慮事項が性能や設計に影響を与えるが、RSCを構築したチームは、ほとんどリモートでこれを成し遂げたことを当然のことながら誇りに思っている。エクサバイト級のストレージはデジタル的に十分な大きさに聞こえるが、実際にどこかに存在し、現場でマイクロ秒単位でアクセスできる必要がある(Pure Storageも、このために同社が用意したセットアップを誇りに思っている)。
RSCは現在、760台のNVIDIA DGX A100システムをコンピュートノードとして使用しており、これらのシステムには合計6080個のNVIDIA A100 GPUが搭載されている。Metaは、米ローレンス・バークレー国立研究所のPerlmutterとほぼ同等の性能を持つと主張している。これは、長年のランキングサイト「Top 500」によると、現在稼働しているスーパーコンピュータの中で5番目に強力なスーパーコンピュータとなる(ちなみに、1位は今のところダントツで日本の富岳である)。
これは、同社がシステムの構築を続けることで変わる可能性がある。最終的には約3倍の性能になる予定で、理論的には3位の座を狙えることになる。
そこに補足説明があるべきなのは間違いない。2位の米ローレンス・リバモア国立研究所のSummitのようなシステムは、精度が求められる研究目的で採用されている。地球の大気圏内の分子を、これまでにない詳細なレベルでシミュレーションする場合、すべての計算を非常にたくさんの小数点以下の桁数で行う必要がある。つまり、それらの計算はより多くの計算コストを要するということだ。
Metaは、AIアプリケーションでは結果が1000分の1パーセントに左右されるわけではないため、同様の精度は必要ないと説明する。推論演算では「90%の確率でこれは猫である」というような結果が出るが、その数字が89%でも91%でも大きな違いはない。難しいのは、100個ではなく、100万個の物体や語句に対して90%の確実性を実現することだ。
それは単純化しすぎだが、結果として、TensorFloat-32(TF32)演算モードを実行しているRSCは、他のより精度を重視したシステムよりも、コアあたりのFLOPS(1秒あたりの浮動小数点演算)を多く得ることができる。この場合、189万5000テラFLOPS(または1.9エクサFLOPS)にもなり、富岳の4倍以上になり得る。それは重要なことだろうか?もしそうであれば、誰にとって?もし誰かいるとすれば、Top 500リストの人々にとっては重要かもしれないので、何か意見があるか聞いてみた。だが、RSCが世界最速のコンピュータの1つになるという事実は変わらないし、おそらく民間企業が独自の目的で運用するものとしては最速だろう。
画像クレジット:Meta
[原文へ]
(文:Devin Coldewey、翻訳:Dragonfly)