イベントレポート
NVIDIA、1EFLOPSの性能で生成AI/LLM処理を加速する「DGX GH200」
2023年5月29日 13:30
5月30日から6月2日の予定で、台湾・台北市にある「台北南港1&2展示ホール」において「COMPUTEX TAIPEI 2023」が開催される。その前日となる5月29日には、NVIDIA CEO ジェンスン・フアン氏が開幕の基調講演に登壇した。
この中でフアンCEOはNVIDIAのAI関連の新しい発表を行ない、同社が開発してきたArm CPUとGPUを1モジュール上に統合したGrace Hopper(グレース・ホッパー)について、「NVIDIA GH200 Grace Hopper Superchip」(以下GH200)として正式に発表し、大量生産を開始したことを明らかにした。
また、NVIDIAはそのGH200を搭載したAI用スーパーコンピューター「NVIDIA DGX GH200」(以下DGX GH200)を発表した。このDGX GH200では256機のGH200を1つのGPUとして扱うことが可能で、144TBメモリ、900GB/sのGPU間帯域幅などを実現しており、AI性能としては1EFLOPS(エクサフロップス)という超弩級の性能を実現する。
さらに、CPU、GPU、DPUなどの半導体をラック型サーバーの筐体内にモジュラーとして配置する標準規格「MGX」を発表し、オープン規格として業界に提唱していくと明らかにした。日本ではソフトバンクが今後構築する複数のハイパースケール・データセンターにおいて採用される見通しだ。
GraceとHopperを1モジュールにしたGH200
NVIDIAが発表したのは、同社が開発したArm CPU(Grace)とGPU(Hopper)を1つのモジュール上で統合した、開発コードネーム「Grace Hopper」として知られてきたスーパーコンピューター用のモジュールで、正式名称は「NVIDIA GH200 Grace Hopper Superchip」となる。
GraceはNVIDIAが開発してきたArmアーキテクチャのCPUで、Arm社が既に発表している「Neoverse V2」と呼ばれるCPU IPデザインを採用している。Neoverse V2はArmv9-Aの命令セットアーキテクチャに対応しているのに加え、128bitのSVE2エンジンを4つ備え、Bflot16やINT8を利用したAI演算が可能な拡張命令セットにも対応しているなどの特徴を備えている。GraceではこのNeoverse V2のCPUコアを1チップあたり72個搭載している(CPUだけのNVIDIA Grace CPU Superchipの場合は1モジュールで2ダイなので、144コアになる)。
Grace HopperことGH200では、このGraceが1ダイ、さらにGPUとしてHopperが1ダイ搭載され、NVIDIAが開発したプロプライエタリなインターコネクトである「NVIDIA C2C(NVLink Chip-2-Chip)」により接続される。その帯域幅は900GB/秒に達しており、これはPCI Express 5.0 x16で実現される帯域幅に比較して7倍になる。
そしてこのGH200の最大の特徴は、モジュール上に搭載されるCPU側のメインメモリが最大512GB(LPDDR5X)、GPU側が96GB(HBM3)という大容量を実現していることだ。この96GBのGPUメモリは、GH200同士を接続するNVLink switchを利用すると最大256基まで接続可能になっている。
GH200×256基で1EFLOPSのスパコン「DGX GH200」
NVIDIAは同時にGH200を採用したスーパーコンピューターとして、DGX GH200を発表した。DGXブランドの製品としては、Hopper GPU(NVIDIA H100 GPU)を搭載した「DGX H100」をつい最近出荷したばかりだが、これまでのDGXシリーズは5Uなどのラックマウントサーバーに8つのGPUモジュールを搭載している形になっていた。
しかし、DGX GH200はラックスケールで提供される文字通りのスーパーコンピューターになり、従来のDGXシリーズとはややポジショニングが異なる製品となる。かつ、DGX H100がx86 CPUを搭載している点も違いと言える。
NVIDIAによればDGX GH200は256基のGH200が搭載されており、CPUとGPU合わせて144TBがユニファイドメモリとして利用できる。こうした大容量のメモリを搭載していることに対して、CUDAの生みの親としても知られるNVIDIA ハイパースケール/HPC担当副社長 イアン・バック氏は「生成AIやLLMのような巨大モデルを使って演算するAIは、既にメモリ容量が性能の限界を規定しているような状況だ。我々はTBを超えるような巨大なメモリを必要としており、(CUDAで実現している)プログラミングモデルの利点を生かし、1つの巨大GPUを実現することでそうしたニーズに応えることができる」と述べており、生成AIやLLMのような巨大なAIモデルを利用して演算する場合にボトルネックとして認識されつつあるメモリ容量の制限に関しても、DGX GH200が答えの1つになると強調した。
バック氏によれば、このDGX GH200のAI性能は1EFLOPS(=1,000PFLOPS)とのことで、ついにペタのレンジも超えて、エクサの領域に突入することになる。このDGX GH200は2023年末までに利用可能になる計画で、まずはGoogle、Meta、Microsoftなどのクラウドサービスで試用が可能になる見通しとのことだ。
CPU/GPU/DPUなどをモジュール化して格納するオープン規格「MGX」
さらにNVIDIAは、同社が「MGX」と呼んでいるモジュール型サーバーシャシーの構想を明らかにした。現在のサーバーシャシーというのは、中央あたりにCPUが配置され、GPUやDPU(Intel的な言い方ならIPU)などはPCI Express拡張スロットなどに挿入する形になっている。CPUの重要性が高い汎用サーバーではそれで問題ないのだが、AI処理に特化したサーバーでは、GPUなどをもっと積みたいというニーズがあり、従来のようなCPU中心のサーバーシャシーでは柔軟性が足りなくなりつつあるのだ。
そこでNVIDIAが提案したのがMGXで、CPU、GPU、DPUなどをモジュール化し、サーバーへの実装をより簡単にする。これにより、たとえばCPU中心のシステムならCPUをたくさん搭載できたり、同じシャシーを利用しながらCPUは少なくしてGPUをたくさん搭載したりするなど、より柔軟に行なうことが可能になる。
ただ、現時点ではMGXがどのような仕組みになっているのかは明らかにされておらず、NVIDIAによれば今後ホワイトペーパーなどの形で公開すると説明している。なお、このMGXはオープンな規格となり、競合他社もMGXの仕様を活用したモジュールを作り、サーバーベンダーなどに提供することができると説明している。
このMGXに対応したサーバーを提供するベンダーとしてはASRock Rack、ASUS、GIGABYTE、Pegatron、QCT、Supermicroなどが明らかにされており、特にSupermicroはGraceを搭載した「ARS-221GL-NR」を、QCTはGH200を搭載した「S74G-2U」をMGXに準拠した製品として今回のCOMPUTEX TAIPEIで発表している。
また、日本のソフトバンクが今後計画している複数のハイパースケール・データセンターでMGXを導入し、日本で生成AIや5Gのアプリケーション向けのGPUサーバーを構築していくことも明らかにされた。ソフトバンク株式会社 代表取締役 社長執行役員 兼 CEO 宮川潤一氏は「生成AIはビジネスや一般消費者の生活に溶けこみ始めており、ネットワークオペレーターにとっては正しいコストで正しいインフラストラクチャを構築することは大きな挑戦の1つになりつつある。そのため、我々はNVIDIAのMGXが、そうしたAIや5G、そしてリアルタイムワークロードが必要とするような要求を満たすことを期待している」(原文は英語、筆者訳)と述べ、5GやAIを実現するのに必要となるデータセンターを構築するビルディングブロックとしてMGXへの期待感を表明している。