ニュース
NVIDIA、1パッケージに2ダイの新型GPU「Blackwell」。AI性能は学習4倍、推論30倍に
2024年3月19日 07:00
NVIDIAは3月18日~3月20日の3日間にわたり、同社のAIやデータセンター向け半導体などに関する話題を扱うフラグシップ年次イベント「GTC」を、米国カリフォルニア州サンノゼにおいて開催する。3月18日13時(日本時間、3月19日5時)からは、同社の共同創始者でCEOのジェンスン・フアン氏による基調講演が行なわれ、同社の最新GPUアーキテクチャ「Blackwell」が発表された。
発表されたBlackwell(製品名はNVIDIA B200 Tensor Core GPU)は巨大なダイ2つが1パッケージに封入されており、2つのダイは10TB/sのNV-HBIで接続され、1つのGPUとして動作する。192GB HBM3eメモリ(8TB/s)を備え、FP8(Tensorコア)で10PFLOPS、FP4(同)で20PFLOPSの性能を実現している。また、チップ間を接続するNVLinkは第5世代に進化し、帯域幅は1.8TB/sに拡張され、新しいNVLink Switchを利用することで、最大576GPUまでスケールアップできる。
2基のB200と1基のNVIDIA Arm CPU(Grace)を1モジュールにした「GB200」も用意。GB200とH100と比較すると、AI学習時の性能が4倍、推論時の性能は30倍になっており、電力効率は25倍も改善するとNVIDIAは説明している。
FP8の性能は従来比で2.5倍。NVLinkも高速化で最大576基までスケールアップ
NVIDIAが今回発表したBlackwell(ブラックウェル、開発コードネーム)は、製品名がNVIDIA B200 Tensor Core GPU(以下B200)となり、NVIDIAが2022年に発表したHopper(製品名はNVIDIA H100 Tensor Core GPU、以下H100)の後継となるAI・データセンター向けのGPUとなる。
今回のB200の大きな特徴は、1パッケージに2つの巨大なダイが格納されていることだ。どのような技術を利用して2つのダイを1つのパッケージに封入しているのかは現時点では明らかになっていないが、何らかのチップレット技術を利用して実現している可能性が高いと考えられる。チップ間の接続にはNV-HBIという独自のインターコネクトが利用されており、10TB/sという超広帯域で接続されている。
製造に利用されるプロセスノードはTSMC 4NPで、H100の製造に利用されていたTSMC 4Nの改良版となる。つまり、プロセスノードの進化による性能向上はほとんどなく、2ダイが1パッケージになったことが性能の強化において大きな意味があると考えられる。
Blackwell(B200) | Hopper(H100 SXM) | |
---|---|---|
プロセスノード | TSMC 4NP | TSMC 4N |
ダイ/パッケージ | 2基 | 1基 |
FP8 | 10PFLOPS | 約4PFLOPS |
FP4 | 20PFLOPS | - |
GPUメモリ | 192GB(HBM3e) | 80GB(HBM3) |
GPUメモリ帯域幅 | 8TB/秒 | 3.35TB/秒 |
NVLink | 第5世代 | 第4世代 |
NVLink帯域幅 | 1.8TB/秒(双方向) | 900GB/秒(双方向) |
NVLink Switch利用時最大スケールアップ数 | 576基 | 256基 |
2チップになり、メモリコントローラの数も倍になったこともあり、搭載できるメモリ容量も増えている。H100では80GBのHBM3だったが、B200では192GBのHBM3eが搭載されるとともに、メモリの帯域幅もH100の3.35TB/sから8TB/sと広帯域になっており、そちらも性能向上に大きく貢献していると考えられる。
NVIDIAが公表した資料によれば、FP8(Tensorコア)の性能は10PFLOPSで、これはH100のFP8(同)の約4PFLOPSに比べて約2.5倍に向上している。なお、今回のB200ではH100では対応していなかったFP4(Tensorコア)の演算に対応しており、AI推論にFP4を利用した場合には20PFLOPSの性能が実現される。たとえばAI推論にFP8やINT8などに変えてFP4で演算すると、H100の5倍の推論性能を実現できることを意味する。
NVLinkの強化も大きなポイントで、H100の第4世代では双方向900GB/sだった帯域幅が、B200の第5世代NVLinkでは双方向1.8TB/sと倍に強化されている。また、その第5世代のNVLinkに対応したNVLink Switchを利用すると、最大で576基までスケールアップできる。
このほかにも、B200には信頼性予測を実現するRASエンジン、TEEなどのコンフィデンシャルコンピューティング機能、データ解凍用アクセラレータとなりデータベースクエリを高速化するDecompressionエンジンなども搭載しており、それらによりデータセンターでの企業の生産性などを向上させることができる。
加えて、スケールアウト用に新しいInfiniBandのソリューションとなる「NVIDIA Quantum-X800」、イーサネットのソリューションとなる「NVIDIA Spectrum-X800」などといった800Gbpsを実現したソリューションも発表しており、それらを利用することで最大10万基のB200を1つのGPUとして扱えるスーパーコンピュータを構成することが可能になる。
Arm CPUと組み合わせたGB200も登場。ラック版のGB200 NVL72なども
B200と同時に、2023年のCOMPUTEX 23で発表したGrace Hopperこと「NVIDIA GH200 Superchip」(以下GH200)の後継となる、Grace Blackwellこと「NVIDIA GB200 Superchip」(以下GB200)を発表している。GH200では、Arm CPUのGrace(Neoverse V2 CPU)が1つ、Hopper(H100)が1つを1モジュールとして提供していたが、GB200ではGraceが1つ、Blackwell(B200)が2つを1モジュールとして提供しており、CPUが1つなのは変わらないが、GPUが2つになっている点が大きな強化点となる。だが、NVIDIAによればそうした強化で、GB200の性能はH100と比較してAI学習時には4倍、AI推論時には30倍、電力効率の観点では25倍になっているという。
こうしたB200、GB200、NVLinkやNVLink Switchを利用したスケールアップ、そして各種ネットワークソリューションを利用したスケールアウトによって、さまざまな種類のサーバーやスーパーコンピュータの構成をラインアップしている。
8GPU構成のサーバー機器「DGX H100」の後継として投入されるのが「DGX B100」だ。DGX B100は、2つの第5世代Xeonプロセッサと8つのB200を搭載しており、144PFLOPSのAI性能を実現している。DGX H100と比較して1兆パラメータのモデルによるAI推論性能は15倍になっているとNVIDIAは説明している。そのDGX B200のOEMメーカー版としてHGX B200もH100世代と同じように用意される。
GB200のモジュールが2つ搭載されているブレードサーバー18台から構成されるラック版の「GB200 NVL72」も発表。GB200 NVL72が1つで、最大36基のGrace CPU、72基のBlackwell GPUを格納できる。GB200 NVL72では水冷の冷却機構が採用されており、全体で1.4EFLOPS(エクサフロップス)の性能を実現している。
さらに、そうしたGB200 NVL72と同じスペックになっているDGX GB200を8つ接続した「DGX SuperPOD (NVIDIA DGX GB200対応版)」も発表されており、288基のGrace CPU、576基のBlackwell GPUが1つのPodになっているスーパーコンピュータで、システム全体で240TBのメモリ、FP4(Tensorコア)利用時に11.5EFLOPSというピーク性能を実現する。
GB200 NVL72はCSP(クラウドサービスプロバイダー)にも納入される計画で、AWS、Google Cloud、Oracle Cloudにまず導入される計画だ。
また、NVIDIAとAWSは、2023年11月にラスベガスで開催されたAWS re:Inventというイベントで「Project Ceiba」というGH200 NVL32を活用したスーパーコンピュータの計画を発表していたが、GH200をGB200 NVL72へアップグレードする計画を明らかにした。それによりシステム全体で2万基を超えるGPU、400EFLOPSを超える性能、4PBのHBM3eメモリ(2PB/s)を実現する予定だ。
NVIDIAによればB200やGB200を搭載したシステムは2024年中に投入される計画で、AWS、Google Cloud、Microsoft Azure、Oracle CloudなどのCSP(クラウドサービスプロバイダー)経由で提供されるほか、Cisco、Dell Technologies、HPE、Lenovo、Supermicroなどのサーバー機器ベンダーからも提供される予定となっている。現時点では価格などは明らかにされていない。