特集

GeForce RTX 5090と4090のスペック詳細を比較

 NVIDIAは23日、Blackwellアーキテクチャを採用した新世代GPUシリーズの最上位「GeForce RTX 5090」のベンチマーク性能、およびその詳細のスペックを解禁した。本記事ではGeForce RTX 4090シリーズと数字上での比較をしてみた。

 GeForce RTX 5090では「GB202」と呼ばれるダイを採用している。CUDAコア数は合計で21,760基と、従来の16,384基から約32%増えた。なお、複数のCUDAコアをまとめる「SM(Streaming Multiprocessor)」あたりのCUDAコア数は128基で変更はないのだが、そのSMは従来の128基から170基へ増えた。

 ちなみに1つのSM内には、リアルタイムレイトレーシング処理を司るRTコアが1基、AI関連処理を司るTensorコアが4基内蔵されているのだが、SM数の増加によりそれぞれ128基/512基から170基/680基に増えて性能が強化された。

 メモリ周りが大きくアップデートされたのもGeForce RTX 5090の特徴。従来の21Gbps転送のGDDR6Xから、28Gbps転送のGDDR7となったことで転送速度が向上しただけでなく、バス幅も384bitから512bitに拡張され、帯域幅1,008GB/sから1,792GB/sへと約78%向上した。

【表】GeForce RTX 5090と4090を比較
GPUGeForce RTX 5090GeForce RTX 4090
CUDAコア数21,760基16,384基
RTコア第4世代 170基 318TFLOPS第3世代 128基 191TFLOPS
Tensorコア第5世代 680基 3,352AI TOPS第4世代 512基 1,321 AI TOPS
SM数170128
TPC数8564
GPC数1111
ROP数176176
ピクセルフィルレート(Gigapixels/s)423.6443.5
テクスチャユニット680基512基
テクスチャフィルレート(Gigatexels/s)1,636.81,290.2
L1データキャッシュ/共有メモリ21,760KB16,384KB
L2キャッシュ98,304KB73,728KB
レジスタファイルサイズ43,520KB32,768KB
ブーストクロック2.407GHz2.52GHz
ベースクロック2.01GHz2.23GHz
ピークFP32/FP16/BF16性能(non-Tensor)104.8TFLOPS82.6TFLOPS
ピークINT32性能(non-Tensor)104.8TOPS41.3TOPS
ピークFP4 Tensor TFLOPS with FP32 Accumulate1,676/3,352-
ピークFP8 Tensor TFLOPS with FP16 Accumulate838/1,676660.6/1,321.2
ピークFP8 Tensor TFLOPS with FP32 Accumulate419/838330.3/660.6
ピークFP16 Tensor TFLOPS with FP16 Accumulate419/838330.3/660.6
ピークFP16 Tensor TFLOPS with FP32 Accumulate209.5/419165.2/330.4
ピークBF16 Tensor TFLOPS with FP32 Accumulate209.5/419165.2/330.4
ピークTF32 Tensor TFLOPS104.8/209.582.6/165.2
ピークINT8 Tensor TOPS838/1,676660.6/1321.2
メモリGDDR7GDDR6X
メモリ容量32GB24GB
メモリ速度28Gbps21Gbps
帯域幅1,792GB/s1,008GB/s
バス幅512bit384bit
NVENC第9世代×3第8世代×2
NVDEC第6世代×2第5世代×1
トランジスタ数922億763億
製造プロセスTSMC 4nm 4N NVIDIAカスタムTSMC 4nm 4N NVIDIAカスタム
最大GPU温度90℃90℃
TGP575W450W
システム要件電力1,000W850W
販売価格目安(発売時)39万3,800円29万8,000円
GeForce RTX 5090で使われるGB202のフルスペックダイのブロックダイアグラム
GeForce RTX 40シリーズからのSMの変化。すべてのユニットがFP32/INT32両対応となった

 このほか、動画エンコーダのNVENCは第8世代から第9世代、デコーダのNVDECは第5世代から第6世代へと進化。また、PCI Expressも4.0から5.0となり帯域幅が倍増した。AI関連では、Tensorコアが第4世代から第5世代に進化し、新たにFP4精度の演算をサポートしたことで、対応生成AIモデルにおける性能が大幅に向上する。

Tensorコアの進化
GDDR7の採用

 ドライバ周りの新機能として、マルチフレーム生成によりゲームのフレームレートを向上させる「DLSS 4」の対応が挙げられる。従来のDLSS 3は2つのフレーム間で1フレームを生成していたが、DLSS 4では最大3フレーム生成できるようになり、さらにフレームレートが向上する。

 一方で、レイテンシを削減する「Reflex」技術は「2」に進化し、マウス入力に基づいて、ディスプレイに送信される直前のフレームレートを更新することで応答速度を向上させる「Reflex フレームワープ」に対応した。この機能は近日公開で、GeForce RTX 20シリーズまで遡って利用できる見込み。

従来のアプリよりも、DLSS 4とリアルタイムレイトレーシングに対応したタイトルで威力を発揮するGeForce RTX 5090