特集

GeForce RTX 5090と4090のスペック詳細を比較

劉尭

2025年1月23日 23:00

　NVIDIAは23日、Blackwellアーキテクチャを採用した新世代GPUシリーズの最上位「GeForce RTX 5090」のベンチマーク性能、およびその詳細のスペックを解禁した。本記事ではGeForce RTX 4090シリーズと数字上での比較をしてみた。

　GeForce RTX 5090では「GB202」と呼ばれるダイを採用している。CUDAコア数は合計で21,760基と、従来の16,384基から約32%増えた。なお、複数のCUDAコアをまとめる「SM(Streaming Multiprocessor)」あたりのCUDAコア数は128基で変更はないのだが、そのSMは従来の128基から170基へ増えた。

　ちなみに1つのSM内には、リアルタイムレイトレーシング処理を司るRTコアが1基、AI関連処理を司るTensorコアが4基内蔵されているのだが、SM数の増加によりそれぞれ128基/512基から170基/680基に増えて性能が強化された。

　メモリ周りが大きくアップデートされたのもGeForce RTX 5090の特徴。従来の21Gbps転送のGDDR6Xから、28Gbps転送のGDDR7となったことで転送速度が向上しただけでなく、バス幅も384bitから512bitに拡張され、帯域幅1,008GB/sから1,792GB/sへと約78%向上した。

【表】GeForce RTX 5090と4090を比較
GPU	GeForce RTX 5090	GeForce RTX 4090
CUDAコア数	21,760基	16,384基
RTコア	第4世代 170基 318TFLOPS	第3世代 128基 191TFLOPS
Tensorコア	第5世代 680基 3,352AI TOPS	第4世代 512基 1,321 AI TOPS
SM数	170	128
TPC数	85	64
GPC数	11	11
ROP数	176	176
ピクセルフィルレート(Gigapixels/s)	423.6	443.5
テクスチャユニット	680基	512基
テクスチャフィルレート(Gigatexels/s)	1,636.8	1,290.2
L1データキャッシュ/共有メモリ	21,760KB	16,384KB
L2キャッシュ	98,304KB	73,728KB
レジスタファイルサイズ	43,520KB	32,768KB
ブーストクロック	2.407GHz	2.52GHz
ベースクロック	2.01GHz	2.23GHz
ピークFP32/FP16/BF16性能(non-Tensor)	104.8TFLOPS	82.6TFLOPS
ピークINT32性能(non-Tensor)	104.8TOPS	41.3TOPS
ピークFP4 Tensor TFLOPS with FP32 Accumulate	1,676/3,352	-
ピークFP8 Tensor TFLOPS with FP16 Accumulate	838/1,676	660.6/1,321.2
ピークFP8 Tensor TFLOPS with FP32 Accumulate	419/838	330.3/660.6
ピークFP16 Tensor TFLOPS with FP16 Accumulate	419/838	330.3/660.6
ピークFP16 Tensor TFLOPS with FP32 Accumulate	209.5/419	165.2/330.4
ピークBF16 Tensor TFLOPS with FP32 Accumulate	209.5/419	165.2/330.4
ピークTF32 Tensor TFLOPS	104.8/209.5	82.6/165.2
ピークINT8 Tensor TOPS	838/1,676	660.6/1321.2
メモリ	GDDR7	GDDR6X
メモリ容量	32GB	24GB
メモリ速度	28Gbps	21Gbps
帯域幅	1,792GB/s	1,008GB/s
バス幅	512bit	384bit
NVENC	第9世代×3	第8世代×2
NVDEC	第6世代×2	第5世代×1
トランジスタ数	922億	763億
製造プロセス	TSMC 4nm 4N NVIDIAカスタム	TSMC 4nm 4N NVIDIAカスタム
最大GPU温度	90℃	90℃
TGP	575W	450W
システム要件電力	1,000W	850W
販売価格目安(発売時)	39万3,800円	29万8,000円

GeForce RTX 5090で使われるGB202のフルスペックダイのブロックダイアグラム

GeForce RTX 40シリーズからのSMの変化。すべてのユニットがFP32/INT32両対応となった

　このほか、動画エンコーダのNVENCは第8世代から第9世代、デコーダのNVDECは第5世代から第6世代へと進化。また、PCI Expressも4.0から5.0となり帯域幅が倍増した。AI関連では、Tensorコアが第4世代から第5世代に進化し、新たにFP4精度の演算をサポートしたことで、対応生成AIモデルにおける性能が大幅に向上する。

Tensorコアの進化

GDDR7の採用

　ドライバ周りの新機能として、マルチフレーム生成によりゲームのフレームレートを向上させる「DLSS 4」の対応が挙げられる。従来のDLSS 3は2つのフレーム間で1フレームを生成していたが、DLSS 4では最大3フレーム生成できるようになり、さらにフレームレートが向上する。

　一方で、レイテンシを削減する「Reflex」技術は「2」に進化し、マウス入力に基づいて、ディスプレイに送信される直前のフレームレートを更新することで応答速度を向上させる「Reflex フレームワープ」に対応した。この機能は近日公開で、GeForce RTX 20シリーズまで遡って利用できる見込み。