笠原一輝のユビキタス情報局
新たに判明したGeForce RTX 5090のアーキテクチャを徹底解説
2025年1月23日 23:00
NVIDIAは「GeForce RTX 50」シリーズを、1月6日に発表した。1月15日(現地時間)にはそのアーキテクチャ「Blackwell」の詳細を発表し、本日(1月23日)には本誌を含むメディアなどから実機を利用したベンチマーク記事などが公開されている。
それに合わせて、GeForce RTX 50シリーズに関するさらなる詳細を明らかにした。公開したホワイトペーパーの中で、Blackwell向けのダイとなるGB202、GB203、GB205の構造を明らかにし、ブロックダイアグラムなどを公開している。本記事でそれを解説していきたい。
モジュラー構造を採用しているNVIDIA GPU、CUDAコア、SM、TPC、GPCの順にブロック化されている
GeForce RTX 50シリーズは、開発コードネーム「Blackwell」と呼ばれる最新世代GPUアーキテクチャを採用している。BlackwellはGeForce RTX 20シリーズに採用されていた「Turing」、GeForce RTX 30シリーズに採用されていた「Ampere」、そしてGeForce RTX 40シリーズに採用されていた「Ada Lovelace」に次ぐものだ。
NVIDIAのGPUアーキテクチャの名称は、データセンター向けのGPUと同じ世代だが別名称の世代(たとえばAda Lovelaceは、データセンターで言うとHopper世代と同じ世代だと考えられるが名称は別になっている)と同じ名称の世代があるが、今回のBlackwellはデータセンター向けのそれと共通の名称になっている。ただし、データセンター向けは2つのダイが1パッケージで統合され、メモリはHBMになっているなどの違いがあり、今回GeForce RTX 50シリーズに採用されているBlackwellとは共通項もあるが別の製品と考えるべきだ。
製品シリーズ名 | GeForce RTX 50シリーズ | GeForce RTX 40シリーズ | GeForce RTX 30シリーズ | GeForce RTX 20シリーズ |
---|---|---|---|---|
GPUアーキテクチャ名 | Blackwell | Ada Lovelace | Ampere | Turing |
最大構成ダイ | GB202 | AD102 | GA102 | TU102 |
最上位製品 | GeForce RTX 5090 | GeForce RTX 4090 | GeForce RTX 3090 Ti | GeForce TITAN RTX |
登場年 | 2025年 | 2022年 | 2020年 | 2018年 |
GPC/GPU(アーキテクチャレベル) | 12 | 12 | 7 | 6 |
TPC/GPU(アーキテクチャレベル) | 96 | 72 | 42 | 36 |
SM/GPU(アーキテクチャレベル) | 192 | 144 | 84 | 72 |
CUDAコア/SM(アーキテクチャレベル) | 128 | 128 | 128 | 64 |
CUDAコア/GPU(アーキテクチャレベル) | 24576 | 18432 | 10752 | 4608 |
SP構造 | 2xFP32(2xFP32/INT32) | 2xFP32(FP32 and FP32/INT32) | 2xFP32(FP32 and FP32/INT32) | 1xFP32 |
シェーダスループット(最上位製品)/FP32 | 105TFLOPS | 83TFLOPS | 35.6TFLOPS | 11TFLOPS |
RTコア/GPU(アーキテクチャレベル) | 192(第4世代) | 144(第3世代) | 84(第2世代) | 72(第1世代) |
RTコアスループット(最上位製品) | 317.5TFLOPS | 191TFLOPS | 58TFLOPS | 34TFLOPS |
Tensorコア/GPU(アーキテクチャレベル) | 768(第5世代) | 576(第4世代) | 336(第3世代) | 576(第2世代) |
Tensorコア精度 | FP4/FP8/FP16 | FP8/FP16 | FP16 | FP16 |
TensorコアAI性能(最上位製品) | 3352TOPS/FP4(スパース) | 1321TOPS/FP8(スパース) | TOPS非公表(320TFLOPS) | TOPS非公表(89TFLOPS) |
L1キャッシュ/SM(アーキテクチャレベル) | 128KB | 128KB | 128KB | 96KB |
L2キャッシュ(アーキテクチャレベル) | 128MB | 96MB | 6MB | 5.5MB |
メモリ(最上位製品) | 512bit/GDDR7 | 384bit/GDDR6X | 384bit/GDDR6X | 384bit/GDDR6 |
メモリ容量(最上位製品) | 32GB | 24GB | 24GB | 24GB |
メモリ帯域幅(最上位製品) | 1.8TB/s | 1,008GB/s | 1,008GB/s | 672GB/s |
DLSS | DLSS4 | DLSS3.5 | DLSS2 | DLSS2 |
Reflex | Reflex2 | Reflex2 | Reflex2 | Reflex2 |
PCIe世代 | Gen 5 | Gen 4 | Gen 4 | Gen 3 |
NVENC(アーキテクチャレベル) | 第9世代×3 | 第8世代×2 | 第7世代×1 | 第7世代×1 |
NVDEC(アーキテクチャレベル) | 第6世代×2 | 第5世代×1 | 第5世代×1 | 第4世代×1 |
AV1エンコード | ○ | ○ | - | - |
AV1デコード | ○ | ○ | ○ | - |
TGP | 575W | 450W | 450W | 280W |
トランジスタ数(最大のダイ) | 920億 | 760億 | 280億 | 186億 |
ダイサイズ | 750平方mm | 608.5平方mm | 628.4平方mm | 754平方mm |
プロセスノード | TSMC 4N | TSMC 4N | サムスン8N | TSMC 12nm FFN |
前回のアーキテクチャ概要の記事を書いた時点では、ダイ内部の演算器の構成などは公開されていなかったのだが、今回公開されたホワイトペーパー「NVIDIA RTX BLACKWELL GPU ARCHITECTURE」には、新たにGPC、TPC、SMなどの内部のブロック構造やそれぞれの数などが公開されている。
近年のNVIDIA GPUは“モジュラー構造”と呼ばれ、演算器の数を容易に伸縮できるようになっている。そうすれば、まずダイサイズが大きなバージョンを作り、そこから演算器の数を段階に減らしていくことで、ダイサイズが小さな廉価版を設計することが容易になるからだ。
今回もNVIDIAは開発コードネームでGB202、GB203、GB205という3種類のダイを用意しており、GB202をGeForce RTX 5090として、GB203をGeForce RTX 5080とGeForce RTX 5070 Ti、そしてGB205をGeForce RTX 5070のダイとして利用している。フルスペックのダイがGB202で、GB203とGB205はそこからTPCの数やGPUの数などが減らされ、最終的に演算器(CUDAコア)の数が減ったバリエーションになっている。
半導体の製造コストは、ダイサイズの大きさに比例するどころか、指数関数的に響く。特に大きなダイサイズの製品は、歩留まりと呼ばれる良品率を上げるのが難しいため、製造コストが桁1つ違ってくる場合も多い。
Blackwell世代のダイサイズは、GB202が750平方mm、GB203が378平方mm、GB205が263平方mmで、GB203の倍近いダイサイズになるGB202の製造コストは、文字通り桁違いの可能性が高い。GeForce RTX 5090だけ価格が飛び抜けて高いのはそうした事情が反映されている。
モジュラー構造になっているNVIDIAのGPUを小さい方の単位から数えていこう。Blackwellでは、FP32/INT32の演算を行なえるCUDAコアというシェーダ用の演算器があり、それを128基ブロックにしたものをSM(Streaming Multiprocessor)と呼んでいる。SMには、CUDAコアのほかにも、L1キャッシュ、メモリへのロードストア、さらにはレイトレーシングを専用に演算するRTコアを1つ、AI推論専用の演算を行なうTensorコアを4つ内蔵している。
さらに、SMを2基で1セットとしているのがTPC(Texture Processing Cluster)、そして複数のTPCを1つとしているGPC(Graphics Processing Cluster)で、その複数のGPCから構成されているのがGPU全体となる。
NVIDIAのGPUではこのTPCとGPCの数をそれぞれ可変にでき、TPCやGPCの数をバランスが良いように減らしていくことで、下位のダイを容易に設計できる。GB202からそうやって派生していったものがGB203とGB205ということになる。
前世代と比較すると、GPCあたりTPCが2基増え、GPU全体で24基増えている
GeForce RTX 5090に利用されているGB202と、前世代のハイエンド製品となるGeForce RTX 4090に利用されているAD102を、ダイのフルスペックレベルで比較してみると、以下のようになっている。“ダイのフルスペック”と言ったのは、実製品ではフルスペックが利用されている例はあまり多くなく、今回の製品でもGB202のGeForce RTX 5090、GB203のGeForce RTX 5070 Ti、GB205のGeForce RTX 5070とも、ダイのフルスペックではない。これは半導体の歩留まりを向上させるために一般的に使われる手法だ。
ダイ | GB202(フルスペック) | AD102(フルスペック) |
---|---|---|
利用製品 | GeForce RTX 5090 | GeForce RTX 4090 |
GPC/GPU(アーキテクチャレベル) | 12 | 12 |
TPC/GPC(アーキテクチャレベル) | 8 | 6 |
SM/TPC(アーキテクチャレベル) | 2 | 2 |
CUDAコア/SM(アーキテクチャレベル) | 128 | 128 |
CUDAコア/GPU(アーキテクチャレベル) | 24576 | 18432 |
RTコア(アーキテクチャレベル) | 192 | 144 |
Tensorコア(アーキテクチャレベル) | 768 | 576 |
ROP(アーキテクチャレベル) | 192 | 144 |
L1キャッシュ/SM(アーキテクチャレベル) | 128KB | 128KB |
L2キャッシュ(アーキテクチャレベル) | 128MB | 96MB |
メモリコントローラ(32bit) | 16基 | 12基 |
GB202は、従来のAD102と比較してCUDAコアが約34%増えている。CUDAコアが増えている理由は非常にシンプルで、TPCがGPC 1つあたり2基増えている(6基から8基)からだ。それ以外のGPUあたりのGPC、TPCあたりのSM、SMあたりのCUDAコアというところは増えていないので、TPCが2基増えたことで、TPCに2基搭載されているSMがGPU全体で24基増えていることになり、その分でCUDAコアが増えている。計算式にすると
・AD102
GPU全体で 12 基のGPC×GPCあたり 6 基のTPC×TPCあたり 2 基のSM×SMあたり 128 基のCUDAコア=18,432基のCUDAコア
・GB202
GPU全体で 12 基のGPC×GPCあたり 8 基のTPC×TPCあたり 2 基のSM×SMあたり 128 基のCUDAコア=24,576基のCUDAコア
という計算となる。
ところで、SM内部の構造も基本的にはAD102と同様だが、演算器のCUDAコアはすべてのコアがFP32とINT32の両方を演算できるように変更されている。従来はSM内部で半分がFP32専用、残り半分がINT32/FP32と共用だった。つまり、浮動小数点を演算する時には影響はないが、整数演算を行なう時には性能が向上する。
そのほかのSMの構造は基本的には同じで、128基のCUDAコア、128KBのL1キャッシュ、RTコアが1つ、Tensorコアが4つ。ただし、SM自体がAD102に比べて24基増えているので、SMに4つあるTensorコアは192基、SMに1つあるRTコアは24基ずつ増えた。なおかつ、それぞれ世代が新しくなり、機能が増え、Tensorコアに関しては新しくFP4で演算することが可能になっており、FP4(スパース性)を利用した場合、最大3,352TOPSの性能を実現する。
このように、GB202ではGPCに内蔵されているTPCが6から8に増えたことに加え、CUDAコアも、Tensorコアも、RTコアといったほぼすべての演算器の数が増えている。これが前世代のAD102に比較して性能が大幅に向上している理由となる。
ただし、AD102と同じプロセスノードであるTSMC 4Nを利用してこれだけのアップデートを行なったことで、ダイサイズは608.5平方mmから750平方mmと、Turing世代のTU102の754平方mmのレベルまで戻っている。
また、同じプロセスノードでダイサイズが大きくなれば、それだけ消費電力は大きくなる。実際TGPは従来の450Wから575Wに引き上げられている。TGPは消費電力ではないが、TGPが大きくなればピーク時の消費電力は増える傾向にあるので、それがこのGB202の唯一の弱点ということができるだろう。
GPCとTPCそれぞれを減少させたGB203とGB205で普及価格帯向けの製品を構成
今回NVIDIAは今回そのGB202、GB203、GB205のアーキテクチャレベルでのスペックを明らかにした。
これらのスペックはダイのフルスペックで、先述の通り実際の製品では歩留まりを向上させるために、若干スペックを削ることがある。実際、GB202を利用しているGeForce RTX 5090、GB205を利用しているGeForce RTX 5070はGPC数などが削られている。一方、GB203の上位版となるGeForce RTX 5080にはフルスペックで、下位版のGeForce RTX 5070 Tiに関してはGPC数を削ったバージョンになっている。
ダイ | GB202(フルスペック) | GB203(フルスペック) | GB205(フルスペック) |
---|---|---|---|
利用製品 | GeForce RTX 5090 | GeForce RTX 5080/GeForce RTX 5070 Ti | GeForce RTX 5070 |
GPC/GPU(アーキテクチャレベル) | 12 | 7 | 5 |
TPC/GPC(アーキテクチャレベル) | 8 | 6 | 5 |
TPC/GPU(アーキテクチャレベル) | 96 | 42 | 25 |
SM/GPU(アーキテクチャレベル) | 192 | 84 | 50 |
CUDAコア/SM(アーキテクチャレベル) | 128 | 128 | 128 |
CUDAコア/GPU(アーキテクチャレベル) | 24,576 | 10,752 | 6400 |
RTコア(アーキテクチャレベル) | 192 | 84 | 50 |
Tensorコア(アーキテクチャレベル) | 768 | 336 | 200 |
ROP(アーキテクチャレベル) | 192 | 112 | 80 |
シェーダースループット/FP32(最上位製品) | 104.8TFLOPS | 56.3TFLOPS | 30.9TFLOPS |
RTコアスループット(最上位製品) | 317.5TFLOPS | 170.6TFLOPS | 93.6TFLOPS |
Tensorコア/FP4(最上位製品)ノンスパース/スパース | 1676/3,352TOPS | 900.4/1,801TOPS | 493.3/987.3TOPS |
Tensorコア/FP8(最上位製品)ノンスパース/スパース | 838/1,676TOPS | 450.2/900.4TOPS | 246.9/493.9TOPS |
L1キャッシュ/SM(アーキテクチャレベル) | 128KB | 128KB | 128KB |
L2キャッシュ(アーキテクチャレベル) | 128MB | 64MB | 48MB |
メモリ(最上位製品) | 512bit/GDDR7 | 256bit/GDDR7 | 192bit/GDDR7 |
メモリコントローラ(x32) | 16 | 8 | 6 |
メモリ容量(最上位製品) | 32GB | 16GB | 12GB |
メモリ帯域幅(最上位製品) | 1.8TB/s | 960GB/s | 672GB/s |
トランジスタ数 | 922億 | 456億 | 311億 |
ダイサイズ | 750平方mm | 378平方mm | 263平方mm |
プロセスノード | TSMC 4N | TSMC 4N | TSMC 4N |
GeForce RTX 5090 | GeForce RTX 5080 | GeForce RTX 5070 Ti | GeForce RTX 5070 | |
---|---|---|---|---|
ダイ | GB202 | GB203 | GB203 | GB205 |
製造プロセスノード | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N |
CUDAコア | 21,760 | 10,752 | 8960 | 6144 |
GPC/GPU | 11 | 7 | 6 | 5 |
TPC/GPU | 85 | 42 | 35 | 24 |
SM/GPU | 170 | 84 | 70 | 48 |
CUDAコア/SM | 128 | 128 | 128 | 128 |
CUDAコア/GPU | 21,760 | 10,752 | 8960 | 6144 |
RTコア/GPU | 170 | 84 | 70 | 48 |
Tensorコア/GPU | 680 | 336 | 280 | 192 |
Tensorコア性能(FP4スパース) | 3,352TOPS | 1,801TOPS | 1,406TOPS | 988TOPS |
シェーダー性能(FP32) | 105TFLOPS | 56TFLOPS | 44TFLOPS | 31TFLOPS |
RTコア性能 | 318TFLOPS | 171TFLOPS | 133TFLOPS | 94TFLOPS |
ブーストクロック | 2.41GHz | 2.62GHz | 2.45GHz | 2.51GHz |
ベースクロック | 2.01GHz | 2.3GHz | 2.3GHz | 2.16GHz |
メモリサイズ/種類 | 32GB/GDDR7 | 16GB/GDDR7 | 16GB/GDDR7 | 12GB/GDDR7 |
メモリバス幅/データレート | 512bit | 256bit | 256bit | 192bit |
NVENC | 第9世代×3 | 第9世代×2 | 第9世代×2 | 第9世代×1 |
NVDEC | 第6世代×2 | 第6世代×2 | 第6世代×1 | 第6世代×1 |
トランジスタ数 | 920億 | 非公表 | 非公表 | 非公表 |
TGP | 575W | 360W | 300W | 250W |
パワーコネクター | PCIe 8ピン×4 ないし 600W PCIe 5.0×1 | PCIe 8ピン×3 ないし 450W PCIe 5.0 | PCIe 8ピン×2 ないし 300W PCIe 5.0×1 | PCIe 8ピン×2 ないし 300W PCIe 5.0×1 |
発売予定 | 1月30日 | 1月30日 | 2月 | 2月 |
実売予想価格 | 1,999ドル | 999ドル | 749ドル | 549ドル |
また、GB202からGB203とGB205を派生するにあたり、GPCとTPCの両方を削った設計にしている。GB203はGPCが7基でTPCは6基、GB205はGPCが5基でGPCが5基だ。そのほかにも、メモリコントローラの数、L2キャッシュの容量も減らされており、それによりダイサイズはGB203が378平方mm、GB205に関しては263平方mmと小さくすることに成功している(それでもPC用のSoCなどが百平方mm程度であることを考えるとかなり大きい……)。
こうしたNVIDIAが公開したGB203、GB205のスペックから推定されるダイ構造は次のようになる、GB202のブロック図と参照できるように同じ構造で作成しておいた。
なお、Ada Lovelace世代では、GeForce RTX 4090(AD102)、GeForce RTX 4080(AD103)、GeForce RTX 4070 Ti(AD104)をリリースした後、AD106とAD107という追加のダイでGeForce RTX 4060 TiとGeForce RTX 4060をリリースしている。
通例で言うと、そうしたメインストリーム向けのダイは追加で発表されることが多いので、GeForce RTX 50シリーズでもGB206やGB207がある可能性は高い。今後の発表に期待したいところだ。