笠原一輝のユビキタス情報局

新たに判明したGeForce RTX 5090のアーキテクチャを徹底解説

笠原一輝

2025年1月23日 23:00

NVIDIAが公開したGB202のブロック図(写真提供:NVIDIA)

　NVIDIAは「GeForce RTX 50」シリーズを、1月6日に発表した。1月15日(現地時間)にはそのアーキテクチャ「Blackwell」の詳細を発表し、本日(1月23日)には本誌を含むメディアなどから実機を利用したベンチマーク記事などが公開されている。

　それに合わせて、GeForce RTX 50シリーズに関するさらなる詳細を明らかにした。公開したホワイトペーパーの中で、Blackwell向けのダイとなるGB202、GB203、GB205の構造を明らかにし、ブロックダイアグラムなどを公開している。本記事でそれを解説していきたい。

モジュラー構造を採用しているNVIDIA GPU、CUDAコア、SM、TPC、GPCの順にブロック化されている

GeForce RTX 5090 Founders Edition

　GeForce RTX 50シリーズは、開発コードネーム「Blackwell」と呼ばれる最新世代GPUアーキテクチャを採用している。BlackwellはGeForce RTX 20シリーズに採用されていた「Turing」、GeForce RTX 30シリーズに採用されていた「Ampere」、そしてGeForce RTX 40シリーズに採用されていた「Ada Lovelace」に次ぐものだ。

　NVIDIAのGPUアーキテクチャの名称は、データセンター向けのGPUと同じ世代だが別名称の世代(たとえばAda Lovelaceは、データセンターで言うとHopper世代と同じ世代だと考えられるが名称は別になっている)と同じ名称の世代があるが、今回のBlackwellはデータセンター向けのそれと共通の名称になっている。ただし、データセンター向けは2つのダイが1パッケージで統合され、メモリはHBMになっているなどの違いがあり、今回GeForce RTX 50シリーズに採用されているBlackwellとは共通項もあるが別の製品と考えるべきだ。

【表1】GeForce RTX 50/40/30/20シリーズの仕様(NVIDIAの資料より筆者作成)
製品シリーズ名	GeForce RTX 50シリーズ	GeForce RTX 40シリーズ	GeForce RTX 30シリーズ	GeForce RTX 20シリーズ
GPUアーキテクチャ名	Blackwell	Ada Lovelace	Ampere	Turing
最大構成ダイ	GB202	AD102	GA102	TU102
最上位製品	GeForce RTX 5090	GeForce RTX 4090	GeForce RTX 3090 Ti	GeForce TITAN RTX
登場年	2025年	2022年	2020年	2018年
GPC/GPU(アーキテクチャレベル)	12	12	7	6
TPC/GPU(アーキテクチャレベル)	96	72	42	36
SM/GPU(アーキテクチャレベル)	192	144	84	72
CUDAコア/SM(アーキテクチャレベル)	128	128	128	64
CUDAコア/GPU(アーキテクチャレベル)	24576	18432	10752	4608
SP構造	2xFP32(2xFP32/INT32)	2xFP32(FP32 and FP32/INT32)	2xFP32(FP32 and FP32/INT32)	1xFP32
シェーダスループット(最上位製品)/FP32	105TFLOPS	83TFLOPS	35.6TFLOPS	11TFLOPS
RTコア/GPU(アーキテクチャレベル)	192(第4世代)	144(第3世代)	84(第2世代)	72(第1世代)
RTコアスループット(最上位製品)	317.5TFLOPS	191TFLOPS	58TFLOPS	34TFLOPS
Tensorコア/GPU(アーキテクチャレベル)	768(第5世代)	576(第4世代)	336(第3世代)	576(第2世代)
Tensorコア精度	FP4/FP8/FP16	FP8/FP16	FP16	FP16
TensorコアAI性能(最上位製品)	3352TOPS/FP4(スパース)	1321TOPS/FP8(スパース)	TOPS非公表(320TFLOPS)	TOPS非公表(89TFLOPS)
L1キャッシュ/SM(アーキテクチャレベル)	128KB	128KB	128KB	96KB
L2キャッシュ(アーキテクチャレベル)	128MB	96MB	6MB	5.5MB
メモリ(最上位製品)	512bit/GDDR7	384bit/GDDR6X	384bit/GDDR6X	384bit/GDDR6
メモリ容量(最上位製品)	32GB	24GB	24GB	24GB
メモリ帯域幅(最上位製品)	1.8TB/s	1,008GB/s	1,008GB/s	672GB/s
DLSS	DLSS4	DLSS3.5	DLSS2	DLSS2
Reflex	Reflex2	Reflex2	Reflex2	Reflex2
PCIe世代	Gen 5	Gen 4	Gen 4	Gen 3
NVENC(アーキテクチャレベル)	第9世代×3	第8世代×2	第7世代×1	第7世代×1
NVDEC(アーキテクチャレベル)	第6世代×2	第5世代×1	第5世代×1	第4世代×1
AV1エンコード	○	○	-	-
AV1デコード	○	○	○	-
TGP	575W	450W	450W	280W
トランジスタ数(最大のダイ)	920億	760億	280億	186億
ダイサイズ	750平方mm	608.5平方mm	628.4平方mm	754平方mm
プロセスノード	TSMC 4N	TSMC 4N	サムスン8N	TSMC 12nm FFN

　前回のアーキテクチャ概要の記事を書いた時点では、ダイ内部の演算器の構成などは公開されていなかったのだが、今回公開されたホワイトペーパー「NVIDIA RTX BLACKWELL GPU ARCHITECTURE」には、新たにGPC、TPC、SMなどの内部のブロック構造やそれぞれの数などが公開されている。

　近年のNVIDIA GPUは“モジュラー構造”と呼ばれ、演算器の数を容易に伸縮できるようになっている。そうすれば、まずダイサイズが大きなバージョンを作り、そこから演算器の数を段階に減らしていくことで、ダイサイズが小さな廉価版を設計することが容易になるからだ。

GB202(GeForce RTX 5090のダイ)

　今回もNVIDIAは開発コードネームでGB202、GB203、GB205という3種類のダイを用意しており、GB202をGeForce RTX 5090として、GB203をGeForce RTX 5080とGeForce RTX 5070 Ti、そしてGB205をGeForce RTX 5070のダイとして利用している。フルスペックのダイがGB202で、GB203とGB205はそこからTPCの数やGPUの数などが減らされ、最終的に演算器(CUDAコア)の数が減ったバリエーションになっている。

　半導体の製造コストは、ダイサイズの大きさに比例するどころか、指数関数的に響く。特に大きなダイサイズの製品は、歩留まりと呼ばれる良品率を上げるのが難しいため、製造コストが桁1つ違ってくる場合も多い。

　Blackwell世代のダイサイズは、GB202が750平方mm、GB203が378平方mm、GB205が263平方mmで、GB203の倍近いダイサイズになるGB202の製造コストは、文字通り桁違いの可能性が高い。GeForce RTX 5090だけ価格が飛び抜けて高いのはそうした事情が反映されている。

GPC、TPC、SM、CUDAコアと階層化されているNVIDIAのGPU(GB202のGPC、筆者作成)

　モジュラー構造になっているNVIDIAのGPUを小さい方の単位から数えていこう。Blackwellでは、FP32/INT32の演算を行なえるCUDAコアというシェーダ用の演算器があり、それを128基ブロックにしたものをSM(Streaming Multiprocessor)と呼んでいる。SMには、CUDAコアのほかにも、L1キャッシュ、メモリへのロードストア、さらにはレイトレーシングを専用に演算するRTコアを1つ、AI推論専用の演算を行なうTensorコアを4つ内蔵している。

　さらに、SMを2基で1セットとしているのがTPC(Texture Processing Cluster)、そして複数のTPCを1つとしているGPC(Graphics Processing Cluster)で、その複数のGPCから構成されているのがGPU全体となる。

GB202からGB203、GB205が派生している(筆者作成)

　NVIDIAのGPUではこのTPCとGPCの数をそれぞれ可変にでき、TPCやGPCの数をバランスが良いように減らしていくことで、下位のダイを容易に設計できる。GB202からそうやって派生していったものがGB203とGB205ということになる。

前世代と比較すると、GPCあたりTPCが2基増え、GPU全体で24基増えている

GB202のブロック図(筆者作成)

AD102のブロック図(筆者作成)

　GeForce RTX 5090に利用されているGB202と、前世代のハイエンド製品となるGeForce RTX 4090に利用されているAD102を、ダイのフルスペックレベルで比較してみると、以下のようになっている。“ダイのフルスペック”と言ったのは、実製品ではフルスペックが利用されている例はあまり多くなく、今回の製品でもGB202のGeForce RTX 5090、GB203のGeForce RTX 5070 Ti、GB205のGeForce RTX 5070とも、ダイのフルスペックではない。これは半導体の歩留まりを向上させるために一般的に使われる手法だ。

【表2】GB202とAD102の比較(NVIDIAの資料より筆者作成)
ダイ	GB202(フルスペック)	AD102(フルスペック)
利用製品	GeForce RTX 5090	GeForce RTX 4090
GPC/GPU(アーキテクチャレベル)	12	12
TPC/GPC(アーキテクチャレベル)	8	6
SM/TPC(アーキテクチャレベル)	2	2
CUDAコア/SM(アーキテクチャレベル)	128	128
CUDAコア/GPU(アーキテクチャレベル)	24576	18432
RTコア(アーキテクチャレベル)	192	144
Tensorコア(アーキテクチャレベル)	768	576
ROP(アーキテクチャレベル)	192	144
L1キャッシュ/SM(アーキテクチャレベル)	128KB	128KB
L2キャッシュ(アーキテクチャレベル)	128MB	96MB
メモリコントローラ(32bit)	16基	12基

AD102とGB202のGPCの違い(模式図、筆者作成)

【お詫びと訂正】初出時に上図内の説明文で、GB202のGPCあたりのTPC増加数を「1基(7から8)」としておりましたが、正しくは「2基(6から8)」となります。お詫びして訂正いたします。

　GB202は、従来のAD102と比較してCUDAコアが約34%増えている。CUDAコアが増えている理由は非常にシンプルで、TPCがGPC 1つあたり2基増えている(6基から8基)からだ。それ以外のGPUあたりのGPC、TPCあたりのSM、SMあたりのCUDAコアというところは増えていないので、TPCが2基増えたことで、TPCに2基搭載されているSMがGPU全体で24基増えていることになり、その分でCUDAコアが増えている。計算式にすると

・AD102
GPU全体で 12 基のGPC×GPCあたり 6 基のTPC×TPCあたり 2 基のSM×SMあたり 128 基のCUDAコア＝18,432基のCUDAコア

・GB202
GPU全体で 12 基のGPC×GPCあたり 8 基のTPC×TPCあたり 2 基のSM×SMあたり 128 基のCUDAコア＝24,576基のCUDAコア

という計算となる。

AD102とGB202のSMの違い、破線部分がアップデートされたところ(筆者作成)

　ところで、SM内部の構造も基本的にはAD102と同様だが、演算器のCUDAコアはすべてのコアがFP32とINT32の両方を演算できるように変更されている。従来はSM内部で半分がFP32専用、残り半分がINT32/FP32と共用だった。つまり、浮動小数点を演算する時には影響はないが、整数演算を行なう時には性能が向上する。

　そのほかのSMの構造は基本的には同じで、128基のCUDAコア、128KBのL1キャッシュ、RTコアが1つ、Tensorコアが4つ。ただし、SM自体がAD102に比べて24基増えているので、SMに4つあるTensorコアは192基、SMに1つあるRTコアは24基ずつ増えた。なおかつ、それぞれ世代が新しくなり、機能が増え、Tensorコアに関しては新しくFP4で演算することが可能になっており、FP4(スパース性)を利用した場合、最大3,352TOPSの性能を実現する。

　このように、GB202ではGPCに内蔵されているTPCが6から8に増えたことに加え、CUDAコアも、Tensorコアも、RTコアといったほぼすべての演算器の数が増えている。これが前世代のAD102に比較して性能が大幅に向上している理由となる。

　ただし、AD102と同じプロセスノードであるTSMC 4Nを利用してこれだけのアップデートを行なったことで、ダイサイズは608.5平方mmから750平方mmと、Turing世代のTU102の754平方mmのレベルまで戻っている。

　また、同じプロセスノードでダイサイズが大きくなれば、それだけ消費電力は大きくなる。実際TGPは従来の450Wから575Wに引き上げられている。TGPは消費電力ではないが、TGPが大きくなればピーク時の消費電力は増える傾向にあるので、それがこのGB202の唯一の弱点ということができるだろう。

GPCとTPCそれぞれを減少させたGB203とGB205で普及価格帯向けの製品を構成

GB203を採用しているNVIDIA GeForce RTX 5080 Founders Edition

GB205を採用しているNVIDIA GeForce RTX 5070 Founders Edition

　今回NVIDIAは今回そのGB202、GB203、GB205のアーキテクチャレベルでのスペックを明らかにした。

　これらのスペックはダイのフルスペックで、先述の通り実際の製品では歩留まりを向上させるために、若干スペックを削ることがある。実際、GB202を利用しているGeForce RTX 5090、GB205を利用しているGeForce RTX 5070はGPC数などが削られている。一方、GB203の上位版となるGeForce RTX 5080にはフルスペックで、下位版のGeForce RTX 5070 Tiに関してはGPC数を削ったバージョンになっている。

【表3】GB202、GB203、GB205のスペック(NVIDIAの資料より筆者作成)
ダイ	GB202(フルスペック)	GB203(フルスペック)	GB205(フルスペック)
利用製品	GeForce RTX 5090	GeForce RTX 5080/GeForce RTX 5070 Ti	GeForce RTX 5070
GPC/GPU(アーキテクチャレベル)	12	7	5
TPC/GPC(アーキテクチャレベル)	8	6	5
TPC/GPU(アーキテクチャレベル)	96	42	25
SM/GPU(アーキテクチャレベル)	192	84	50
CUDAコア/SM(アーキテクチャレベル)	128	128	128
CUDAコア/GPU(アーキテクチャレベル)	24,576	10,752	6400
RTコア(アーキテクチャレベル)	192	84	50
Tensorコア(アーキテクチャレベル)	768	336	200
ROP(アーキテクチャレベル)	192	112	80
シェーダースループット/FP32(最上位製品)	104.8TFLOPS	56.3TFLOPS	30.9TFLOPS
RTコアスループット(最上位製品)	317.5TFLOPS	170.6TFLOPS	93.6TFLOPS
Tensorコア/FP4(最上位製品)ノンスパース/スパース	1676/3,352TOPS	900.4/1,801TOPS	493.3/987.3TOPS
Tensorコア/FP8(最上位製品)ノンスパース/スパース	838/1,676TOPS	450.2/900.4TOPS	246.9/493.9TOPS
L1キャッシュ/SM(アーキテクチャレベル)	128KB	128KB	128KB
L2キャッシュ(アーキテクチャレベル)	128MB	64MB	48MB
メモリ(最上位製品)	512bit/GDDR7	256bit/GDDR7	192bit/GDDR7
メモリコントローラ(x32)	16	8	6
メモリ容量(最上位製品)	32GB	16GB	12GB
メモリ帯域幅(最上位製品)	1.8TB/s	960GB/s	672GB/s
トランジスタ数	922億	456億	311億
ダイサイズ	750平方mm	378平方mm	263平方mm
プロセスノード	TSMC 4N	TSMC 4N	TSMC 4N

【表4】GeForce RTX 50シリーズのスペック表(NVIDIAの資料より筆者作成)
	GeForce RTX 5090	GeForce RTX 5080	GeForce RTX 5070 Ti	GeForce RTX 5070
ダイ	GB202	GB203	GB203	GB205
製造プロセスノード	TSMC 4N	TSMC 4N	TSMC 4N	TSMC 4N
CUDAコア	21,760	10,752	8960	6144
GPC/GPU	11	7	6	5
TPC/GPU	85	42	35	24
SM/GPU	170	84	70	48
CUDAコア/SM	128	128	128	128
CUDAコア/GPU	21,760	10,752	8960	6144
RTコア/GPU	170	84	70	48
Tensorコア/GPU	680	336	280	192
Tensorコア性能(FP4スパース)	3,352TOPS	1,801TOPS	1,406TOPS	988TOPS
シェーダー性能(FP32)	105TFLOPS	56TFLOPS	44TFLOPS	31TFLOPS
RTコア性能	318TFLOPS	171TFLOPS	133TFLOPS	94TFLOPS
ブーストクロック	2.41GHz	2.62GHz	2.45GHz	2.51GHz
ベースクロック	2.01GHz	2.3GHz	2.3GHz	2.16GHz
メモリサイズ/種類	32GB/GDDR7	16GB/GDDR7	16GB/GDDR7	12GB/GDDR7
メモリバス幅/データレート	512bit	256bit	256bit	192bit
NVENC	第9世代×3	第9世代×2	第9世代×2	第9世代×1
NVDEC	第6世代×2	第6世代×2	第6世代×1	第6世代×1
トランジスタ数	920億	非公表	非公表	非公表
TGP	575W	360W	300W	250W
パワーコネクター	PCIe 8ピン×4 ないし 600W PCIe 5.0×1	PCIe 8ピン×3 ないし 450W PCIe 5.0	PCIe 8ピン×2 ないし 300W PCIe 5.0×1	PCIe 8ピン×2 ないし 300W PCIe 5.0×1
発売予定	1月30日	1月30日	2月	2月
実売予想価格	1,999ドル	999ドル	749ドル	549ドル

　また、GB202からGB203とGB205を派生するにあたり、GPCとTPCの両方を削った設計にしている。GB203はGPCが7基でTPCは6基、GB205はGPCが5基でGPCが5基だ。そのほかにも、メモリコントローラの数、L2キャッシュの容量も減らされており、それによりダイサイズはGB203が378平方mm、GB205に関しては263平方mmと小さくすることに成功している(それでもPC用のSoCなどが百平方mm程度であることを考えるとかなり大きい……)。

　こうしたNVIDIAが公開したGB203、GB205のスペックから推定されるダイ構造は次のようになる、GB202のブロック図と参照できるように同じ構造で作成しておいた。

GB203の推定される内部構造(筆者作成)

GB205の推定される内部構造(筆者作成)

　なお、Ada Lovelace世代では、GeForce RTX 4090(AD102)、GeForce RTX 4080(AD103)、GeForce RTX 4070 Ti(AD104)をリリースした後、AD106とAD107という追加のダイでGeForce RTX 4060 TiとGeForce RTX 4060をリリースしている。

　通例で言うと、そうしたメインストリーム向けのダイは追加で発表されることが多いので、GeForce RTX 50シリーズでもGB206やGB207がある可能性は高い。今後の発表に期待したいところだ。