笠原一輝のユビキタス情報局

新たに判明したGeForce RTX 5090のアーキテクチャを徹底解説

NVIDIAが公開したGB202のブロック図(写真提供:NVIDIA)

 NVIDIAは「GeForce RTX 50」シリーズを、1月6日に発表した。1月15日(現地時間)にはそのアーキテクチャ「Blackwell」の詳細を発表し、本日(1月23日)には本誌を含むメディアなどから実機を利用したベンチマーク記事などが公開されている。

 それに合わせて、GeForce RTX 50シリーズに関するさらなる詳細を明らかにした。公開したホワイトペーパーの中で、Blackwell向けのダイとなるGB202、GB203、GB205の構造を明らかにし、ブロックダイアグラムなどを公開している。本記事でそれを解説していきたい。

モジュラー構造を採用しているNVIDIA GPU、CUDAコア、SM、TPC、GPCの順にブロック化されている

GeForce RTX 5090 Founders Edition

 GeForce RTX 50シリーズは、開発コードネーム「Blackwell」と呼ばれる最新世代GPUアーキテクチャを採用している。BlackwellはGeForce RTX 20シリーズに採用されていた「Turing」、GeForce RTX 30シリーズに採用されていた「Ampere」、そしてGeForce RTX 40シリーズに採用されていた「Ada Lovelace」に次ぐものだ。

 NVIDIAのGPUアーキテクチャの名称は、データセンター向けのGPUと同じ世代だが別名称の世代(たとえばAda Lovelaceは、データセンターで言うとHopper世代と同じ世代だと考えられるが名称は別になっている)と同じ名称の世代があるが、今回のBlackwellはデータセンター向けのそれと共通の名称になっている。ただし、データセンター向けは2つのダイが1パッケージで統合され、メモリはHBMになっているなどの違いがあり、今回GeForce RTX 50シリーズに採用されているBlackwellとは共通項もあるが別の製品と考えるべきだ。

【表1】GeForce RTX 50/40/30/20シリーズの仕様(NVIDIAの資料より筆者作成)
製品シリーズ名GeForce RTX 50シリーズGeForce RTX 40シリーズGeForce RTX 30シリーズGeForce RTX 20シリーズ
GPUアーキテクチャ名BlackwellAda LovelaceAmpereTuring
最大構成ダイGB202AD102GA102TU102
最上位製品GeForce RTX 5090GeForce RTX 4090GeForce RTX 3090 TiGeForce TITAN RTX
登場年2025年2022年2020年2018年
GPC/GPU(アーキテクチャレベル)121276
TPC/GPU(アーキテクチャレベル)96724236
SM/GPU(アーキテクチャレベル)1921448472
CUDAコア/SM(アーキテクチャレベル)12812812864
CUDAコア/GPU(アーキテクチャレベル)2457618432107524608
SP構造2xFP32(2xFP32/INT32)2xFP32(FP32 and FP32/INT32)2xFP32(FP32 and FP32/INT32)1xFP32
シェーダスループット(最上位製品)/FP32105TFLOPS83TFLOPS35.6TFLOPS11TFLOPS
RTコア/GPU(アーキテクチャレベル)192(第4世代)144(第3世代)84(第2世代)72(第1世代)
RTコアスループット(最上位製品)317.5TFLOPS191TFLOPS58TFLOPS34TFLOPS
Tensorコア/GPU(アーキテクチャレベル)768(第5世代)576(第4世代)336(第3世代)576(第2世代)
Tensorコア精度FP4/FP8/FP16FP8/FP16FP16FP16
TensorコアAI性能(最上位製品)3352TOPS/FP4(スパース)1321TOPS/FP8(スパース)TOPS非公表(320TFLOPS)TOPS非公表(89TFLOPS)
L1キャッシュ/SM(アーキテクチャレベル)128KB128KB128KB96KB
L2キャッシュ(アーキテクチャレベル)128MB96MB6MB5.5MB
メモリ(最上位製品)512bit/GDDR7384bit/GDDR6X384bit/GDDR6X384bit/GDDR6
メモリ容量(最上位製品)32GB24GB24GB24GB
メモリ帯域幅(最上位製品)1.8TB/s1,008GB/s1,008GB/s672GB/s
DLSSDLSS4DLSS3.5DLSS2DLSS2
ReflexReflex2Reflex2Reflex2Reflex2
PCIe世代Gen 5Gen 4Gen 4Gen 3
NVENC(アーキテクチャレベル)第9世代×3第8世代×2第7世代×1第7世代×1
NVDEC(アーキテクチャレベル)第6世代×2第5世代×1第5世代×1第4世代×1
AV1エンコード--
AV1デコード-
TGP575W450W450W280W
トランジスタ数(最大のダイ)920億760億280億186億
ダイサイズ750平方mm608.5平方mm628.4平方mm754平方mm
プロセスノードTSMC 4NTSMC 4Nサムスン8NTSMC 12nm FFN

 前回のアーキテクチャ概要の記事を書いた時点では、ダイ内部の演算器の構成などは公開されていなかったのだが、今回公開されたホワイトペーパー「NVIDIA RTX BLACKWELL GPU ARCHITECTURE」には、新たにGPC、TPC、SMなどの内部のブロック構造やそれぞれの数などが公開されている。

 近年のNVIDIA GPUは“モジュラー構造”と呼ばれ、演算器の数を容易に伸縮できるようになっている。そうすれば、まずダイサイズが大きなバージョンを作り、そこから演算器の数を段階に減らしていくことで、ダイサイズが小さな廉価版を設計することが容易になるからだ。

GB202(GeForce RTX 5090のダイ)

 今回もNVIDIAは開発コードネームでGB202、GB203、GB205という3種類のダイを用意しており、GB202をGeForce RTX 5090として、GB203をGeForce RTX 5080とGeForce RTX 5070 Ti、そしてGB205をGeForce RTX 5070のダイとして利用している。フルスペックのダイがGB202で、GB203とGB205はそこからTPCの数やGPUの数などが減らされ、最終的に演算器(CUDAコア)の数が減ったバリエーションになっている。

 半導体の製造コストは、ダイサイズの大きさに比例するどころか、指数関数的に響く。特に大きなダイサイズの製品は、歩留まりと呼ばれる良品率を上げるのが難しいため、製造コストが桁1つ違ってくる場合も多い。

 Blackwell世代のダイサイズは、GB202が750平方mm、GB203が378平方mm、GB205が263平方mmで、GB203の倍近いダイサイズになるGB202の製造コストは、文字通り桁違いの可能性が高い。GeForce RTX 5090だけ価格が飛び抜けて高いのはそうした事情が反映されている。

GPC、TPC、SM、CUDAコアと階層化されているNVIDIAのGPU(GB202のGPC、筆者作成)

 モジュラー構造になっているNVIDIAのGPUを小さい方の単位から数えていこう。Blackwellでは、FP32/INT32の演算を行なえるCUDAコアというシェーダ用の演算器があり、それを128基ブロックにしたものをSM(Streaming Multiprocessor)と呼んでいる。SMには、CUDAコアのほかにも、L1キャッシュ、メモリへのロードストア、さらにはレイトレーシングを専用に演算するRTコアを1つ、AI推論専用の演算を行なうTensorコアを4つ内蔵している。

 さらに、SMを2基で1セットとしているのがTPC(Texture Processing Cluster)、そして複数のTPCを1つとしているGPC(Graphics Processing Cluster)で、その複数のGPCから構成されているのがGPU全体となる。

GB202からGB203、GB205が派生している(筆者作成)

 NVIDIAのGPUではこのTPCとGPCの数をそれぞれ可変にでき、TPCやGPCの数をバランスが良いように減らしていくことで、下位のダイを容易に設計できる。GB202からそうやって派生していったものがGB203とGB205ということになる。

前世代と比較すると、GPCあたりTPCが2基増え、GPU全体で24基増えている

GB202のブロック図(筆者作成)
AD102のブロック図(筆者作成)

 GeForce RTX 5090に利用されているGB202と、前世代のハイエンド製品となるGeForce RTX 4090に利用されているAD102を、ダイのフルスペックレベルで比較してみると、以下のようになっている。“ダイのフルスペック”と言ったのは、実製品ではフルスペックが利用されている例はあまり多くなく、今回の製品でもGB202のGeForce RTX 5090、GB203のGeForce RTX 5070 Ti、GB205のGeForce RTX 5070とも、ダイのフルスペックではない。これは半導体の歩留まりを向上させるために一般的に使われる手法だ。

【表2】GB202とAD102の比較(NVIDIAの資料より筆者作成)
ダイGB202(フルスペック)AD102(フルスペック)
利用製品GeForce RTX 5090GeForce RTX 4090
GPC/GPU(アーキテクチャレベル)1212
TPC/GPC(アーキテクチャレベル)86
SM/TPC(アーキテクチャレベル)22
CUDAコア/SM(アーキテクチャレベル)128128
CUDAコア/GPU(アーキテクチャレベル)2457618432
RTコア(アーキテクチャレベル)192144
Tensorコア(アーキテクチャレベル)768576
ROP(アーキテクチャレベル)192144
L1キャッシュ/SM(アーキテクチャレベル)128KB128KB
L2キャッシュ(アーキテクチャレベル)128MB96MB
メモリコントローラ(32bit)16基12基
AD102とGB202のGPCの違い(模式図、筆者作成)

 GB202は、従来のAD102と比較してCUDAコアが約34%増えている。CUDAコアが増えている理由は非常にシンプルで、TPCがGPC 1つあたり2基増えている(6基から8基)からだ。それ以外のGPUあたりのGPC、TPCあたりのSM、SMあたりのCUDAコアというところは増えていないので、TPCが2基増えたことで、TPCに2基搭載されているSMがGPU全体で24基増えていることになり、その分でCUDAコアが増えている。計算式にすると

・AD102
GPU全体で 12 基のGPC×GPCあたり 6 基のTPC×TPCあたり 2 基のSM×SMあたり 128 基のCUDAコア=18,432基のCUDAコア

・GB202
GPU全体で 12 基のGPC×GPCあたり 8 基のTPC×TPCあたり 2 基のSM×SMあたり 128 基のCUDAコア=24,576基のCUDAコア

という計算となる。

AD102とGB202のSMの違い、破線部分がアップデートされたところ(筆者作成)

 ところで、SM内部の構造も基本的にはAD102と同様だが、演算器のCUDAコアはすべてのコアがFP32とINT32の両方を演算できるように変更されている。従来はSM内部で半分がFP32専用、残り半分がINT32/FP32と共用だった。つまり、浮動小数点を演算する時には影響はないが、整数演算を行なう時には性能が向上する。

 そのほかのSMの構造は基本的には同じで、128基のCUDAコア、128KBのL1キャッシュ、RTコアが1つ、Tensorコアが4つ。ただし、SM自体がAD102に比べて24基増えているので、SMに4つあるTensorコアは192基、SMに1つあるRTコアは24基ずつ増えた。なおかつ、それぞれ世代が新しくなり、機能が増え、Tensorコアに関しては新しくFP4で演算することが可能になっており、FP4(スパース性)を利用した場合、最大3,352TOPSの性能を実現する。

 このように、GB202ではGPCに内蔵されているTPCが6から8に増えたことに加え、CUDAコアも、Tensorコアも、RTコアといったほぼすべての演算器の数が増えている。これが前世代のAD102に比較して性能が大幅に向上している理由となる。

 ただし、AD102と同じプロセスノードであるTSMC 4Nを利用してこれだけのアップデートを行なったことで、ダイサイズは608.5平方mmから750平方mmと、Turing世代のTU102の754平方mmのレベルまで戻っている。

 また、同じプロセスノードでダイサイズが大きくなれば、それだけ消費電力は大きくなる。実際TGPは従来の450Wから575Wに引き上げられている。TGPは消費電力ではないが、TGPが大きくなればピーク時の消費電力は増える傾向にあるので、それがこのGB202の唯一の弱点ということができるだろう。

GPCとTPCそれぞれを減少させたGB203とGB205で普及価格帯向けの製品を構成

GB203を採用しているNVIDIA GeForce RTX 5080 Founders Edition
GB205を採用しているNVIDIA GeForce RTX 5070 Founders Edition

 今回NVIDIAは今回そのGB202、GB203、GB205のアーキテクチャレベルでのスペックを明らかにした。

 これらのスペックはダイのフルスペックで、先述の通り実際の製品では歩留まりを向上させるために、若干スペックを削ることがある。実際、GB202を利用しているGeForce RTX 5090、GB205を利用しているGeForce RTX 5070はGPC数などが削られている。一方、GB203の上位版となるGeForce RTX 5080にはフルスペックで、下位版のGeForce RTX 5070 Tiに関してはGPC数を削ったバージョンになっている。

【表3】GB202、GB203、GB205のスペック(NVIDIAの資料より筆者作成)
ダイGB202(フルスペック)GB203(フルスペック)GB205(フルスペック)
利用製品GeForce RTX 5090GeForce RTX 5080/GeForce RTX 5070 TiGeForce RTX 5070
GPC/GPU(アーキテクチャレベル)1275
TPC/GPC(アーキテクチャレベル)865
TPC/GPU(アーキテクチャレベル)964225
SM/GPU(アーキテクチャレベル)1928450
CUDAコア/SM(アーキテクチャレベル)128128128
CUDAコア/GPU(アーキテクチャレベル)24,57610,7526400
RTコア(アーキテクチャレベル)1928450
Tensorコア(アーキテクチャレベル)768336200
ROP(アーキテクチャレベル)19211280
シェーダースループット/FP32(最上位製品)104.8TFLOPS56.3TFLOPS30.9TFLOPS
RTコアスループット(最上位製品)317.5TFLOPS170.6TFLOPS93.6TFLOPS
Tensorコア/FP4(最上位製品)ノンスパース/スパース1676/3,352TOPS900.4/1,801TOPS493.3/987.3TOPS
Tensorコア/FP8(最上位製品)ノンスパース/スパース838/1,676TOPS450.2/900.4TOPS246.9/493.9TOPS
L1キャッシュ/SM(アーキテクチャレベル)128KB128KB128KB
L2キャッシュ(アーキテクチャレベル)128MB64MB48MB
メモリ(最上位製品)512bit/GDDR7256bit/GDDR7192bit/GDDR7
メモリコントローラ(x32)1686
メモリ容量(最上位製品)32GB16GB12GB
メモリ帯域幅(最上位製品)1.8TB/s960GB/s672GB/s
トランジスタ数922億456億311億
ダイサイズ750平方mm378平方mm263平方mm
プロセスノードTSMC 4NTSMC 4NTSMC 4N
【表4】GeForce RTX 50シリーズのスペック表(NVIDIAの資料より筆者作成)
GeForce RTX 5090GeForce RTX 5080GeForce RTX 5070 TiGeForce RTX 5070
ダイGB202GB203GB203GB205
製造プロセスノードTSMC 4NTSMC 4NTSMC 4NTSMC 4N
CUDAコア21,76010,75289606144
GPC/GPU11765
TPC/GPU85423524
SM/GPU170847048
CUDAコア/SM128128128128
CUDAコア/GPU21,76010,75289606144
RTコア/GPU170847048
Tensorコア/GPU680336280192
Tensorコア性能(FP4スパース)3,352TOPS1,801TOPS1,406TOPS988TOPS
シェーダー性能(FP32)105TFLOPS56TFLOPS44TFLOPS31TFLOPS
RTコア性能318TFLOPS171TFLOPS133TFLOPS94TFLOPS
ブーストクロック2.41GHz2.62GHz2.45GHz2.51GHz
ベースクロック2.01GHz2.3GHz2.3GHz2.16GHz
メモリサイズ/種類32GB/GDDR716GB/GDDR716GB/GDDR712GB/GDDR7
メモリバス幅/データレート512bit256bit256bit192bit
NVENC第9世代×3第9世代×2第9世代×2第9世代×1
NVDEC第6世代×2第6世代×2第6世代×1第6世代×1
トランジスタ数920億非公表非公表非公表
TGP575W360W300W250W
パワーコネクターPCIe 8ピン×4 ないし 600W PCIe 5.0×1PCIe 8ピン×3 ないし 450W PCIe 5.0PCIe 8ピン×2 ないし 300W PCIe 5.0×1PCIe 8ピン×2 ないし 300W PCIe 5.0×1
発売予定1月30日1月30日2月2月
実売予想価格1,999ドル999ドル749ドル549ドル

 また、GB202からGB203とGB205を派生するにあたり、GPCとTPCの両方を削った設計にしている。GB203はGPCが7基でTPCは6基、GB205はGPCが5基でGPCが5基だ。そのほかにも、メモリコントローラの数、L2キャッシュの容量も減らされており、それによりダイサイズはGB203が378平方mm、GB205に関しては263平方mmと小さくすることに成功している(それでもPC用のSoCなどが百平方mm程度であることを考えるとかなり大きい……)。

 こうしたNVIDIAが公開したGB203、GB205のスペックから推定されるダイ構造は次のようになる、GB202のブロック図と参照できるように同じ構造で作成しておいた。

GB203の推定される内部構造(筆者作成)
GB205の推定される内部構造(筆者作成)

 なお、Ada Lovelace世代では、GeForce RTX 4090(AD102)、GeForce RTX 4080(AD103)、GeForce RTX 4070 Ti(AD104)をリリースした後、AD106とAD107という追加のダイでGeForce RTX 4060 TiとGeForce RTX 4060をリリースしている。

 通例で言うと、そうしたメインストリーム向けのダイは追加で発表されることが多いので、GeForce RTX 50シリーズでもGB206やGB207がある可能性は高い。今後の発表に期待したいところだ。