笠原一輝のユビキタス情報局

同じ製造プロセスで性能向上させたGeForce RTX 50のマジック

GeForce RTX 5090(GB202ダイ)のパッケージ、ダイがモノリシックになっている

 NVIDIA共同創始者 CEOのジェンスン・フアン氏のCES 2025の基調講演の中で、最新ゲーミング向けGPU「GeForce RTX 50」シリーズが発表された。デスクトップPC向けとノートPC向けそれぞれ提供され、デスクトップPC向けの上位SKU(GeForce RTX 5090とGeForce RTX 5080)を搭載したビデオカードは1月30日、搭載ノートPCは3月から各OEMメーカーから販売開始される計画だ。

 そうした中で、NVIDIAはGeForce RTX 50の技術的な詳細を明らかにした。ただし、今回の技術詳細発表は主にソフトウェア関連が中心になっており、ダイの内部構造といったハードウェアの詳細は非公表になっている。しかしその内容から、GeForce RTX 50がどのようなGPUになっているのかが見えてきつつある。

同じBlackwellでもデータセンター用とゲーミングPC向けでは中身が異なる

GeForce RTX 5090

 今回発表されたGeForce RTX 50のアーキテクチャの開発コードネームは「Blackwell」になる。Blackwellの開発コードネームは昨年(2024年)3月に発表されたAI学習/データセンター向けのGPUと同じだ。

 NVIDIAはなぜか1世代ごとに、データセンター向けのGPUと一般消費者向けGPUの開発コードネームを同じにしたり、別にしたりしている。たとえば今回はBlackwellで共通だが、前世代はAda Lovelace(一般消費者向け)とHopper(データセンター向け)と別になっており、2世代前はどちらもAmpereで、3世代前はTuringとVolta……といった具合だ。これに法則性があるのかは不明だが、少なくとも今世代に関しては同じ名称になっている。

データセンター向けのBlackwell(B200)、2つのダイと上下にHBMが混載されている(昨年のGTC 24で撮影)

 しかし、データセンター向けにリリースされているBlackwell(製品としてはGB200、B200、B100)と今回のGeForce RTX 50はそもそもダイからして異なっているし、メモリも異なる(データセンター向けはパッケージ上に統合されているHBM、GeForce RTX 50はGDDR7が基板上に搭載)。また、前者にはFP64の演算器などがあるが、GeForce RTXではFP64は必要ないので、そもそも演算器が用意されていないなどの違いがある。

GeForce RTX 5090の基板にはGPUのパッケージとGDDR7のメモリが搭載されている

 実装上の違いとして、データセンター向けのBlackwellは1パッケージ上に2つのダイが実装される形になっている。それに対してGeForce RTX 50は、1つの巨大なモノリシックなダイになっており、その点でも異なっている。

 ダイサイズに関しては公表されていないが、最上位モデルのトランジスタ数は明らかにされており、920億トランジスタと、従来モデルの760億トランジスタから約21%増加している。製造プロセスノードは、TSMCのNVIDIAカスタムとなる4Nで、前世代と同じプロセスノード。最適化などが進むことで若干のプロセスノードの進化はあってもおかしくないが、基本的には同じノードでの生産になるので、プロセスノードの進化による消費電力の削減、トランジスタ数が増えているのにダイサイズが小さくなっているなどのメリットはほぼないと考えていい。

TGPを引き上げたことで、演算器などを増やすことが可能になったGeForce RTX 50

GeForce RTX 5080

 過去3世代(Ada Lovelace=GeForce RTX 40、Ampere=GeForce RTX 30、Turing=GeForce RTX 20)と今回発表されたBlackwell(以下Blackwellと表記する場合にはGeForce RTX 50とする)のハイレベルでのハードウェアの違いを表にしたものが以下の表1となる。

【表1】GeForce RTX 50、GeForce RTX 40、GeForce RTX 30、GeForce RTX 20のスペック(NVIDIAの資料などにより筆者作成)
製品シリーズ名GeForce RTX 50シリーズGeForce RTX 40シリーズGeForce RTX 30シリーズGeForce RTX 20シリーズ
GPUアーキテクチャ名BlackwellAda LovelaceAmpereTuring
最大構成ダイGB202AD102GA102TU102
最上位製品GeForce RTX 5090GeForce RTX 4090GeForce RTX 3090 TiGeForce TITAN RTX
登場年2025年2022年2020年2018年
GPC/GPU(アーキテクチャレベル)1276
TPC/GPU(アーキテクチャレベル)724236
SM/GPU(アーキテクチャレベル)1448472
CUDAコア/SM(アーキテクチャレベル)12812864
CUDAコア/GPU(アーキテクチャレベル)21,760(*5090のスペック)18,43210,7524,608
SP構造FP32×2(FP32/INT32×2)FP32×2(FP32 and FP32/INT32)FP32×2(FP32 and FP32/INT32)FP32×1
シェーダスループット(最上位製品)105TOPS83TFLOPS40TFLOPS11TFLOPS
RTコア/GPC(アーキテクチャレベル)?(第4世代)144(第3世代)84(第2世代)72(第1世代)
RTコアスループット(最上位製品)318TFLOPS191TFLOPS58TFLOPS34TFLOPS
Tensorコア/GPC(アーキテクチャレベル)?(第5世代)575(第4世代)336(第3世代)576(第2世代)
Tensorコア精度FP4/FP8/FP16FP8/FP16FP16FP16
TensorコアAI性能(最上位製品)3352TOPS1321TOPSTOPS非公表(320TFLOPS)TOPS非公表(89TFLOPS)
L1キャッシュ/SM(アーキテクチャレベル)128KB128KB96KB
L2キャッシュ(アーキテクチャレベル)96MB6MB5.5MB
メモリ(最上位製品)512bit/GDDR7384bit/GDDR6X384bit/GDDR6X384bit/GDDR6
メモリ容量(最上位製品)32GB24GB24GB24GB
メモリ帯域幅(最上位製品)1.8TB/s1,008GB/s1,008GB/s672GB/s
DLSSDLSS4DLSS3.5DLSS2DLSS2
ReflexReflex2Reflex2Reflex2Reflex2
PCIe世代5.04.04.03.0
NVENC(アーキテクチャレベル)第9世代×3第8世代×2第7世代×1第7世代×1
NVDEC(アーキテクチャレベル)第6世代×2第5世代×1第5世代×1第4世代×1
AV1エンコード
AV1デコード
TGP575W450W450W280W
トランジスタ数(最大のダイ)920億760億280億186億
ダイサイズ608.5平方mm628.4平方mm754平方mm
プロセスノードTSMC 4NTSMC 4Nサムスン8NTSMC 12nm FFN

 Blackwellが前世代(Ada Lovelace)と同じプロセスノードで製造されているのに、CUDAコアが約18%も増えている。ただし、この21,760 CUDAコアというスペックはフルスペックではない可能性が高い。

 というのも、NVIDIAの説明によれば、BlackwellフルスペックのTensorコアの性能は4,000TOPSだというからだ。それに対して、発表されたBlackwellの最上位モデルGeForce RTX 5090のTensorコアの性能は3,352TOPSと、フルスペック時の83%でしかない。つまり、GeForce RTX 5090のTensorコアは、フルスペックに比べると17%程度コア数が無効にされている可能性が高い。

 NVIDIAのTensorコアは、SMと呼ばれる演算単位に1つ装着されているのが一般的である。Tensorコアが17%減らされていると仮定すると、CUDAコアもフルスペックでは同じだけ増えている可能性は高い。計算上、21,760の17%増しは約25,459となるので、フルスペックのCUDAコアはそのあたりなのかもしれない。

 これまでも、NVIDIAは製造初期の歩留まりはあまり高くないという半導体製品の特性から、最初の製品はフルスペックを出さずに、いくつかのSMを無効にした形で製品化して発表するのが通例だった。その後により上位グレードの製品をフルスペックないしはそれに近いスペックにして出すこともあったので、将来的にそうした製品が登場する可能性も期待できる(もちろん前世代のように、結局は出ない可能性もある)。

GPUパッケージの周辺にあるチップがGDDR7
GDDR7の効果(出典:Blackwell Architecture、NVIDIA)

 もう1つのハードウェア的な大きな進化はメモリだ。ここ3世代ではGDDR6、GDDR6XといったGDDR6世代のグラフィックス用DRAMが活用されてきた。それに対して、今回の世代からはSamsungやMicronといったメモリベンダーが既に量産を開始しているGDDR7が採用されている。

 GDDR7では最新のプロセスノード(たとえばMicronであれば1βノード)で製造され、ピンあたりのデータレートがGDDR6世代に比べて高くなっている(最初の世代のGDDR6に比べてピンあたりのデータレートが2倍の30Gbps)。

 今回、最上位モデルのGeForce RTX 5090では、メモリのバス幅がGeForce RTX 4090の384bitから512bitに引き上げられており、バス幅が広くなった点でも帯域幅が向上している。両者を併せて、GeForce RTX 4090の1,008GB/sから1.8TB/sと約2倍になっており、性能向上に大きく貢献する。また、メモリ容量もここ最近の世代は24GBが最上位モデルの容量だったが、32GBに引き上げられている。

PCI Express 5.0に対応

 システムとの接続するPCI Expressは 5.0に強化されている。PCI Express 5.0は、1レーンあたりの転送速度が32GT/sと4.0の16GT/sの2倍の伝送速度を実現する。4.0の16レーンが双方向で63GB/sの帯域幅を実現するのに対して、5.0は16レーンが双方向で126GB/sと帯域幅は2倍になる。既にIntelもAMDも、最新製品ではPCI Express 5.0の対応が済んでおり、NVIDIAのGPUがPCI Express 5.0に対応したことで、ようやくマザーボード側の5.0対応が生かされることになる。

 こうしたスペックが向上したトレードオフとしては、消費電力の増加があることは否定できない。TGP(Total Graphics Power)は、熱設計時にOEMメーカーなどが参照する、ボード全体でその電力を消費しても排熱できるように設計する基準値だが、一般的にTGPが高くなればなるほどピーク時や平均消費電力も増える傾向にあるので、TDPが450Wから575Wに引き上げられていることは、平均消費電力が増えていると考えてほぼ間違いない。

 NVIDIAはノートPC向けに提供してきたMax-Qの高効率な省電力機能をデスクトップPC向けにも導入することで、アイドル時などの無駄な消費電力を削減する取り組みを行なっており、電力効率は2倍になっていると説明しているが、ピーク時の電力に関しては性能と電力は同じプロセスノードであればほぼ比例するものであるので、それを削減することは難しいと言える。これは、同じプロセスノードで、トランジスタ数を増やし、それに伴ってCUDAコアやTensorコアなどの演算器を増やしたというBlackwellの設計を考えるとトレードオフだ。

CUDAコアが増えたこととSMの構造が改良されたことなどだけが明らかにされる

Blackwellのハイレベルなアーキテクチャ(出典:Blackwell Architecture、NVIDIA)

 今回NVIDIAは発表にあたり、Blackwellのハードウェアがどういう構造になっているのか(SMはいくつあって、そのSMを束ねているTPC、さらにそのTPCを束ねているGPCなどがいくつあるのか、キャッシュ階層など)は一切公開していない。

 従来世代ではブロック図と一緒に公開されるのが通例であっただけに、Blackwell世代でそうしたことが公開されないのはやや不可解だが、実はデータセンター向けのBlackwellでもそれは同様なので、そうしたことは公開しない方針に転換したのかもしれない(そのあたりの事情は分からない)。

ニューラル・シェーダー(出典:Blackwell Architecture、NVIDIA)
リオーダー・エンジンの改良により、実行効率は2倍に(出典:Blackwell Architecture、NVIDIA)

 ただ、唯一SMの構造だけは明らかにした。というのも、今回のBlackwellのSMは、NVIDIAが「ニューラル・シェーダー(Neural Shader)」と呼んでいる、AIの処理をより柔軟に実行できる構造に変更しているからだ。

 BlackwellのSMでは大きく言って2つの拡張が加えられている。1つはSMの中にある演算器(シェーダーコア、CUDAコア)の演算パイプが、Ada Lovelace世代ではFP32のシェーダーコア16基が1つの単位で2つあり、そのうち1つはFP32だけでなくINT32も演算できるようになっていた。それに対して、Blackwellでは32基が1つの単位になっており、FP32もINT32もどちらの精度でも演算できるように変更されている。

 さらに、実行ユニットの実行リオーダー・エンジン(CPUで言うところのスケジューラのこと)が改良されており、AI関連の処理が来たときにはTensorコアに、それ以外のグラフィックス系の処理が来たときにはシェーダーコアに振り分けてより効率よく実行できるように改善されており、実行効率が2倍に高まっているとNVIDIAは説明している。

RTコア(出典:Blackwell Architecture、NVIDIA)

 レイトレーシングの専用ハードウェア「RTコア」、AI専用の「Tensorコア」に関しても強化が加えられ、それぞれ世代が1つずつ新しくなっている(ただしそれぞれ何基あるのかなどの詳細は説明されていない)。

 RTコアに関しては、従来世代では「Box Intersection Engine」、「Opacity Micromap Engine」、「Triangle Intersection Engine」のうち、前者2つに関しては変更ないが、Triangle Intersection Engineに関しては「Triangle Cluster Intersection Engine」、「Linear Swept Spheres」、「Triangle Cluster Decompression Engine」に分割され、演算器が増えている形になる。これによりレイトレーシング処理時の効率が改善され、RTコアの性能は前世代の最上位モデルと比較して倍になり、かつメモリ帯域の消費も25%減っている。

Tensorコア(出典:Blackwell Architecture、NVIDIA)

 Tensorコアに関しての強化で最も大きいのは、新しくFP4の浮動小数点の精度に対応したことだ。それにより精度が結果にあまり影響を与えないAI推論処理などで、処理性能を引き上げることが可能になる。

 また、既に述べた通り、TensorコアはSMに1つある構造になっており、CUDAコアが増えていることで、そのCUDAコアから構成されるSMも増えている可能性があり、それに伴ってTensorコアの数も増えていると考えられる。

AI Management Processor(AMP)(出典:Blackwell Architecture、NVIDIA)

 さらに、NVIDIAが「AI Management Processor」(AMP)と呼んでいる、AIの処理をより効率よく行なうハードウェアを搭載している。具体的にはLLMやゲームエンジンなどからAI処理が来た時に、AMPがそれをRTコアに割り当てるのか、CUDAコアに割り当てるのか、Tensorコアに割り当てるのかを決定し、より効率の良い実行を可能にする。それにより、他の処理を待つ間にいずれかのコアが使われていないということをできるだけ減らして実行効率を引き上げる役目を担うことになる。

DLSSやRTX AI PCなどの対応ソフトウェアが強化

DLSSの対応状況、ソフトウェアアップデートで過去世代の機能もアップデートされる(出典:RTX Neural Rendering、NVIDIA)

 今回こうしたハードウェア側の改良を、NVIDIAはソフトウェアとうまく組み合わせることで、新しいユーザー体験を提供する。その代表例は、NVIDIAがDLSSと呼んでいるAIを活用した高画質化、高解像度化技術だ。

 DLSSの基本的な機能は、低解像度でレンダリングしたものを最後にTensorコアやRTコアなどを利用してアップスケーリングすることで、レンダリング時のシェーダーコアへの負荷を下げてレンダリング可能にする技術だ。登場当時としては画期的な技術だったが、今となっては競合のAMDやIntelにも同じ機能が実装されており、それだけでは差がなくなってきている。

DLSS 4の効果(出典:RTX Neural Rendering、NVIDIA)
DLSS 3のDLSSフレーム生成(出典:RTX Neural Rendering、NVIDIA)
DLSS 4のDLSSマルチフレーム生成(出典:RTX Neural Rendering、NVIDIA)

 このため、NVIDIAはDLSSを世代ごとにアップグレードしてきており、前世代(Ada Lovelace)世代で導入したDLSS 3では「DLSSフレーム生成」と呼ばれるフレーム生成機能を実装し、フレームレートを高めることを可能にしてきた。

 それに対して、今回のBlackwell世代で導入された「DLSS マルチフレーム生成」(DLSS Multi Frame Generation)ではフレームの生成を最大3フレームまで拡張することが可能になり、よりフレームレートを高めたゲームプレイを可能にする。

 こうしたことが可能になったのも、Blackwellに内蔵されているTensorコアが第5世代に強化され、シェーダーコア/CUDAコアが増えたことに伴いTensorコアそのものも増えていて、かつニューラル・シェーダーの仕組みが導入されて、AI命令の実行効率が高まっているためだ。このため、DLSSマルチフレーム生成はBlackwell世代でだけ利用可能で、従来の世代では利用できない。

 なお、DLSS 4ではDLSSレイ再構築の拡張、DLSS超解像度の拡張、DALL(ディープラーニング アンチエイリアス)の拡張などが加えられているが、これらに関してはGeForce RTX 40/30/20でも今後のソフトウェアアップデートなどで利用することが可能だとNVIDIAは説明している。

NVIDIA Broadcast(出典:RTX Blackwell for Creators、NVIDIA)

 また、NVIDIAは同社が「RTX AI PC」と呼んでいるGeForce RTXを搭載したAI PC向けの各種ソフトウェアの提供も加速している。たとえば以前からGeForce RTX向けに提供してきた「NVIDIA Broadcast」の最新版にはより改善されたノイズキャンセリング機能、さらにはAIを活用したバーチャルライトの機能が追加され、人にだけライトを当てているような効果などを実現する。

NVIDIA NIM for RTX(出典:RTX AI PC、NVIDIA)
Project G-Assist(出典:Generative AI for Games、NVIDIA)

 NVIDIA NIM for RTX(GeForce RTXを利用したAI推論のAIエージェントを簡単に構築する機能)の活用事例として、ローコード・ノーコードでAI推論アプリケーションを構築できるツールの説明、さらにはゲームのゲームにLLMやSLMを利用した仮想キャラクターを追加する「Project G-Assist」などのデモが行なわれた。

 こうしたGPUを利用してAIの処理をローカルで行なうAIアプリケーションを増やしていくことで、GeForceをゲームだけでなく、AI推論を活用するプラットフォームとして位置づけていきたいというのがNVIDIAの狙いになる。

GPUボードとディスプレイ出力などの基板を分割して搭載、ヒートシンクも分割するなどしてユニークな放熱機構を採用

4つの製品(出典:GeForce RTX、NVIDIA)

 GeForce RTX 50シリーズだが、デスクトップPC向けの「GeForce RTX 50 シリーズ デスクトップGPU」とノートPC向けの「GeForce RTX 50 シリーズ ラップトップGPU」がそれぞれ用意されている。

 デスクトップ向けに関しては4つの製品が3つのダイで実現されている。

【表2】GeForce RTX 50 シリーズ デスクトップGPUの4つのSKU(NVIDIAの資料より筆者作成)
GeForce RTX 5090GeForce RTX 5080GeForce RTX 5070 TiGeForce RTX 5070
ダイGB202GB203GB203GB205
製造プロセスノードTSMC 4NTSMC 4NTSMC 4NTSMC 4N
CUDAコア21,76010,7528,9606,144
Tensorコア性能3,352TOPS1,801TOPS1,406TOPS988TOPS
シェーダー性能105TFLOPS56TFLOPS44TFLOPS31TFLOPS
RTコア性能318TFLOPS171TFLOPS133TFLOPS94TFLOPS
ブーストクロック2.41GHz2.62GHz2.45GHz2.51GHz
ベースクロック2.01GHz2.3GHz2.3GHz2.16GHz
メモリサイズ/種類32GB/GDDR716GB/GDDR716GB/GDDR712GB/GDDR7
メモリバス幅/データレート512bit256bit256bit192bit
NVENC第9世代×3第9世代×2第9世代×2第9世代×1
NVDEC第6世代×2第6世代×2第6世代×1第6世代×1
トランジスタ数920億非公表非公表非公表
TGP575W360W300W250W
パワーコネクタ4×PCIe 8ピン ないしは 1×600W PCIe 5.03×PCIe 8ピン ないしは 1×450W PCIe 5.02×PCIe 8ピン ないしは 1×300W PCIe 5.02×PCIe 8ピン ないしは 1×300W PCIe 5.0
発売予定1月30日1月30日2月2月
市場想定価格1,999ドル999ドル749ドル549ドル

 ダイはGB202、GB203、GB205の3種類が用意されており、最上位のダイとなるGB202はGeForce RTX 5090に、中位のダイとなるGB203はGeForce RTX 5080とGeForce RTX 5070 Tiに、そして(今のところ)最下位のダイとなるGB205はGeForce RTX 5070に採用されている。同じGB203ながらGeForce RTX 5080とGeForce RTX 5070 TiでCUDAコアの数が異なるのは、GeForce RTX 5070 TiではいくつかのSMが無効にされた形になっているためだ。

GeForce RTX 5090の熱設計(出典:GeForce RTX、NVIDIA)

 今回NVIDIAは基板にもこだわっている。メインボードとなるGPUボードには、GPUとGDDR7メモリや電源関連だけを搭載し、ディスプレイ出力基板などは別に用意して、それらを筐体に分割して混載することで冷却効率を高めている。

 具体的にはヒートシンクも3つに分割し、2つのファンと熱伝導するヒートパイプで熱源となるGPUボードを挟み込むことで、ファンの風がヒートパイプにも、ヒートシンクにもあたるように工夫されており、同時に風流が上にも下にも抜けるようにして、空冷でも575WのTGPを冷却することを可能にしているほか、2スロットのカードデザインを実現している。

 今回NVIDIAは4つのSKUすべてにNVIDIA自身がデザインしたレファレンスデザインボード「Founders Edition」を用意していることを明らかにしている。もちろんOEMメーカーのボード(いわゆるAIC=Add In Card)も販売される計画で、CESのNVIDIAの展示会場ではそうしたビデオカードが展示されていた。

GeForce RTX 50 シリーズ ラップトップGPU(出典:GeForce RTX、NVIDIA)

 なお、ノートPC向けのGeForce RTX 50 シリーズ ラップトップGPUに関してはデスクトップPC向けと同じ名称のSKUとなるGeForce RTX 5090(1,824TOPS/24GB)、GeForce RTX 5080(1,334TOPS/16GB)、GeForce RTX 5070 Ti(992TOPS/12GB)、GeForce RTX 5070(798TOPS/8GB)が用意されている。AI性能とメモリは分かっているが、現時点では詳細スペックなどは明らかにされていない。

 そのほかには、従来製品に比べてバッテリ駆動時間がゲームで40%、Webやビデオで30%延びることなどが明らかにされているが、現時点ではそれ以上の情報はなく、OEMメーカーから搭載製品が出荷される予定の3月以降に明らかになるだろう。

 既出の通り、デスクトップPC向けのGeForce RTX 5090とGeForce RTX 5080は1月30日から、GeForce RTX 5070 TiとGeForce RTX 5070に関しては2月の発売が予定されており、早ければ今月の末にはユーザーの手元に届き始めることになる。