特集

Radeon RX 9070を過去製品やGeForceとスペック比較。8000番台スキップの理由が見えてきた

劉尭

2025年3月6日 23:00

　AMDの最新GPUアーキテクチャRDNA 4を採用した初のビデオカード「Radeon RX 9070 XT」および「Radeon RX 9070」が7日の11時より発売開始される。性能については既にレビューでお伝えした通りだが、改めてスペックからその位置づけを明らかにしてみよう。

　Radeon RX 9070および9070 XTは、型番末尾が「70」となっていることから分かる通り、競合のGeForce RTX 5070や5070 Tiの性能レンジを意識した製品となっている。一方、前任はRDNA 3アーキテクチャの「Radeon RX 7000」シリーズなので、アーキテクチャネームの順番的に“1”進んだのだが、製品名としては8000番台をスキップしたことになる。

　もっとも、性能的に見れば8000番台をスキップしたのは順当な判断と言える。GPUの型番は世代が1つ進むと、旧世代の1ランク上の数字を持つGPUの性能が実現できることが多い。たとえば今回のRadeon RX 9070は、概ねRadeon RX 7900相当(あるいは以上)の性能を達成できており、仮に8000番台が挟まれば「8800」もしくは「8080」相当の性能になるのが順当だ。今回はGeForce RTX 50シリーズの性能レンジに合わせて70にしたため、9000シリーズになったというわけだ。

　ちなみに、新アーキテクチャのGPUといえば、最上位から順次投入される“ウォーターフォール”型の戦略を採用することが多いのだが、AMDの場合は「Radeon RX」というブランドを冠して以降、ボリュームゾーンから投入することが多く、本製品も同様である。

　表にして旧世代のRadeon RX 7900シリーズと比べた場合、まずは製造プロセスが5nmのGCD+6nmのMCDというチップレット構成から、N4Pというモノリシック構成に変更されたのが大きいトピックの1つだと言える。TSMC 4nmプロセスはRyzen 7000/8000およびRyzen AIなどでも採用されているが、それがこなれてきて経済性的に問題がないと判断したのだろう。

　一方で、旧世代と比較してストリームプロセッサ(SP)数やROP、レイアクセラレータおよびAIアクセラレータのすべてにおいて数が減少しているのが気になるところ。しかしそれでも高い性能を実現できている背景には、ダイのモノリシック化や高クロック化、GDDR6メモリの高速化による帯域幅の向上、レイアクセラレータのスループット改善などが影響していると思われる。

　GeForce RTX 5070シリーズと比較すると、トランジスタ数が多いのに(9070 XTで539億、5070 Tiで456億)、ダイサイズが小さい点(356.5平方mm対378平方mm)が面白い。5070 Tiは上位の5080と共通のダイなので、NVIDIAより高密度なライブラリを使用していると推測される。

　一方ハードウェア的に言えば、SP数対CUDA数の違いはともかく、ROPおよびテクスチャユニット数で勝っているもののメモリ帯域幅が少ない点で、各々の得意不得意が分かれそうな印象。また、AIアクセラレータはFP4やTF32対応が謳われておらず、AMDが謳う最高のAI TOPSはINT4フォーマットのものである。

【表】Radeon RX 9070 XT/9070、およびRadeon RX 7900 GRE、GeForce RTX 5070 Ti/5070との比較
GPU	Radeon RX 9070 XT	Radeon RX 9070	Radeon RX 7900 GRE	GeForce RTX 5070 Ti	GeForce RTX 5070
SP数(AMD)およびCUDAコア数(NVIDIA)	4,096基	3,584基	5,120基	8,960基	6,144基
レイアクセラレータ(AMD)およびRTコア(NVIDIA)	64基	56基	80基	第4世代 70基 133.2TFLOPS	第4世代 48基 93.6TFLOPS
AIアクセラレータ(AMD)およびTensorコア(NVIDIA)	128基 1,557AI TOPS	112基 1,165AI TOPS	160基	第5世代 280基 1,406AI TOPS	第5世代 192基 987.8AI TOPS
CU数(AMD)およびSM数(NVIDIA)	64基	56基	80基	70	48
TPC数(NVIDIA)	-	-	-	35	24
GPC数(NVIDIA)	-	-	-	6	5
ROP数	128基	128基	160基	96基	80基
ピクセルフィルレート(Gigapixels/s)	380.2	322.6	189.3	235.4	201
テクスチャユニット	256	224	320	280	192
テクスチャフィルレート(Gigatexels/s)	760.3	564.5	757.1	686.6	482.3
L1データキャッシュ/共有メモリ	1,024KB+2,048KB/7,680KB？	896KB+1,792KB/7,168KB？	不明	8,960KB	6,144KB
L2キャッシュ	8,096KB(試算)	7,060KB(試算)	6,144KB	49,152KB	49,152KB
Infinity Cache	64MB	64MB	64MB	-	-
レジスタファイルサイズ	51,200KB(試算)	44,800KB(試算)	不明	17,920KB	12,288KB
ブーストクロック	2.97GHz	2.52GHz	2.245GHz	2.452GHz	2.512GHz
ゲームクロック(AMD)およびベースクロック(NVIDIA))	2.4GHz	2.07GHz	1.88GHz	2.3GHz	2.33GHz
ピークFP32およびFP16/BF16性能(non-Tensor)	97.3(半精度)/48.7(単精度)	72.3(半精度)/36.1(単精度)	92(半精度)/46(単精度)	43.9	30.9
ピークINT32性能(non-Tensor)	N/A	N/A	N/A	43.9	30.9
ピークFP4 Tensor TFLOPS with FP32 Accumulate	N/A	N/A	N/A	703/1,406	493.9/987.8
ピークFP8 Tensor TFLOPS with FP16 Accumulate	389.3/778.5(試算)	291.3/582.5(試算)	N/A	351.5/703	246.9/493.9
ピークFP8 Tensor TFLOPS with FP32 Accumulate	389.3/778.5(試算)	291.3/582.5(試算)	N/A	175.8/351.5	123.5/246.9
ピークFP16 Tensor TFLOPS with FP16 Accumulate	194.6/389.3(試算)	291.3/582.5(試算)	92(試算)	175.8/351.5	123.5/246.9
ピークFP16 Tensor TFLOPS with FP32 Accumulate	194.6/389.3(試算)	145.6/291.3(試算)	92(試算)	87.9/175.8	61.7/123.5
ピークBF16 Tensor TFLOPS with FP32 Accumulate	194.6/389.3(試算)	145.6/291.3(試算)	92(試算)	87.9/175.8	61.7/123.5
ピークTF32 Tensor TFLOPS	N/A	N/A	N/A	43.9/87.9	30.9/61.7
ピークINT8 Tensor TOPS	389.3/778.5(試算)	291.3/582.5(試算)	N/A	351.5/703	246.9/493.9
メモリ	GDDR6	GDDR6	GDDR6	GDDR7	GDDR7
メモリ容量	16GB	16GB	16GB	16GB	12GB
メモリ速度	20Gbps	20Gbps	18Gbps	30Gbps	28Gbps
帯域幅	640GB/s	640GB/s	576GB/s	960GB/s	672GB/s
バス幅	256bit	256bit	256bit	256bit	192bit
NVENC	-	-	-	第9世代×2	第9世代×1
NVDEC	-	-	-	第6世代×2	第6世代×1
トランジスタ数	539億	539億	538億	456億	311億
ダイサイズ	356.5平方mm	356.5平方mm	306平方mm	378平方mm	263平方mm
製造プロセス	TSMC N4P	TSMC N4P	GDC 5nm+MCD 6nm	TSMC 4nm 4N NVIDIAカスタム	TSMC 4nm 4N NVIDIAカスタム
最大GPU温度	不明	不明	不明	88℃	88℃
TGP	304W	220W	260W	290W	250W
システム要件電力	不明	不明	不明	750W	650W
販売価格目安(発売時)	13万7,800円	12万2,800円	9万5,800円	14万8,800円	10万8,800円