特集

Radeon RX 9070を過去製品やGeForceとスペック比較。8000番台スキップの理由が見えてきた

 AMDの最新GPUアーキテクチャRDNA 4を採用した初のビデオカード「Radeon RX 9070 XT」および「Radeon RX 9070」が7日の11時より発売開始される。性能については既にレビューでお伝えした通りだが、改めてスペックからその位置づけを明らかにしてみよう。

 Radeon RX 9070および9070 XTは、型番末尾が「70」となっていることから分かる通り、競合のGeForce RTX 5070や5070 Tiの性能レンジを意識した製品となっている。一方、前任はRDNA 3アーキテクチャの「Radeon RX 7000」シリーズなので、アーキテクチャネームの順番的に“1”進んだのだが、製品名としては8000番台をスキップしたことになる。

 もっとも、性能的に見れば8000番台をスキップしたのは順当な判断と言える。GPUの型番は世代が1つ進むと、旧世代の1ランク上の数字を持つGPUの性能が実現できることが多い。たとえば今回のRadeon RX 9070は、概ねRadeon RX 7900相当(あるいは以上)の性能を達成できており、仮に8000番台が挟まれば「8800」もしくは「8080」相当の性能になるのが順当だ。今回はGeForce RTX 50シリーズの性能レンジに合わせて70にしたため、9000シリーズになったというわけだ。

 ちなみに、新アーキテクチャのGPUといえば、最上位から順次投入される“ウォーターフォール”型の戦略を採用することが多いのだが、AMDの場合は「Radeon RX」というブランドを冠して以降、ボリュームゾーンから投入することが多く、本製品も同様である。

 表にして旧世代のRadeon RX 7900シリーズと比べた場合、まずは製造プロセスが5nmのGCD+6nmのMCDというチップレット構成から、N4Pというモノリシック構成に変更されたのが大きいトピックの1つだと言える。TSMC 4nmプロセスはRyzen 7000/8000およびRyzen AIなどでも採用されているが、それがこなれてきて経済性的に問題がないと判断したのだろう。

 一方で、旧世代と比較してストリームプロセッサ(SP)数やROP、レイアクセラレータおよびAIアクセラレータのすべてにおいて数が減少しているのが気になるところ。しかしそれでも高い性能を実現できている背景には、ダイのモノリシック化や高クロック化、GDDR6メモリの高速化による帯域幅の向上、レイアクセラレータのスループット改善などが影響していると思われる。

 GeForce RTX 5070シリーズと比較すると、トランジスタ数が多いのに(9070 XTで539億、5070 Tiで456億)、ダイサイズが小さい点(356.5平方mm対378平方mm)が面白い。5070 Tiは上位の5080と共通のダイなので、NVIDIAより高密度なライブラリを使用していると推測される。

 一方ハードウェア的に言えば、SP数対CUDA数の違いはともかく、ROPおよびテクスチャユニット数で勝っているもののメモリ帯域幅が少ない点で、各々の得意不得意が分かれそうな印象。また、AIアクセラレータはFP4やTF32対応が謳われておらず、AMDが謳う最高のAI TOPSはINT4フォーマットのものである。

【表】Radeon RX 9070 XT/9070、およびRadeon RX 7900 GRE、GeForce RTX 5070 Ti/5070との比較
GPURadeon RX 9070 XTRadeon RX 9070Radeon RX 7900 GREGeForce RTX 5070 TiGeForce RTX 5070
SP数(AMD)およびCUDAコア数(NVIDIA)4,096基3,584基5,120基8,960基6,144基
レイアクセラレータ(AMD)およびRTコア(NVIDIA)64基56基80基第4世代 70基 133.2TFLOPS第4世代 48基 93.6TFLOPS
AIアクセラレータ(AMD)およびTensorコア(NVIDIA)128基 1,557AI TOPS112基 1,165AI TOPS160基第5世代 280基 1,406AI TOPS第5世代 192基 987.8AI TOPS
CU数(AMD)およびSM数(NVIDIA)64基56基80基7048
TPC数(NVIDIA)---3524
GPC数(NVIDIA)---65
ROP数128基128基160基96基80基
ピクセルフィルレート(Gigapixels/s)380.2322.6189.3235.4201
テクスチャユニット256224320280192
テクスチャフィルレート(Gigatexels/s)760.3564.5757.1686.6482.3
L1データキャッシュ/共有メモリ1,024KB+2,048KB/7,680KB?896KB+1,792KB/7,168KB?不明8,960KB6,144KB
L2キャッシュ8,096KB(試算)7,060KB(試算)6,144KB49,152KB49,152KB
Infinity Cache64MB64MB64MB--
レジスタファイルサイズ51,200KB(試算)44,800KB(試算)不明17,920KB12,288KB
ブーストクロック2.97GHz2.52GHz2.245GHz2.452GHz2.512GHz
ゲームクロック(AMD)およびベースクロック(NVIDIA))2.4GHz2.07GHz1.88GHz2.3GHz2.33GHz
ピークFP32およびFP16/BF16性能(non-Tensor)97.3(半精度)/48.7(単精度)72.3(半精度)/36.1(単精度)92(半精度)/46(単精度)43.930.9
ピークINT32性能(non-Tensor)N/AN/AN/A43.930.9
ピークFP4 Tensor TFLOPS with FP32 AccumulateN/AN/AN/A703/1,406493.9/987.8
ピークFP8 Tensor TFLOPS with FP16 Accumulate389.3/778.5(試算)291.3/582.5(試算)N/A351.5/703246.9/493.9
ピークFP8 Tensor TFLOPS with FP32 Accumulate389.3/778.5(試算)291.3/582.5(試算)N/A175.8/351.5123.5/246.9
ピークFP16 Tensor TFLOPS with FP16 Accumulate194.6/389.3(試算)291.3/582.5(試算)92(試算)175.8/351.5123.5/246.9
ピークFP16 Tensor TFLOPS with FP32 Accumulate194.6/389.3(試算)145.6/291.3(試算)92(試算)87.9/175.861.7/123.5
ピークBF16 Tensor TFLOPS with FP32 Accumulate194.6/389.3(試算)145.6/291.3(試算)92(試算)87.9/175.861.7/123.5
ピークTF32 Tensor TFLOPSN/AN/AN/A43.9/87.930.9/61.7
ピークINT8 Tensor TOPS389.3/778.5(試算)291.3/582.5(試算)N/A351.5/703246.9/493.9
メモリGDDR6GDDR6GDDR6GDDR7GDDR7
メモリ容量16GB16GB16GB16GB12GB
メモリ速度20Gbps20Gbps18Gbps30Gbps28Gbps
帯域幅640GB/s640GB/s576GB/s960GB/s672GB/s
バス幅256bit256bit256bit256bit192bit
NVENC---第9世代×2第9世代×1
NVDEC---第6世代×2第6世代×1
トランジスタ数539億539億538億456億311億
ダイサイズ356.5平方mm356.5平方mm306平方mm378平方mm263平方mm
製造プロセスTSMC N4PTSMC N4PGDC 5nm+MCD 6nmTSMC 4nm 4N NVIDIAカスタムTSMC 4nm 4N NVIDIAカスタム
最大GPU温度不明不明不明88℃88℃
TGP304W220W260W290W250W
システム要件電力不明不明不明750W650W
販売価格目安(発売時)13万7,800円12万2,800円9万5,800円14万8,800円10万8,800円