ニュース

GeForce GTX 970に真っ向から対抗するRadeon RX 480の詳細

~高いDirectX 12性能と2パスビデオエンコーダ搭載

Radeon RX 480の概要

 AMDの新世代GPU「Radeon RX 480」が発売となった。本記事では、レビュワーズガイドや報道関係者向け資料を元に、Radeon RX 480の新機能を解説していく。

 Radeon RX 480は新世代の「Polaris」のコードネームを冠したGPU。アーキテクチャ自体はGCN(Graphics Core Next)に準じているが、Radeon HD 7000の第1世代、Radeon R9 290X/260Xの第2世代、Radeon R9 Furyシリーズの第3世代に続く、第4世代へと進化を遂げている。199ドルからという低価格で、VR体験をもたらすという。

 今回新たに動作クロックとピーク演算性能が判明した。資料によれば、ベースクロックは1,120MHz、Boostクロックは1,266MHz、ピーク演算性能は最大5.8TFLOPSなどとなっている。このほかは既報の通り、36基のCompute Units(ストリームプロセッサ数は2,304基)、256bitのメモリバス幅、8Gbpsのメモリクロック、150WのTDPといった仕様となる。

 メモリに関してはGDDR5で、4GB版と8GBの2種類が用意され、8GB版は8Gbps駆動、4GBは7Gbps駆動となる。このためメモリバンド幅は8GB版が256GB/s、4GB版が224GB/sとなっており、前者の方が若干優位である。

 このほか細かいところとしては、グラフィックスコマンドプロセッサは1基、Asynchronus Compute Engines(ACE)は4基、ハードウェアスケジューラは2基、ジオメトリプロセッサは4基、テクスチャユニットは144基、1クロック当たりのピクセル出力は32、L2キャッシュは2MBなどとなっている。

アーキテクチャの特徴

 まずはPolarisのアーキテクチャ面の特徴についておさらいする。第4世代のGCNアーキテクチャでは、ジオメトリプロセッシングの強化、メモリコントローラとメモリ圧縮技術の強化、シェーダー命令のプリフェッチやバッファの強化、アシンクロナスコンピュートのスケジューリング、16bit浮動小数点/整数演算命令(FP16/Int16)のネイティブ対応、そして独自のオーディオ機能「TrueAudio Next」への対応が図られている。

 ジオメトリエンジンでは、新たに「Primitive Discard Accelerator」を搭載した。直訳すれば“プリミティブを捨てるアクセラレータ”となるわけだが、このアクセラレータはパイプラインの中でゼロエリアやサンプルポイントを含まない三角形を集め切り捨てる。

 特にテッセレーションがある場面においてマルチサンプリングアンチエイリアス処理を行なった場合、1つのピクセルの中に複数の三角形が含まれる可能性が高まるが、これらのデータを早期に捨てることで処理を軽減させる。三角形の数にもよるが、同社の測定によれば概ね2.2倍~3.5倍の性能向上があるという。

 また、小さいインスタンスドジオメトリ用に新たに索引キャッシュを設け、データの移動を削減。これにより内部バンド幅のリソースを解放し、インスタンシング時の初期スループットを高められるという。

 シェーダも強化されており、命令のプリフェッチを強化し、効率的に命令をキャッシュすることで、パイプラインの失速を防ぐ。また、Wave命令バッファサイズも強化し、シングルスレッドの性能を向上。L2キャッシュの動作もチューニングした。これらにより、CU(コンピュートユニット)当たりの性能を従来比で15%向上させたという。

 さらに、FP16/Int16もネイティブでサポートし、メモリ/レジスタのフットプリントやバンド幅の削減などが可能で、グラフィックスやコンピュータビジョン、データラーニング分野で威力を発揮できるという。

 メモリコントローラの物理層も一新され、新たに8GbpsのGDDR5をサポート。256bitのバス幅により、最大256GB/secのバンド幅を実現する。また、ロスレスのデルタカラー圧縮エンジンも、GeForceで言うPascal世代とほぼ同等のものとなり、2:1に加え4:1や8:1圧縮もサポート。メモリ利用効率を高めた。

 Radeonが初期のGCN世代から対応しているアシンクロナスコンピュート(Async Compute)についても引き継ぐ。競合(ここでは同価格帯のGeForce GTX 960/970を指すと思われる)では、グラフィックス処理とGPGPU処理が同時に行なえず、切り替えが発生するが、Radeonは両方を同時に実行できる。これにはACEをハードウェアで搭載していることが寄与している。

 そしてPolarisではこのACEを強化し、Quality-of-Service(QoS)のテクニックを取り入れた「Quick Response Queue」に対応した。Oculusなどに実装されているタイムワープなど、時間内にGPGPU処理を終わらせる必要がある重要度の高いタスクが発生した場合、グラフィックス処理の優先度を下げ、GPGPU処理を優先させる。タイムワープのみならず、低いレイテンシを要するGPGPU処理に好適としている。

Polaris世代では2種類のダイが用意される
第4世代のGCNアーキテクチャとなる
Primitive Discard Acceleratorの搭載により、特にMSAA環境下での性能が向上
CUあたりの性能は15%アップ
メモリ圧縮技術
Quick Response Queueをサポート

SamsungまたはGLOBALFOUNDRIESの14nm FinFETを採用

 製造はGLOBALFOUNDRIESまたはSamsungの14nm FinFET技術を採用。28nmプレーナ技術と比較して、リーク電流を抑えつつ性能を高められ、製品の性能のバラつきも抑えられているという。

 また、これまでのGPUはバリデーションのために10~15%程度電圧のマージンを設定しているため、それらが電力を無駄に消費する元ともなっていたのだが、PolarisではAPUのCarrizoにも導入されている、ナノ秒(ns)単位で電圧と動作クロックを低下させられる「Adaptive Clocking」機能を採用。これによって-5~10%程度電圧を下げることができ、性能低下を抑えながら電力を削減できるという。

 さらに、これまでGPU内部に複数組み込まれている電力/温度センサーに加え、クロックを検出するセンサー(Adaptive voltage & frequency scaling:AVFS)も内蔵。各ASICごとに最適な効率と電圧、温度を提供する。これにより半導体が持つ最大の効率(最小限の電圧で最大限のクロック)を実現した。Adaptive Clockingと組み合わせることにより、旧世代のRadeon R9 290と比較して1.9倍の電力効率を実現したという。

 電源周りでも、「Boot time power supply calibration(BTC)」という仕組みが取り入れた。これはPCが起動する度に電圧分析コードを走らせ、電源がカード上に送った電圧を記録する機能。ボード上の電源回路を調節し、過去に監視された同じ電圧となるよう調整し、ボードやシステムの電力ロスを削減する。一方でパーツのエージング(老朽化)により電圧が不足する場合でも、キャリブレーション機構とAVFSによって、性能が出るよう正しく矯正される。

 加えて、Radeon RX 480では2,100万のマルチビットフリップフロップ回路があり、ASIC全体のTDPのうち15%を占めるが、これらのクロック回路を4つひとまとめにして共通化することで、4~5%のTDP削減を実現したという。

 このほか、L2キャッシュの倍増やL2の効率改善、LDCCアルゴリズムの改善、パワーゲーティングやクロックゲーティングなどにより、メモリの電力効率もRadeon R9 290比で40%向上。このように、Radeon RX 480の電力効率の向上は14nm FinFETによってもたらされたもののみならず、地道な電力削減テクニックが多く使われ、結果として、本来28nm比で1.7倍となるはずの電力効率を、2.8倍にまで高められたとしている。

14nm FinFETは高性能を実現でき、ばらつきも少ない
リーク電流を抑えつつ、高性能を実現する
電圧のマージンを減らすことで省電力化するAdaptive clocking技術
ナノ秒単位で瞬時に電圧とクロックを下げることで省電力化する
AVFSの機構
シリコンの動作周波数に最低限必要な電圧を提供できる
ブート時に供給される電源の電圧を記録し、自動的に矯正を行なう
Multi-bit flip-flopのクロックソースを4つひとまとめにしてTDPを下げる
メモリ圧縮やL2キャッシュの増加により、1bitの転送に必要な電力を40%削減
メモリ自体なども含めて58%省電力化した
14nm FinFETだけで1.7倍になる電力効率が、AMDのさまざまな技術により2.8倍にまで高められた

新たに導入されるオーバークロックユーティリティ「WattMan」

 AMDはこれまでオーバークロックユーティリティとして「OverDrive」を用意していたが、Radeon RX世代では「WattMan」に置き換えられた。

 OverDriveでは、ターゲットの電圧と電力、クロックを設定するだけの簡単なユーティリティであったが、WattManではヒストグラムで直感的に、7つの電圧ポイントごとにクロックを設定できるようになった。この設定は全体をオフセット設定にすることも、ステートごとに設定することも可能となっている。

 また、WattManからはファンの最小/ターゲット回転速度と、GPUのターゲット/最大温度、電力制限などもも調節可能となっている。これにより、温度に応じてファンの回転数を調節させたり、クロックを低下させたりすることができる。さらに、GPUの動作状況をグラフで表示監視する機能や、ゲームごとのオーバークロック設定を行なうことも可能となっている。なお、WattManはRadeon RXシリーズ専用の機能で、旧製品には利用できないようである。

 ちなみにリファレンスデザインのクーラーについての静音性についてもアピールされており、3DMarkのFire Strike実行時はGeForce GTX 970の34.8dBに対して32.5dBを実現しているという。また、3分の1オクターブ別の騒音分布分析を見ると、2,000Hzを除く800~6,300Hzといった中音部分が低いことが分かる。ただし表を見れば分かる通り、これはファン自体が静かというよりも、Radeon RX 480の方が温度が低いため常用負荷時の回転数が低くなるよう、低騒音に特化したチューニングをしているからであり、同一回転数においてはGTX 970の方が静音である。

Radeon SoftwareのSettingsにWattManを統合。ヒストグラムで直感的に電圧とクロックを設定できる
WattManのユーザーインターフェイス
GeForce GTX 970とのファン騒音比較
3分の1オクターブごとの分析

HEVC対応のビデオエンコーダやディスプレイ出力など

 このほか、Radeon RX 480ではビデオエンコーダも強化され、新たにHEVCコーデックをサポート。1080p/240fps、1440p/120fps、4K/60fpsといった解像度/フレームレートに対応する。また、2パスエンコーディングを高速に行なえるようになり、ストリーミングの画質が大幅に向上。細かい木々のディテールを再現でき、高速な動きでも画質低下が少ないという。一方、デコーダはRadeon R9 Furyと同世代で、H.264は4K/120fpsまで、MP4-P2は1080p/60fpsまで、VC1は1080p/60fpsまでとなっている。

 ディスプレイ出力面も強化され、DisplayPortは1.3 HBR3および1.4-HDRに対応予定。1.3では4K解像度で120Hzの出力ができ、このため4K FreeSyncも実現する。また、5K解像度で60Hzの出力も可能だ。HDMIについても2.0bに準拠し、HDMI経由でのFreeSyncも可能となる。

 広色域/広輝度のHDRディスプレイへのサポートも謳われ、10bitまたは12bitのHDRに対応。ディスプレイカラープロセッシングエンジンを内蔵し、プログラマブルなガンマ再マッピングやガンマコントロールをサポートし、浮動小数点による演算で、ディスプレイが持つ色域に対して1:1でネイティブマッピングできる。これによりディスプレイ側の再マッピングによる遅延を抑えられるという。

 また、HDRのゲーム開発者向けに「Radeon Photon SDK」を提供し、ゲームエンジン側でトーンマッピングが行なえるようにした。DirectX 11およびHDRビデオ再生におけるHDRドライバサポートは既に開発者向けに提供されており、DirectX 12も将来のドライバアップデートでサポートする予定だとしている。

 さらに、GPGPUにおいてオーディオのレイトレーシングを可能にするオーディオ機能「TureAudio Next」も新たに実装。VRなどにおいては音の体験も重要であると位置付け、Async Computeを使うことで、多くのオーディオソースをレイトレーシングしながら、低遅延を実現する。また、CUの一部を常時オーディオ用に確保しておくことも可能だ。

2パスエンコーディングでより高画質なストリーミングを実現
1パス(左)と2パス(右)の画質比較。背景のブロックノイズはあまり変わらないが、手前の木々のディテールがまったく異なる
HDMI 2.0bやDisplayPort 1.3/1.4への対応
HDMI 2.0bでFreeSyncに対応する
ディスプレイコントローラで浮動小数点のカラープロセッシングを行なう
対応解像度
オーディオのリアルタイムレイトレーシングを実現するTrueAudio Nex
CUの一部をオーディオ用に確保しておける

Radeon RX 480の気になる性能は

 さて、Radeon RXシリーズの特徴について一通り述べたが、やはり気になるのはその性能だろう。詳細は同時掲載されるレビューを参照されたいが、AMDは、DirectX 12対応ゲームの高負荷時ではGeForce GTX 970より有利、DirectX 11対応ゲームではほぼ同等(ソフトによっては得意不得意がある)という結果を示している。

 ただAMDとしては、“ゲームをスムーズにプレイするために開発を行なった”ことをウリとしている。このスムーズさというのは、ベンチマークにおいて単なる高いfpsを叩き出すというのではなく、1フレームあたりのレンダリング時間の短さだという。

 例えば同社の測定によると、FPSゲームの「Fallout 4」において、2,560×1,440ドット/Ultra Qualityに設定した場合、全フレームの内99%のレンダリング時間は22.3ms以下で、なおかつブレが少なかったという。「Far Cry 4」や「The Witcher 3」などのゲームにおいても、競合と同等かそれ以下のレンダリング時間を実現しているという。さらに、「Rise of the Tomb Raider」と言った高負荷のゲームにおいては、4GB版よりも8GB版の方が、フレームレートを安定させる効果が見られたという。

 一方、VRの性能を計測するSteamVRのベンチマークでは、GTX 970にやや届かない結果となっているものの、SteamVRが定める快適にVRが体験できる基準の6は超えている。

DirectX 12のタイトルでGeForce GTX 970をリードする
SteamVRの性能テストでは6.3をマーク
こちらはレビュワーズガイドが示したDirectX 12ベンチマークの比較
DirectX 11の性能はGTX 970とほぼ同じで、ソフトによって得意不得意がある
Fallout 4のフレームレンダリング時間の推移
99%以上のフレームが約22.3ms以内にレンダリングを終えている
メモリ8GB版はフレームレートを安定させる効果もある

 新規に3DゲーミングPCやVR対応PCをリーズナブルに組みたいユーザーには、Radeon RX 480はもってこいの選択肢だ。一方買い替えはどうか。Radeon R9シリーズユーザーの場合は、2つに分かれる。Radeon R9 285X/380X未満のユーザーは、今の性能に不満があるのであれば十分買い替えの対象となる。R9 290/390シリーズはRadeon RX 480とほぼ同等の性能なので、メモリ8GB(290シリーズの場合)や低消費電力が魅力的に思えるなら買い替えるべきだが、そうでない場合は素直により高性能なRadeon R9 FuryかGeForce GTX 1070/1080に行くべきだろう。

 GeForce GTX 900番台以降のユーザーに関して言えば、GTX 950/960は目的がはっきりしていて、その性能に納得していると思われるので、乗り換えの対象にはならない。GTX 970はメモリ8GBや新ビデオエンコーダを必要とするか次第だが、GTX 970を手放してRX 480に乗り換えるのはあまりオススメできない。

 一方でRadeon HD 7000およびR7シリーズ以前、またはGeForce GTX 700シリーズ(特にKepler世代)以前を使っているユーザーが、近代的なゲームやVRに耐えうる3D性能を求めるのであれば、十分買い替えの対象になる。少なくともその世代のハイエンドと比較しても性能が上であり、電力効率も高い。