【後藤弘茂のWeekly海外ニュース】1TFLOPSに迫る性能が100ドルちょっとの衝撃「ATI Radeon HD 4770」

■後藤弘茂のWeekly海外ニュース■

1TFLOPSに迫る性能が100ドルちょっとの衝撃
「ATI Radeon HD 4770」

●12年前のスパコンの性能が廉価版ボードに乗る

　TFLOPS近い性能が100ドルちょっと。AMDは、これまでパフォーマンスGPU(150ドル前後から200ドル台)のものだったTFLOPS性能を、メインストリームGPUにもたらした。これが、AMDの新GPU「ATI Radeon HD 4770(RV740)」の意味だ。

　平たく言えば、100ドル帯のボード価格の製品にも、10年前のスーパーコンピュータの性能がやって来たことになる。下のスパコンの歴史図にあるように、TFLOPSは'97年のASCI Red(9,298個のPentium Proの超並列マシン)によって達成された。ASCI Redのスペックから逆算すると、Pentium Pro(200MHz)約7,000個分の演算能力(67% Efficiency)が、100ドルボードに乗ったことになる。

スーパーコンピュータの歴史

　AMDはATI Technologiesとの合併以来、旧ATIのGPU戦略の軌道修正を続けてきた。ポイントは、ボリュームゾーンで勝てる製品ラインナップにすること。その最新の結果が、メインストリーム市場向けでありながら、1TFLOPS近い性能を発揮するATI Radeon HD 4770だ。

　カギはダイサイズにある。ATI Radeon HD 4770は、立ち上がったばかりのTSMC 40nmプロセスを使うことで、ダイサイズを136平方mmにまで抑えた。140平方mm前後は、伝統的に100ドル前後のメインストリーム向けの製品を実現できるダイサイズだ。ダイサイズは、上位のATI Radeon HD 4800(RV770)系の260平方mm台の半分近い。同社が低価格のメインストリーム製品にRV740を持って来れたのは、ダイをシュリンクしてコストを抑えることができたからだ。

　また、AMDはDirectX 11対応の次世代GPUアーキテクチャ(R800系)については、次の四半期に何らかの説明を行なうことを明らかにした。AMDは、2世代前からシングルダイのGPUのダイサイズを200平方mm台に抑える戦略を取っている。新しい40nmプロセスでの200平方mmのダイサイズは、AMD GPUラインナップで空席となっている。そのため、最初のDirectX 11対応GPUはそこにはまると見られる。

　その場合、RV800系シングルチップ搭載のトランジスタ数は15億を軽く超えると予想される。AMDが現在のGPUマイクロアーキテクチャのままで、高演算効率を維持するなら、RV800系の浮動小数点演算パフォーマンスはRV700世代から倍増するだろう。計算上では、1チップ当たりピークで2TFLOPSのレンジに入ると予想される。

　しかし、RV800世代の性能がRV700世代より倍増するなら、AMD GPUは大きな壁にぶち当たるだろう。過去4～5年、GPUの最大の敵は消費電力だった。しかし、次のフェイズでは、もう1つの敵であるメモリ帯域が、より大きな問題になって来るだろう。GPUもCPU同様に、いやそれ以上に、メモリ帯域に性能を阻まれるようになる。

GPUのダイサイズ

●7.03GFLOPS/平方mmと飛び抜けて高い面積当たりの生演算性能

　ダイ面積当たり最高の浮動小数点演算パフォーマンス。これがRV740の最大の特徴だ。136平方mmのダイで、現在の製品コンフィギュレーションでは960GFLOPSを達成する。面積当たりのパフォーマンスは7.03GFLOPS/平方mmと、全GPU中で飛び抜け、最高を誇る。フルプログラマブルデバイスとして、かつてない演算密度だ。

消費電力当たりの演算パフォーマンス

　このスペックは何を意味するのか。まず、ダイサイズは製造コストに大きく影響するため、RV740は潜在的に極めて高い製造コストパフォーマンスを実現できる可能性を持つ。これは、対NVIDIAでの競争上では大きな意味を持つ。メインストリームから下の低価格戦争で優位に立てるからだ。さらに、新プロセスへの一番乗りを、またしても掴んだことで、新プロセスへの対応でAMDが優位に立っていることがより明確になった。ただし、新プロセスには歩留まり問題が絡むため、いい要素ばかりではない。

　RV740は、これまでのシングルダイのRV700世代から、内部のマイクロアーキテクチャ自体の大きな拡張はない。面積当たりの演算密度を高められたのは、製造プロセス技術の微細化によるものだ。

　AMDのR700世代のGPUは、これまで55nmプロセスを使って来たが、RV740では40nmプロセスへと微細化した。55nmが65nmプロセスをシュリンクしたハーフノード世代であるのと同様、40nmは45nmからのハーフノード世代だ。AMDは45nmをスキップして55nmから40nmへと移行する。NVIDIAもしばらく前から40nmの設計を行なって来たが、AMDが製品化で先行した。

　理論的には、40nmプロセスでは同じトランジスタ数のチップを、55nmプロセス世代の半分のダイサイズで作ることができる。もっとも、実際にはインターフェイス回りなど、縮小が難しい部分があるため、半分に縮小できない場合がほとんどだ。

　AMDのR700世代の最初のGPUであるRadeon HD 4800は9億5,600万トランジスタで260平方mmのダイサイズだった。それに対して、今回のRV740は8億2,600万トランジスタで136平方mmとなっている。トランジスタ数は86%に減って、ダイサイズはほぼ52%に減少した。シュリンク率としては、ほぼセオリー通りだ。

　RV770とRV740の設計上の大きな違いは、まず、メモリインターフェイス幅が256-bitから128-bitへと半減されたこと。次に、演算ユニット数が800ユニットから640ユニットへと減らされたこと。それ以外の部分は、通常はメモリインターフェイス幅に応じて減らされるレンダーバックエンド(ROPとも言う)の数も減らされていない。簡単に言えば、フラッグシップであるRV770系の80%の機能を保ったままチップを半分に縮小したのがRV740だ。

RV740の概要

GPUのトランジスタ数推移

●NVIDIA GPUと比べると3倍のダイ面積当たりの性能効率

　RV740の演算/面積密度が7.03GFLOPS/平方mmと高いのは、TFLOPSクラスの演算性能を、40nmプロセスで1/2のダイサイズに押し込んだためだ。これを他のGPUと比較すると、RV740の効率性がよくわかる。

　例えば、55nmのRadeon HD 4870は4.62GFLOPS/平方mmと、40nm RV740の65%程度の面積当たりの性能だった。RV740の方が50%も効率がいいことになる。高速化したRadeon HD 4890では5GFLOPS/平方mm以上になるが、依然としてRV740の方が圧倒的に効率が高い。

　ダイが相対的に大きなNVIDIAのGPUと比較すると、さらに差は顕著になる。NVIDIA最初のTFLOPSクラスGPU(PC向けは1TFLOPS以下でTESLA版が1TFLOPS以上)だった65nmのGeForce GTX 280(GT200またはG200)が1.62GFLOPS/平方mm。現在のGeForce GTX 285で2.26GFLOPS/平方mm。つまり、面積当たりの生演算性能なら、RV740はNVIDIAに3倍近い差をつけている。ダイ効率では、RV740に圧倒的な軍配が上がる。

　ただし注意が必要なのは、このスペックはあくまでも理論値のピーク性能の比較でしかなく、アーキテクチャの違いによる実効性能の差を表してはいないことだ。例えば、ATIアーキテクチャでは内部コアがVLIW命令を採用しているため、ドライバ内のコンパイラが命令をフルに並列に並べ替えない限りピーク性能が出せない。グラフィックス処理なら、頻繁に登場する3(xyz)～4(RGBA)データ要素に対する演算を並列化することで、性能を出しやすい。しかし、アプリケーションによっては向かない場合がある。

　それに対してNVIDIAアーキテクチャでは、命令レベルの並列化は一切行なわない。全てスカラ処理を行なう。そのため、メモリストールなどが生じない限り、一定の演算性能を保つことができる。

　NVIDIA GPUのダイサイズが大きい一因は、汎用コンピューティングでの性能を上げるためのアーキテクチャ上の工夫にダイを割いているためでもある。例えば、NVIDIA GPUの方がSIMD制御を行なう粒度が小さく、プロセッサクラスタの数がずっと多い。NVIDIAの方が、よりGPUの汎用コンピューティングへの利用に最適化がされている部分が多い。そのため、非グラフィックス処理では、実効スループットはNVIDIAアーキテクチャの方が高くなる可能性が高い。

　こうしたアーキテクチャ上の違いなどがあるため、両社の浮動小数点演算スペックを、同じ尺度として比較することは無理がある。しかし、それを差し引いても、RV740の生パフォーマンスの効率のインパクトは大きい。

各GPUの命令実行の違い

G200bとRV790の比較

●ダイサイズを縮小して利益を上げるAMDのGPU戦略

　RV740は、AMDのダイサイズ最適化戦略の2世代目のGPUだ。RV740は、AMDの新戦略がうまく行っていることを象徴している。

　GPUには伝統的に3つのダイサイズのレンジがある。最大サイズのエンスージアスト向けGPUと、120～160平方mmのサイズで中間パフォーマンスのメインストリーム向けGPU、そして100平方mm前後から下のサイズのバリュー向けGPUだ。このうち、最もダイが大きなエンスージアスト向けは、トップエンドの性能競争の結果、どんどん肥大化して行った。DirectX 9世代の初期には200平方mm前後だったエンスージアスト向けGPUは、DirectX 10世代では400平方mmを突破した。

　GPUベンダーは、コスト上の制約から3種類以上のダイを作ることは難しい。そのため、エンスージアスト向けGPUと、メインストリームGPUの間にギャップが開くようになった。GPUベンダーは、このギャップを、エンスージアスト向けGPUの不良プロセッサクラスタを無効にした低機能版で埋めた。しかし、巨大ダイの開発と製造のコストは、GPUベンダーの利益を削いでいった。

　そこで、AMDとATI Technologiesが合併した直後、AMDはGPUのダイを小さくして利益率を高めるという方針を打ち出した。下がその際のスライドだ。そして、2007年秋のRadeon HD 3800(RV670)系から、ターゲットのダイサイズを縮小する新戦略を実行した。下の図は、ダイサイズの変化をチャート化したものだ。

ダイサイズを小さくする方針

R700のダイサイズ

●ダイサイズで大きく変わるチップの歩留まり

　Radeon HD 2000(R600)世代では、GPUダイサイズに大きなギャップがあった。ハイエンドのエンスージアストGPUの420平方mmと、メインストリームGPUのRadeon HD 2600(RV630)の153平方mmの間がぽっかり空いていた。そこで、次のRadeon HD 3000世代では、エンスージアスト向けの巨大なシングルダイGPUを止めた。代わって、192平方mmのRadeon HD 3800をパフォーマンス市場向けに投入した。

　その上で、エンスージアスト市場には、デュアルチップボードのRadeon HD 3870 X2(R680)を投入した。デュアルチップ構成は、必ずしも性能が出るとは限らないため、シングルチップ路線のNVIDIAとの競争上では不利になるが、AMDはそれよりも実利を取った。そして、RV670から、メインストリーム向けGPUとバリュー向けGPUを派生させた。

　同じことはRadeon HD 4000世代でも繰り返された。パフォーマンス市場向けのRadeon HD 4800(RV770)が260平方mmで、派生したメインストリーム向けのRV730が146平方mm、バリュー向けのRV710が73平方mmだった。AMDは巨大ダイのGPUを捨て去って2世代になる。

　AMDの、このダイサイズ縮小戦略の狙いは明確だ。それはコストだ。ダイサイズが大きくなると、1枚のウェハから採れるダイ個数が減るだけでなく、歩留まりも低下する。下は上から450平方mm、260平方mm、140平方mm、80平方mmのダイサイズのチップの300mmウェハでの歩留まりの例を示した図だ。ブルーのダイが良品、ホワイトのダイが不良品だ。ウェハ上の同じ位置に欠陥があるとして、各サイズのダイの歩留まりを見ると、大きな差が出ることがわかる。

　一番下の80平方mmのバリューGPUのダイを見ると、良品は737個で、歩留まりも91%と極めて高い。その上の140平方mmのメインストリームGPUのダイになると良品は373個で、歩留まりは84%に下がる。ちなみに、これは比較的歩留まりがいい例で、ITRS 2007でのテクノロジ要求では140平方mmのCPUの歩留まりは75%になっている。

　同じウェハで260平方mmのパフォーマンスGPUのダイになると、良品ダイは176個に減り歩留まりは73%に下がる。さらに、エンスージアストGPUのレベルである450平方mmのダイとなると良品がたった77個で、歩留まりは57%にまで下がってしまう。GPUベンダーがDirectX 10世代で到達した450平方mm前後のダイは、生産性の面では極めて厳しいことがよくわかる。

　1枚のウェハのコストはほぼ同じなので、1個当たりの製造コストはダイが大きくなると激増する。もっとも、巨大チップのGPUの場合は、不良箇所を含むプロセッサクラスタを無効にすることで、低機能の廉価版として製品化することができる。そのため、歩留まり問題はある程度軽減されるが、高コストであることに変わりはない。

ダイサイズの違いによる歩留りの変化

GPUとCPUのダイサイズ