後藤弘茂のWeekly海外ニュース

GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」

欠けていたデュアルダイ製品を埋める

 ハイエンドに巨大ダイ(半導体本体)のGPUを据えるか、それとも一回り小さなダイのGPUをデュアルダイ構成で持って来るか。AMDは「Radeon HD 3000」世代以降、後者の戦略を採り、デュアルGPUソリューションをハイエンド製品に据えてきた。下のスライドは過去のデュアルダイボードだ。ワンチップの性能を追求するHPC(High Performance Computing)市場に弱いAMDの、論理的な戦略だ。

Radeon HD 7990の主な仕様
GPUダイサイズとプロセスの移行図※PDF版はこちら
Radeon HD 7990

 しかし、AMDは、GCN(Graphics Core Next)アーキテクチャのGPUでは、ハイエンドはシングルGPUダイのRadeon HD 7970系で、デュアルダイのAMD製品はリリースされていなかった。AMDが発表した新たなハイエンドGPU「Radeon HD 7990」(開発コードネームMalta)は、このギャップを埋める製品だ。これで、Radeon HD 7000シリーズはハイエンドまでの純正ラインナップが1年以上かけて完結したことになる。

 Radeon HD 7990はデュアルGPUダイのグラフィックスカード製品で、Radeon HD 7970(Tahiti)シリーズのGPUダイを2個搭載する。浮動小数点演算ユニット(AMD用語ではStream Processor)の個数は4,096ユニットで、1GHzで動作させるため単精度浮動小数点演算パフォーマンスはシングルカードで8.2TFLOPSに達する。メモリインターフェイスは、各GPUダイがGDDR5 x384を備えるため、合計でx768のインターフェイス幅となる。ボードのDRAM容量は6GBだ。最大5ディスプレイへの出力をサポートする。

 もちろん、2個の大型ダイと6GB分のGDDR5チップの熱は強力で、そのため、AMDはボードに3連の大型ファンを装着した。大口径ファンのおかげで、騒音レベルはわずか37.8dBAと、図書館並の静けさに抑えられたとAMDは言う。

2年サイクルのために後半の1年向けの製品が必要に

 しかし、なぜ、1年以上前に発表されたハイエンドGPUのデュアル構成版が、今頃出るのだろう。ボードにGPUを2個載せるだけなら、いくら設計に時間がかかったとしても、数カ月で出せそうな気がする。

 もちろん、AMDがRadeon HD 7990を遅らせた理由は、技術的なものではなく、マーケティング上のものだ。その背景には、GPUアーキテクチャの世代交替サイクルの変化がある。

 現在のGPUは、NVIDIAもAMDも2年置きにアーキテクチャを刷新している。そのため、新GPUアーキテクチャを投入した翌年は、新たにエンドユーザーを惹きつけることができる製品が不在で、市場を活性化することが難しい。そこで、NVIDIAもAMDも、2年サイクルの後半の1年に、カンフル剤となるハイエンド製品をずらして投入するようになってきた。それが、今回のRadeon HD 7990というわけだ。

 NVIDIAのGeForce GTX TITANも全く同様で、HPC(High Performance Computing)向けに昨年(2012年)投入したGPUのグラフィックスカード版を今年(2013年)になって発売した。NVIDIAもAMDも、ハイエンド製品を出し惜しみして、後出しすることで、サイクルの2年目に目玉となる製品を据えようとしている。

 GPU業界が1年毎の製品リフレッシュにこだわるのは、GPUが長い間1年サイクルでアーキテクチャを刷新して来たからだ。シリコンファウンダリのプロセス技術はハーフノードを含めて1年サイクルで代わり、また、GPUの進化を先導していたAPIも1年サイクルで変わっていた。DirectX 9 Shader 3.0以降はAPIの進化は緩やかになったが、1年サイクルは続いた。また、その当時は6カ月毎に中間リフレッシュ製品までリリースしていた。通常、この中間リフレッシュは若干の手直しを加えてリビジョンをアップしたダイで、以前はマスクなどのコストも安かったため、こうした製品が可能だった。下は2006~2007年当時にAMD(ATI)が説明したGPUの世代交替のビジョンだ。

GPUの世代交代のパターン※PDF版はこちら

1年毎のビートで動いていた40nmより前の世代

 なぜ、この2~3年、GPUのアーキテクチャ面での世代交替が2年サイクルとなったのか。理由は単純で、GPUを製造するシリコンファウンダリのプロセス技術の進化のサイクルが、1年から2年へと伸びたからだ。そのため、ファウンダリのプロセス技術に頼るGPUも、アーキテクチャの進化を2年サイクルにしなければならなくなった。

 2009年より前は、ファウンダリは1年毎にプロセス技術を微細化していた。具体的には、90nm(2005年)→80nm(2006年)→65nm(2007年)→55nm(2008年)といったサイクルとなる。プロセスのノードを示す数字は、毎年、約84%ずつ小さくなっている。カッコの中の時期は、そのプロセス技術を使ったチップが市場に投入された時期を示している。

 各プロセス世代毎に、トランジスタの間の距離は約84%ずつ小さくなり、トランジスタ面積は84%の2乗の約70%ずつ小さくなった。逆にトランジスタの密度は84%の2乗の逆数の1.4倍ずつ増えた。つまり、同じ面積のチップに、1.4倍の数のトランジスタを載せることができるようになった。

 下の図を見ると分かる通り、2009年まで、GPUのトランジスタ数は毎年約1.4~2倍ずつ増えていた。図中のGPUは、そのプロセス世代で最大容量クラスのGPUで、GPUの四角形の大きさは、チップのダイサイズを示している。Radeon HD 4800 X2(R700)の四角形が二重になっているのは、Radeon HD 7990同様に2個のダイを使ったソリューションだからだ。Radeon X1900(R580)からRadeon HD 2900(R600)で、トランジスタ数が2倍になっているのは、プロセス技術が微細化しただけでなく、ダイを大型化したからだ。

プロセス技術とGPUサイクルPDF版はこちら

 トランジスタ数が多くなれば、同じサイズのダイに、より多くの演算ユニットを搭載できる。1年サイクルのプロセス微細化では、今年のGPUが100個の演算ユニットを搭載していたら、翌年のGPUは140個の演算ユニットを搭載できることを意味する。演算ユニット数が1.4倍に増えれば、同じクロックでも演算パフォーマンスは1.4倍に増える。また、アーキテクチャ面でもより高度で複雑で、多くのトランジスタを必要とするものへと進化させることができる。こうやって、GPUは毎年性能を増やし、アーキテクチャも拡張して来た。

2009年からファウンダリのプロセス微細化サイクルが変わる

 サイクルが崩れたのは2009年からだ。GPUの大手ファウンダリであるTSMCは、45nmプロセスの名前を40nmに変えて投入。また、プロセスの微細化のサイクルで中間ノードをやめて、1世代置きの2年サイクルへと変えた。40nm以降は、40nm(2009年)→28nm(2011年)→20nm(2013年)と微細化しつつある。プロセスノードは、ラフに言って毎年、約70%ずつ小さくなっている。他のファウンダリも、ほぼTSMCに合わせたペースで微細化している。

Intel&ファウンダリプロセスロードマップPDF版はこちら

 このようにプロセスの微細化のペースは、2009年までは1年に約84%ずつだったのが、2010年以降は2年に約70%ずつに変わった。ファウンダリがプロセス微細化のサイクルを変更した理由は、プロセス技術が微細化するにつれてプロセス開発が難しくなり、投資額が増えて、小刻みな微細化が難しくなったことにある。

 約70%の微細化の場合は、同じダイサイズに載せることができるトランジスタ数は、ラフに言って70%の2乗の逆数で約2倍となる。つまり、1年置きに1.4倍だったトランジスタ数増加のペースは、現在は2年置きに2倍となっている。これは、IntelなどのCPUプロセスと同じペースだ。GPUのトランジスタ数の変化を見ると、プロセスサイクルの変化がよくわかる。

GPUトランジスタ数とプロセスの移行図PDF版はこちら

 プロセス微細化のサイクルの変動は、GPUベンダーに、「2年目の新製品」を強いることになった。そして、2年サイクルを乗り切るために、よりマーケティングを強化する必要に迫られている。新アーキテクチャや新プロセスの製品を投入できるわけではないので、マーケティングの霧に包むしかない。

 だが、この状況は実はネガティブではない。というのは、GPUベンダーは2年毎に、2倍のトランジスタ予算を使った、より強力なアーキテクチャを繰り出すことができるからだ。20nmでは、NVIDIAはMaxwell(マクスウェル)、AMDは新世代のGCN製品ファミリ(Volcanic Islands)で、再び飛躍する。

(後藤 弘茂 (Hiroshige Goto)E-mail