【後藤弘茂のWeekly海外ニュース】再び500平方mmを超える巨大チップとなったNVIDIAのGTX 480

■後藤弘茂のWeekly海外ニュース■

再び500平方mmを超える巨大チップとなったNVIDIAのGTX 480

●GPUアーキテクチャの変化がダイに現れた

　NVIDIAの新世代GPU「GeForce GTX 480(GF100)」を半導体デバイスとして分析的に見ると、NVIDIAの今後の3年半のGPUの進化がある程度予測できる。GeForce 8800(G80)から始まるGT(GeForce Tesla)系アーキテクチャが、90nmプロセスから始まり、65nm、55nm、40nmへとマイグレートしたように、GF(GeForce Fermi)系アーキテクチャも40nmから28nm、22nmへとマイグレートすることが予想できるからだ。

GeForce GTX 480のダイ
PDF版はこちら

　GF100のダイは上下左右がほぼ対称の正方形をしている。ダイの周囲エッジは各種インターフェイスと見られるブロックがぐるりと囲んでいる。GDDR5インターフェイスが、ほぼ3辺に相当するエリアを占めていると見られる。

　ダイの上下には16個のSM(Streaming Multiprocessor)がタイル上に配置されている。NVIDIAアーキテクチャのSMは、SIMT(Single Instruction, Multiple Thread)実行するプロセッサ群をまとめたマルチプロセッサユニットだ。SMのサイズは、同じ40nm世代のGT200系アーキテクチャと比べると6倍程度のサイズがある。ただし、これはSMのアーキテクチャが大きく異なるためだ。

　FermiアーキテクチャのSMはGT200アーキテクチャと比べると浮動小数点積和算プロセッサの数が8個から32個へと増え、全ユニットが倍精度演算をサポートし、複雑な演算を行なうスーパーファンクションユニットも2個から4個に増えた。1個のSMに内蔵するメモリもレジスタファイルは2倍の128KBに、共有メモリ&キャッシュは4倍の64KBに増えた。また、従来は3個のSMで共有していたテクスチャユニットもSM内に取り込まれた。FermiのSMは、機能的にはG80/GT200系アーキテクチャでTexture/Processor Cluster (TPC)と呼ばれていたユニットに相当する(SIMT実行する単位はSM)。GT200のTPCは3個のSMとテクスチャユニットなどを含んだクラスタだった。

GF100 Streaming Multiprocessor
PDF版はこちら

GT200 Streaming Multiprocessor
PDF版はこちら

●演算リソースは65nm世代から2倍強に増加

　GF100ダイには、SMが合計16個あり、それぞれが32個のプロセッサを含むので、物理的には512個のプロセッサが配置されている。しかし、製品としてのGeForce GTX 480(GF100)は、SMのうち1個をディセーブル(無効に)しているため、チップ全体で使えるプロセッサ(CUDAコア)数は480個となる。GT200ではStreaming Processor(SP)が240個だったので2倍の計算だ。

　ラフに言えば、40nmのGF100は、65nmのGT200とほぼ同レベルのダイに、ほぼ2倍の演算リソースを積んでいることになる。40nmなら単純計算で65nmの2.6倍になる計算だがそうなっていない。その理由は明瞭で、GT200ではダイ上でTexture/Processor Cluster (TPC)群が300平方mm以上の面積を占めていたのに、GF100ではSM群は250平方mm強の面積しか占めていない。演算を担うTPCとSMの面積を、微細化を加味して比べると2.2倍弱となり、演算リソースの増加と見合っている。

NVIDIA GPUのダイ比較
PDF版はこちら

　こうして見るとGF100では、チップ面積上での演算リソースの占める割合がやや低下していることがわかる。ちなみに、これはAMD GPUと比べるともっと顕著だ。では、NVIDIAはどこにダイ面積を費やしているのか。

　その多くは、さまざまな制御系やメモリに費やされていると推測される。例えば、Fermiアーキテクチャでは従来よりGPU内部のメモリ量が増えた。また、メモリ階層が深くなり、ハードウェアキャッシュ制御が行なわれるようになった。従来のNVIDIA GPUは、メモリからプロセッサへの上り方向へのテクスチャデータのクロスバーと、プロセッサからROPを経由してメモリへの下り方向のクロスバーの2つの片方向クロスバースイッチを備えていた。しかし、Fermiアーキテクチャでは、上り下り双方向の汎用クロスバーを備えるようになり、その他に上り方向のテクスチャクロスバーを持つ構造となった。また、GPU全体の制御がより細分化され、個々のSMが個別の、依存性のないカーネルプログラムを走らせることができるようになった。

　こうしたGPUの汎用性を高める機能拡張は、それぞれダイ面積を食うと推測される。とはいえ、GF100は、依然としてダイ面積当たりの高いプロセッシングパフォーマンスを維持している。GeForce GTX 480の生演算性能は1.3TFLOPSを超える。

GF100、GT200、G80のメモリ容量とマルチスレッディング
PDF版はこちら

GF100、GT200のメモリ階層
PDF版はこちら

個別のカーネルプログラムを実行
PDF版はこちら

●TSMCの急速なプロセス移行で加速されたGPU

　現在のNVIDIAは、大まかに言って3年～3年半で新アーキテクチャのGPUを投入、1年半ほどで改良版アーキテクチャを投入している。NVIDIAは、もともとはGTX 480(GF100)を昨年(2009年)末に投入したかったはずなので、計画上は、メジャーチェンジが36カ月、マイナーチェンジが18カ月だと推測される。

　その進化を支えているのは、ムーアの法則に支えられたCMOSスケーリングだ。ラフに言って、新アーキテクチャから改良版アーキテクチャではトランジスタ数が2倍に、そして改良版アーキテクチャから次世代アーキテクチャではさらに2倍になる。プロセスの微細化の効果でトランジスタ数が倍増するからで、G80からGT200(GeForce GTX 280)で2倍、GT200からGF100でさらに2.2倍以上となった。ちなみに、GF100のトランジスタ数はNVIDIAの公式では30億(3B)となっているが、半導体系カンファレンスではNVIDIAは32億(3.2B)としている。そのため、チャートでは3.2Bの方を取っている。

GPUトランジスタ数とプロセスルールの変遷
PDF版はこちら

　1年半で2倍程度のトランジスタ増加。しかし、現在の半導体業界のCMOSスケーリングは2年でリニアに70%シュリンク、つまり2年毎にトランジスタ2倍なので、1年半だと計算が合わない。その秘密は、NVIDIAのファウンダリであるTSMCのプロセスロードマップが過去3年間加速していたことにある。正確に言えば、130nm以降はIntelなどに大きく遅れていたプロセス技術の世代交代をTSMCは再びペースアップした。

　TSMCは80nmから65nm、55nmまでの立ち上げを、わずか1年半で実現した。さらに、その1年半後には40nmも立ち上げた。もちろん、何をもって55nmや40nmと呼ぶのかという問題はあるが、ノード的には1年半で70%ずつシュリンクしていた。そのため、TSMCが製造するGPUの進化も1年半ペースに加速された。具体的には、90nmのG80から65nmのGT200(GeForce GTX 280)に1年半、GT200から40nmのGF100に2年ほどで移行した。

TSMCプロセスロードマップ
PDF版はこちら

●ほぼ安定して来たGPUのダイサイズ

　こうして見ると、過去3年半のNVIDIA GPUの急進化は、TSMCのプロセス技術の急進化にある程度依存していたことがよくわかる(事情はATI GPUも同じ)。プロセス技術の進化が遅かった90nmまでは、チップ当たりのトランジスタ数を増やすために、NVIDIAもATI(現AMD)もどんどんハイエンドGPUのダイ(半導体本体)を大型化していた。ところが、90nmのG80以降はダイの肥大化が鈍化、現在は、ほぼ水平になっている。同レベルのダイで、トランジスタを倍々にしてきた。

　おそらく、NVIDIAは現在の500平方mm台のダイサイズが、ハイエンドGPUの限界と考えていると推測される。経済的に考えると製造時にワンショットで露光できないと不利になるという事情もある。今後もダイをこれ以上は巨大化させず、500平方mm前後を上限にする可能性が高い。

　現在、GPUのダイサイズはおよそ4つの階層に分けられる。NVIDIA GPUのハイエンドである450～500平方mm台の巨大チップ、AMD GPUのハイエンドである250～330平方mmのやや大型チップ、伝統的なミッドレンジGPUの140平方mm前後の帯、メインストリームGPUの100平方mm前後から下、もう1つ加えるならバリューGPUの60～70平方mm台が最下層にある。過去2年でダイサイズがほぼ安定してきた。もともと、GPUは60～70平方mm台を中心に出発した。

GPUダイサイズとプロセスルールの変遷
PDF版はこちら

●28nmプロセスで再びジャンプするGPU

　このように、NVIDIAはファウンダリ業界のプロセス技術の進化に乗ってGPUを進化させている。そのため、今後は、過去3年半ほどの異常な急ペースは維持はできなくなる。それは、80nmから40nmまでのような急速な進化が今後は見込めないからだ。ロードマップでも、今後は約2年で70%シュリンクとなっている。1年半で70%シュリンクのペースは維持されない。半導体業界の当たり前のペースに戻るだけだが、GPU業界からはペースダウンと映るかもしれない。

　TSMCは、GPU向けの汎用プロセスでは、次のフルノードとして28nmプロセスを準備している。TSMCは、32nmノードをスキップするため40nmの次が28nmになる見込みだ。TSMCは、汎用プロセスでは、45nmをスキップして40nm(実際にはリネームに近い)し、65nmから55nmへも半年で移行した。現状では、55/40/28nmといった従来のハーフノードの数字を冠しているノードが、TSMCのフルノード(またはフルノードに準じたノード)になりつつある。もちろん、これはIntelなど大手半導体メーカーに対するマーケティング戦略でもある。Intelなどが32nmプロセス世代の時に、28nmプロセスの生産をスタートするからだ。

　TSMCでのGPUは、今後しばらくは40nmプロセスが続き、それから来年(2011年)の中盤までに28nmへのジャンプが始まる。それまでは、プロセス技術的には足踏みということになる。しかし、いったん28nmプロセスに乗ると、再びパフォーマンスが飛躍することになる。

　28nmプロセスになると、NVIDIAのハイエンドGPUは単純計算で現在の約2倍のトランジスタ数を集積できるようになる。つまり、60億(6B)トランジスタのGPUが誕生する。搭載できるプロセッサ数は1,000を超えると見られる。メモリボトルネックを考えなければ、演算パフォーマンスは2011～12年に2倍にできる計算だ。TSMCはさらに28nmの1年後に22nmも予定している。22nmではさらに40%ほどプロセッサ数が増える計算になる。

　プロセッサ数の増加だけに留まらない。NVIDIAは28nm以降はGPUの動作周波数も向上できると考えているようだ。2009年11月の半導体カンファレンス「IEDM」での、NVIDIAのJohn Y. Chen氏(Vice President Technology & Foundry Operations, NVIDIA)の論文「GPU Technology Trends and Future Requirements」を見ると、それが示されている。NVIDIAは、28nm以降はゲート数の増加以上に、パフォーマンスが伸びると見ている。28nmでは、ダイ当たりのパフォーマンスは40nmの220%ほどになり、22nmでは360%以上になるという。その予想通りなら、2012～13年にはGF100の3.6倍の性能、つまり5TFLOPSレンジのチップが、理論上は登場できることになる。もちろん、メモリや歩留まりなどさまざまな課題が解決されればの話だが。

GPUのスケーリングと性能向上
PDF版はこちら