後藤弘茂のWeekly海外ニュース

NVIDIA GPUの動作周波数はどうして1.4GHz台止まりなのか



●電力密度が動作周波数のいちばんの制約

 NVIDIAの新アーキテクチャ「Fermi(フェルミ)」の最初のGPUは「GeForce GTX 480(GF100)」。GeForce GTX 480のプロセッサコアの動作周波数は1.401GHz。これまでのNVIDIA GPUとトップスピードは1.4GHz台でほぼ同じレンジだ。新アーキテクチャの最初の製品としては高いという見方もできるが、顕著なほどではない。一方、電力消費はボードで250Wと大きく、消費電力が大きい傾向は変わっていない。

 トランジスタ数が32億(3.2B)にのぼる巨大ダイ(半導体本体)なので、高消費電力は当たり前だが、この電力が動作周波数を制限しているのだろうか。NVIDIAは2009年11月の半導体カンファレンス「IEDM」で、John Y. Chen氏(Vice President Technology & Foundry Operations, NVIDIA)が行なった講演「GPU Technology Trends and Future Requirements」の中で、その背後にある仕組みを説明している。

GPUダイサイズとプロセス移行図
PDF版はこちら

 現在のNVIDIA GPUの動作周波数を制約しているものは、やはり電力だ。しかし、GPU全体の消費電力ではない。IEDMの論文によると、電力を最適化するための指標はチップの電力そのものではなく、電力密度だと言う。大型のチップは消費電力も大きいが、パフォーマンスも高いため、廃熱ソリューションにコストをかけても見合うからだ。

 しかし、単位ダイ面積当たりの電力消費である電力密度(Power Density)は、一定以上に大きくなると対処が難しい。冷却機構やアタッチ素材の熱抵抗値に大きく影響するからだ。電力密度が大きいと、特殊な冷却機構や素材が必須となり、ボードコストを大きく押し上げてしまう。そのため、NVIDIAは電力密度を過去数世代に渡って一定に保っているという。

 下のチャートはIEDMでのNVIDIAの図をわかりやすく描き直したものだ。いちばん上のラインが「トータルの電力密度(Total Power Density)」、つまりチップの単位面積が稼働時にどれだけの電力を消費するかの数値だ。このラインを見ると、110nmプロセスまで0.2W/平方mmだった電力密度は、90nmで一気に0.3W/平方mmまで上昇。それ以降、NVIDIAは注意深く0.3W/平方mm前後に電力密度を保っていることがわかる。NVIDIAはこの方針を今後のプロセス世代に渡っても続けるようだ。

NVIDIA GPUの電力密度とスケーリング
PDF版はこちら

●28nmプロセスではゲートリーク電流が抑えられる

 上の図のように、NVIDIAは0.3W/平方mmより少し上の電力密度を上限として、それを超えないように電力を抑えている。これが、GPUの動作周波数の足かせとなっている。

 チップの電力は、トランジスタが動作時に消費するダイナミック成分と、リーク電流(Leakage)によるスタティック成分の2つに分けられる。110nm世代までは2つのうちダイナミックなACパワーが支配的だったが、90nmからはスタティックなDCパワーの方が支配的になった。電力密度に占めるスタティック成分は90nm以降、現在の40nmまで0.15W/平方mm~0.2W/平方mm強のレンジにあって減っていない。

 一方、ダイナミック成分の方は、チップの動作周波数を上げると増える。そうすると、増大したスタティック成分と合わせて0.3xW/平方mmの枠を超えてしまう。電力密度が上がるとダイ温度が上がり、リーク電流は急上昇する。そのため、NVIDIAは、安易には動作周波数を上げることができない。つまり、リーク電流によるスタティック成分が多い限り、動作周波数を一定以上に上げることは難しい状態が続いている。

 しかし、良いニュースもある。それは、28nmプロセスではTSMCが「High-K Metal-Gate (HKMG)」を採用することだ。現在はトランジスタのゲート絶縁膜が5~6原子分程度の厚みになっており、そのため膜厚のばらつき(厚みの増減)によって、トンネル効果によるゲートリーク電流が大きくなっている。トランジスタのゲート絶縁膜に、より電子を通しやすい高誘電率(High-k)材料を使うことで、膜を厚くすればゲートリーク電流を抑えることができる。

TSMCプロセスロードマップ
PDF版はこちら

 Intelは45nmからHKMGを採用しているが、TSMCも同じアプローチを28nmから始める。NVIDIAは、それによって28nmではスタティック成分が急減して、同じ電力密度の枠内で、アクティブ成分を上げることが可能になると予測している。アクティブ成分を上げるということは、実質的に動作周波数を上げることになる。つまり、28nm世代のGPUは、今より動作周波数が若干上がると予想される。28nm世代では、GPUのトランジスタ数も40nmから倍増するため合計で性能が上がる。

 IEDMでのNVIDIAのGPUパフォーマンスのスケーリングのチャートを見ても、その予測が表されている。40nmまでは、パフォーマンスの伸びはゲート密度(Gate Density)、つまりトランジスタの増加とそれによるプロセッサ数の増加にほぼ比例している。ところが28nmからはゲート密度以上にパフォーマンスが伸び始める。

Scaling GPU Performance with technology
GPUトランジスタ数とプロセス移行図
PDF版はこちら

●ノートPC向けGPUはますます難しくなる

 もっとも、話は単純ではない。今のGPUで困難なことは、ノートPC向けGPUの作り分けだ。これが難しくなっている理由も、リーク電流(Leakage)の増加と絡んでいる。こちらはHKMGで低減できるゲートリーク電流ではなく、オフステートリーク電流(Ioff)、つまりソース-ドレイン間の漏れの方が原因となる。

オフステートリーク電流ゲートリーク電流

 オフステートリーク電流を抑えるために、GPUはトランジスタのしきい電圧(Vt)を徐々に上げてきた。ダムのしきいが高ければ水が漏れ出す量が少ないという論理だ。下の図のように、Vtはじりじりと上がっており、その傾向は今後も続くという。ちなみにトランジスタ当たりのオフステートリーク電流は順調に下がっているように見えるが、トランジスタ密度も微細化で上がっているので、やはりリーク電流は問題になる。

オフステートリーク電流としきい電圧のグラフ

 Vtを上げる場合の問題は、チップの駆動電圧を下げにくくなってしまうことだ。CPUと同様にGPUもある程度の電圧の幅で動作する。GPUメーカーはこれまで、高パフォーマンスチップには最高電圧のVmaxを、ノートPC向けチップには最小電圧のVminを使って差別化してきた。もちろん高電圧のチップほど高クロックで動作するが、動作可能電圧に幅があれば、低電圧でそこそこのパフォーマンスのノートPC向けGPUチップを派生させることも容易だった。

 ところが、Vtが上がってくると、必然的にVminを下げることが難しくなる。一方、Vmaxは微細化にともない徐々に下がってくる。するとGPUの動作電圧の幅がどんどん狭くなってしまう。その結果、ノートPC向けチップを派生させることが難しくなるという。

 これが、今のGPUメーカーの抱えている問題だ。下がIEDMの論文のチャートで、これを見ると65nmからはこの問題がかなり大きくなっていることがわかる。今後は、ますます高パフォーマンスで電力効率のいいノートPC向けGPUが作りにくくなる。この話はハイエンドチップだけでなく、GPU全体に当てはまる。

Vmax、Vminの電圧幅とスケーリングの変化

 ちなみに、NVIDIAの携帯機器向けSoC(System on a Chip)「Tegra2」では、携帯機器向けのLPタイプのプロセス技術をメインに使っている。LPプロセスではリーク電流がぐんと減るが、パフォーマンスは大きく下がる。そこで、CPUコアなど一部にだけは通常のプロセス技術を使い、アイドル時には通常プロセス部分のパワーゲーティングを行なって電力消費をカットしている(パワーゲートしている間はLPプロセスのARM7コアが動作する)。電力を抑えるには、トリッキーな工夫が重要になりつつある。

●トランジスタの種類が増えて設計がやっかいに

 さらに話をややこしくしているのが、トランジスタのオプションだ。Vtの高いトランジスタはリーク電流が少ないが、パフォーマンスも低い。そのため、GPU全体を高Vt(HVT)トランジスタにしてしまうと、GPUが低速になってしまう。そこで、GPUメーカーはパフォーマンスが重要なクリティカルパスには、高速な標準Vt(SVT)トランジスタを使い、それ以外の部分にHVTを使うといった使い分けをしている。この事情はCPUメーカーでも同じだ。

 NVIDIAによると、65nm以降はゲート絶縁膜の厚さが異なるハイパフォーマンストランジスタと低リーク電流トランジスタの2種類を使っており、それぞれにSVTとHVTがあるという。その他にI/O回路のトランジスタがあり、さらに、40nmからはミッドボルテージのトランジスタが加わったという。トランジスタの種類が増えれば、設計はより複雑になり、コストがかかる。

トランジスタの種類がプロセス微細化に伴って増加

 こうして眺めると、現在のGPUは、プロセス技術からさまざまな制約を受けていることがわかる。動作周波数やノートPC向けGPUの派生といった、製品に密接に結びつく部分でも、プロセス技術の制約を考えないと予測が難しい。

NVIDIA GPUのダイ比較
PDF版はこちら