後藤弘茂のWeekly海外ニュース

AMDとNVIDIAのDirectX 11世代GPUを支えるTSMCの40nmプロセス



●40nmプロセスがDirectX 11世代の主戦場となる

 NVIDIAは40nmプロセスのノートPC向けGPUラインナップを発表した。同社は、40nmプロセスのダイを一気に3種類導入しており、これまで以上に新プロセスへの迅速な移行に注力する気配を見せている。これは、現状ではAMD GPUよりダイサイズが大きく、利幅が狭くなっているNVIDIAにとって、巻き返しを意味する。

 そして、40nmプロセスはDirectX 11世代のGPUの行方を測る上でも重要となる。なぜなら、DirectX 11世代は40nmの上で花開くことになるからだ。AMDは、すでに同社のDirectX 11世代GPU「Evergreen(エヴァグリーン:旧RV870)」を、TSMCの40nmプロセスで生産することを発表している。NVIDIAのGT300も同様にTSMCの40nmだと言われている。40nmは、イコールDirectX 11のプロセスとなる。

NVIDIA GPUのダイ比較

 しかし、そもそも、なぜGPUベンダーの使う新プロセス技術は45nmではなく40nmなのか。理由はいたって簡単だ、GPUの製造を委託されているファウンドリTSMCの方針だからだ。TSMCは、4xnm世代では、45nm世代でGPU向けのパフォーマンスの高いロジックプロセスは提供せず、ハーフノードの40nm世代で提供することにした。そのため、GPUベンダーは55nmプロセスから40nmプロセスへとジャンプすることになった。

 今月開催されたCOMPUTEXでのAMDのDirectX 11世代のEvergreenの発表会では、TSMCがその経緯を簡単に説明した。TSMCのDr. John Wei氏(Senior Director of Advanced Technology Marketing Division, TSMC)は次のように語っている。

 「今でも憶えているのは2年前(2007年?)、我々が45nmの代わりに、直接40nmへと移行するという提案をAMDに持って行った時のことだ。AMDは、最初、(その提案に対して)疑い深く、怪しむ感じで、驚いていた。しかし、2週間後、彼らは戻ってきて、我々の提案は印象的で暖かく迎えると言った」。

Evergreenのウェハ。左がAMDのRick Bergman氏(Senior Vice President, AMD)氏、右がTSMCのDr. John Wei氏(Senior Director of Advanced Technology Marketing Division, TSMC)

 補足すると、TSMCは無線通信デバイスなどに向けたローパワープロセス「CLN45LP」を2007年末に立ち上げている。しかし、昨年(2008年)後半に立ち上げたハイパフォーマンス向けロジックプロセスは40nmの「CLN40G」で、45nm世代はスキップされた形になっている。

●プロセス技術の提供時期にムラがあるTSMCのパフォーマンスプロセス

 45nmでLPプロセスが先行したのは、65nm以降の世代からは通信機器向けの高速チップの需要が盛り上がり、低消費電力版の先端プロセスを早く提供することが強く求められたためだ。そのため、65nmと45nmでは、TSMCはメジャーノードではLPプロセスを先行させることにした。具体的には、65nmと45nmではローパワーのLPが、パフォーマンスロジック向けのG/GPより先行した。その代わり、55nmではLPは提供されず、GPだけだった。

 つまり、TSMCが立てたのは、需要の高まった通信向けASICやFPGA向けにメジャーノードを先行して提供し、短サイクルの世代交代が重要なGPUなどにはハーフノードも提供するというプランだった。ちなみに、32nmではパターンが変わってGが先行し、ローパワープロセスは32nmをスキップして、次の“メジャーノード”である28nmの「CLN28LPT」になる(TSMCでは28nmでトランジスタを大きく改良するためメジャーノードとした)。

 こう説明するとややこしいようだが、話は簡単だ。TSMCでは、プロセス世代によって、LP系とG系のどちらを先行するのか、あるいはスキップするかを変えている。そのため、GPUが使うプロセスだけを見ると、提供時期が一定のサイクルにならず、プロセスによって早く提供される場合と、やけに遅い場合が出る。例えば、GPプロセスは、65nmは提供が遅かったが、55nmは早く、その間隔は2四半期しかなかった。そのため、GPUの製造プロセスにも90nmや55nmの時代がやけに長いといったムラが出た。そして、4xnmでは45nmがスキップされ40nmへと移行することになった。

 また、各プロセス技術は、最初は欠陥密度が高いため歩留まりが悪く、時間が経つにつれてラーニングカーブが向上して歩留まりが改善される。従って、プロセスが立ち上がってからしばらく期間をおいて量産に入った方が、歩留まり的にはよく、製造コストが低く、生産量が多くなる。ただし、LPより遅れて量産に入った65nmプロセスは、比較的成熟した段階から立ち上がったため、歩留まりが相対的によかったという。

TSMCのロードマップ

●TSMCのプロセスロードマップからGPUの進化が予測できる

 上のチャートは、TSMCの先端ロジックプロセスのロードマップに、同社のプロセスを使ったGPUの出荷時期を重ねたものだ。これを見るとGPUの進化が、TSMCのロードマップに支配されていることがわかる。例外もある(NVIDIAは130nmではIBMを使った)が、ほとんどの先端プロセスGPUはTSMCで製造されている。

 パターンはほぼ一定している。TSMCが先端プロセスを立ち上げると、大抵の場合、2~3四半期後にそのプロセスを使ったGPUが登場する。2四半期半だったり、3四半期近くかかったりすることもあるが、おおよその期間は一定している。

 TSMCの先端プロセスの立ち上げとGPUの出荷が連動しているのは、GPUがTSMCの先端パフォーマンスロジックプロセスの最初の顧客だからだ。TSMCの高速ロジックの先端プロセスラインから最初に出荷されるのは、通常GPUだ。2~3四半期のタイムラグがあるのは、チップの設計をFabに入れてから、製品を出荷できるようになるまで最短で2四半期かかるためだ。つまり、新プロセスGPUの登場時期は、完全に予測可能だ。TSMCから量産開始のプレスリリースが出てから半年後を待てばいいからだ。

COMPUTEXでAMDが示したプロセス移行のスライド

 すでに述べたように、パフォーマンスロジックではプロセスの提供時期にムラがある。一見してわかるように、90nmと55nmは次のプロセスまでの期間が長く、65nmなどは次プロセスまでの期間が短い。ちなみに55nmプロセスのCLN55GPは、パフォーマンスではなくメインストリームプロセスという扱いになっている。AMDによると「AMDがGPUに採用したのは、TSMCが提供する通常のプロセスではなく、GPU向けにカスタマイズされた『CLN55G+』プロセスだ」という。いずれにせよ、CLN55GPの派生プロセスであると考えられる。

 すでに説明したように、このロードマップには45nmが欠けている。もともとTSMCは、45nmのハイパフォーマンス向けロジックプロセスとして「CLN45GS」と呼ばれるプロセスを2008年中盤に立ち上げる予定だった。つまり、45nm世代で、ローパワーのLPより遅れて高速ロジック向けのG系統のプロセスが提供される予定だった。しかし、今は40nmのCLN40Gが提供されている。数字の上では、45nmのCLN45GSが、40nmのCLN40Gに入れ替わった。しかし、CLN40Gは、CLN45GSとイコールだとされている。実際、ゲート密度やSRAMセルサイズなどのスペックは45GSと40Gで変わらない。もともと、TSMCは45GSをハーフノードだと説明もしていた。重要なのは名前ではなく、スペックだ。

GPUのトランジスタ数推移

●リーク電流では依然として苦しいTSMCの4xnm世代

 では、TSMCの40nmプロセスにはどんな利点があるのか。TSMCのCLN45GSスペックを見ると、GPUベンダーの4xnmプロセス世代のGPUの特性や困難が見えてくる。CLN40GのスペックはCLN45GSとほぼ同じだと見られる。

 TSMCの資料によると、65nmのパフォーマンスプロセスであるCLN65GPを1とすると、CLN45GSの相対的なスピード向上は39%アップ。CLN45GSでは電源電圧を下げたことで、アクティブ電力は65GPの56%にまで下がる。90nmのCLN90Gとアクティブ電力を比較すると、31%となる。ところが、45GSのスタンバイ電力は65GPの97%にしか下がらない。

【表】プロセスルールごとの特性

90G65GP45GS
Vdd110.9
Speed SS, 0.9Vdd, 125C0.66
1
1.39
Active Power FF, 1.1Vdd, 125C1.79
1
0.56
Standby Power FF, 1.1Vdd,125C0.93
1
0.97

 これは、次のようなことを意味する。GPUがフルに動作する時にTDP(Thermal Design Power:熱設計消費電力)は4xnmプロセスで下がる。しかし、リーク電流(Leakage)はそれほど減らず、そのために平均電力はあまり下がらない。依然としてリーク電流に悩まされるプロセスだ。そのため、ノートPC向けGPUなどでは、TDP枠の中でのピーク性能は上げやすい。しかし、バッテリ駆動時間をより延ばすためには、積極的にリーク電流を下げる技術を導入して行かなければならない

 微細化によるダイサイズの縮小は、TSMCの40nmでは順調に進む。例えば、TSMC 40nmでのSRAMセルのサイズは0.242平方umで、Intelの45nmのSRAMセルの初期値0.346平方umよりずっと小さい。

 面白いのは、ゲート密度とSRAMセルサイズ、ぞれぞれの縮小のバランスだ。TSMCの資料を見ると、SRAMのセルサイズの縮小率は、90nm世代から65nm世代での縮小率は非常に高いが、65nmから45nmへの比率はやや低い。逆に、スタンダードセルでのゲート密度は、90nm世代から65nm世代への密度向上率は低いが、65nmから45nmへの向上率は高い。TSMCによると65nmから40nmでゲート密度は2.35倍に増えたという。

 GPUなら、90nmから65nmでは、キャッシュやレジスタなどSRAM部分の方が、演算コアやテクスチャユニットといったロジック回路部分より縮小した。それが、65nmから40/45nmでは、ロジック回路部分の方がSRAM部分より縮小したことになる。GPUは、ロジック回路の塊なので、40nmへの微細化の方が効果が大きかったことになる。実際、40nm世代では、両GPUメーカーのチップはかなり小さくなっており、効果があったことがわかる。

GPUのダイサイズ推移