後藤弘茂のWeekly海外ニュース

なぜNVIDIAのMaxwellは28nmでAppleのA8は20nmプロセスなのか

（2014/9/22 06:00）

モバイルSoCが20nmに移行する一方、GPUは28nmに

　鳴り物入りで登場したNVIDIAのグラフィックス向けの高性能GPU「Geforce GTX 980(GM204)」だが、その製造プロセス技術は従来通り28nmプロセス。AppleのiPhone 6/6 PlusのA8モバイルSoC(System on a Chip)は20nmに移行したのに、同時期のNVIDIAのGPUは20nmに移行しなかった。Maxwell GM204は、従来のNVIDIAのGPUが採用してきたTSMCの「28HP」プロセスのままだ。そのため、GM204は400平方mm近い大型ダイのGPUとなっている。

Maxellのダイイメージ。正確なダイ写真ではなく、作られたイメージだ

NVIDIA GPUのダイサイズ
PDF版はこちら

40nm以降のGPUのダイサイズ
PDF版はこちら

　かつては、先端プロセスは真っ先にGPUが採用していたのが、今は完全にモバイルSoCが逆転している。Appleだけでなく、Qualcommも20nmのチップをすでに製造している。しかも、これらトップモバイルSoCは、NVIDIAのパフォーマンスGPUと比べると、立ち上がり時期の生産個数がはるかに多い。つまり、個数が多くて製造が大変なはずのモバイルSoCが新プロセスへと移行し、個数が少なく楽なはずのパフォーマンスGPUが旧プロセスに留まっている。

AppleはA8で20nmプロセスへと移行
PDF版はこちら

TSMCのプロセス世代毎のエリアスケーリング
PDF版はこちら

　なぜ、こんな逆転が発生したのか。その背景には、いくつかの理由がある。もちろん、AppleがiPhone 6/6 PlusのためにTSMCの20nmの製造ラインが圧迫されていて、他社がラインを取りにくいという事情もある。でもそれ以上に、GPUでは20nmプロセスに移行する経済的な理由が薄いことが重要な要因となっている。

　GPUの場合、20nmプロセスに移行しても、当面はトランジスタ当たりのコストが下がらない。それは、ウェハをプロセッシングするコストや新プロセス開発のためのコストが20nmで上がったためだ。

　理想的なスケーリングは、プロセスドウェハコストを上昇させずにプロセスノードを移行させること。その場合は、ウェハのコストは同じで、トランジスタサイズが1/2になり、ウェハ当たりのトランジスタ数は2倍になり、トランジスタ当たりのコストが2分の1になる。タダで2倍の数のトランジスタが手に入る、フリーランチとなる。

理想的な半導体のスケーリング
PDF版はこちら

　実際には、過去数世代に渡って、プロセスドウェハのコストは上がり続けて来た。プロセス工程がどんどん複雑になって来たからだという。それでも、CMOSスケーリングの効果はウェハ当たりのコスト上昇を上回り、トランジスタ当たりのコストは下がり続けた。

プロセスドウェハのコストの上昇でプロセス移行の意味が薄れる

　しかし、これから先、プロセスの微細化で、ウェハ当たりのコストが急上昇するようになると、スケーリングでカバーできなくなる。もし、1世代の微細化でウェハ当たりのコストが2倍にまで増えるのなら、CMOSスケーリングで載せられるトランジスタ数が2倍になっても、コスト低減の効果は相殺されてしまう。実際にはそこまでは上がらないものの、GPUでは、トランジスタ当たりのコストが前世代に対して大きくは下がらなくなりつつある。

　そうなると、同程度のトランジスタ数のGPUなら、微細化してもコストがあまり下がらないことになり、微細化の意味がなくなる。そして、トランジスタ数を倍増させたチップを作ると、ダイ当たりのコストは、今までより大幅に増えてしまうことになる。トランジスタコストが上がっても、利幅の大きい高価格のチップはある程度は見合うが、経済性が重要なミッドレンジ以下のチップは微細化が見合わなくなる。

将来の半導体のスケーリング
PDF版はこちら

　GPUでは、現在、これに近いことが起き始めている。そのため、GPUは、20nmプロセスに移行しても、トランジスタ当たりのコストは当面はあまり下がらない。すると、無理に20nmプロセスに移行してダイサイズを抑えるより、28nmのままでダイを大型化して製造した方が経済的に有利になる。少なくとも、イールドが低い時期に無理をして20nmのダイをスタートさせる意味は薄い。ファウンドリは新プロセスの初期は高い料金設定をし、競争が激しくなった成熟プロセスは料金を引き下げる傾向があるため、旧プロセスの方がますます有利となる。

　こうした事情は、GPUだけでなく、モバイルSoCでも同じでは、と思うかも知れない。ところがそうではない。20nmプロセスでプロセスドウェハのコストが上がる主因は、配線層に「ダブルパターニング(Double Patterning)」を導入することにある。「LELE(Litho-Etch-Litho-Etch)」でリソグラフィとエッチングを2重に行なうダブルパターニングによって、バックエンドプロセスのスループットがガクっと落ちるからだ。ところが、ダブルパターニングによるコスト増の影響は、チップ種によって異なる。これは配線層の作り方が異なるためだ。

ARMが2012年のARM Techconで示したLELEダブルパターニングの課題

モバイルSoCとディスクリートGPUで異なる事情

　GLOBALFOUNDRIESのSubramani Kengeri(スブラマニ・ケンゲリ)氏(Vice President, Advanced Technology Architecture)は5月の来日時に次のように説明している。

「ディスクリートをGPUと見ると、1xの最も狭いメタルレイヤーを使っている層は6層から8層になる。20nmプロセスでは、これらの1xの層は、ダブルパターニングを使わなければならない。それに対してモバイルコンピューティング製品では、1xを使う層はたった2～3層だ。ダブルパターニングを使う層の数は、ディスクリートGPUに比べてモバイルコンピューティングの方がずっと少ない。そのため、コストについては、誰と話をするかによって、話が大きく異なって来る」。

　GLOBALFOUNDRIESは、20nmでのコスト増大を騒いでいるのはGPUだと指摘している。実際、この問題を一番声高に指摘しているのはNVIDIAだ。

　典型的なモバイルSoCやCPUでは、20nmプロセスでもダブルパターニングを必要とする最小ピッチは最下層のM1/M2/M3の3層に留まる。モバイルSoCはコストを下げるため、CPUでは抵抗が少なく低遅延の配線にするために、狭いピッチの配線層数を限定しているからだ。そのため、20nmプロセスのダブルパターニングによってバックエンドプロセスのコストがアップしても、3層だけなので、影響はある程度限定される。

モバイルSoCやCPUとGPUのメタル層の構成の違い
PDF版はこちら

　ところが、ディスクリートGPUではダブルパターニングを使わなければならないメタル層の数が極端に増える。GPUベンダーは、プロセスオプションの許す限り最小ピッチの層を増やす傾向があるからだ。典型的なGPUでは、配線層のうち、最下層から中層までの6層程度が最小ピッチであることが多い。極端な例では8層を最小ピッチにする場合があるという。そのため、GPUの方が20nmプロセスでのスループットの低下が激しく、プロセッシングコストが大幅に上昇する。

スローダウンする20nmへの移行

　こうした事情もありGPUでは20nmプロセスへの移行がスローペースとなっている。その結果、GPUは28nmプロセスに3年も留まることになり、アーキテクチャ拡張が制約されている。NVIDIAの場合は、もともとMaxwellで電力効率を高める予定だったが、それが幸いして、同じ28nmプロセスでも電力を下げながらパフォーマンスをアップすることに成功している。

Maxwellと前世代のKeplerとの比較
PDF版はこちら

　とはいえ、同じプロセスでダイを大型化してトランジスタ数を増やさなければならなかった。従来のプロセス微細化でダイサイズを一定に止めながらトランジスタ数を増やすというGPU進化とは明らかに違う道を着ている。下はAMDのGPUでのプロセス技術とアーキテクチャ拡張の流れだが、28nmプロセスで苦労していることが分かる。

AMD GPUのプロセス技術とアーキテクチャ
PDF版はこちら

　ちなみに、今回NVIDIAは、TSMCの28HPプロセスを採用したが、より高パフォーマンスな「28HPP」(次期PS4 APUがこれだと見られる)や高密度な「28HPC」、低電力な「28HPM」(モバイルSoCが多く採用している)を採用しなかった理由は分からない。28nmプロセスで行くのなら従来プロセスを変更しない方が、モジュールの流用の面で容易だと判断したためかもしれない。

（後藤弘茂 (Hiroshige Goto)E-mail）