後藤弘茂のWeekly海外ニュース

2016年はGPUにとって4年振りのアーキテクチャ刷新の年

16/14nm FinFET 3Dトランジスタへの移行でジャンプ

 GPUは、長いトンネルを抜け出そうとしている。今年(2016年)、GPUは16/14nm FinFET 3Dトランジスタプロセスへと移行する。4年もの間28nmプロセスで足踏みをしていたGPUは、16/14nmで一気に進歩する。新プロセスによって、トランジスタ数の増加によるアーキテクチャ拡張と、トランジスタのリーク電流(Leakage)の低減による低消費電力化の両方を実現できる。久々の大変革の年となる。

 しかし、新プロセスノードへの移行は、GPUにとってチャレンジでもある。それは、トランジスタあたりのコストの上昇を招く危険があるからだ。20nm以下のプロセスでは、露光プロセスのコストが上がるため、従来のGPUの物理設計ではチップのコストが跳ね上がってしまう。

各社のプロセス技術ロードマップ
PDF版はこちら

 そのため、16/14nmプロセスでは、さまざまなレベルでの工夫が必要となる。GPUメーカーは、16/14nm FinFET世代の設計について明らかにし始めており、その中にはGPU向けプロセスの肝となる配線層の最適化も含まれている。従来のGPUに採用していた配線プロセスオプションを使うと、16/14nm世代のGPUは製造コストが膨れ上がってしまうからだ。

4年の間、28nmプロセスで足踏みを続けていたGPU

 高性能GPUは、過去4年間、2012年から2015年まで、同じ28nmプロセス世代での製造に留まってきた。プロセスの改良、設計やアーキテクチャの改良はあったものの、ベースとなるプロセスノードは28nmのままだった。チップを製造するファウンダリ側は、28nmの2年数カ月後には20nmプロセスを立ち上げ、その1年後には16/14nmプロセスを立ち上げていたのに、GPUは28nmのままだった。これには2つの理由がある。

GPUのダイサイズとプロセス技術の変遷
PDF版はこちら

 まず、28nmから従来のプレーナトランジスタのまま微細化した20nmプロセスは、GPUにとって魅力的なプロセス技術ではなかったこと。GPUメーカーは、一時は20nmで製品計画を立てていたが、これを取りやめている。一方、16/14nm FinFETプロセスは、立ち上がり当初の製造ラインは全てモバイル製品に振り分けられ、GPUは使うことができなかった。チップを製造するシリコンファウンダリが、新プロセスでは、まずモバイル向けを優先しているためだ。

 そのため、2014年に市場にモバイル製品が出荷された20nmは、高性能GPUには採用されなかった。2015年にモバイル製品が出荷された16/14nmも、GPUでは2016年になって適用されることになった。こうしたずれ込みの結果、GPUは28nmからの移行に、4年以上もかかることになってしまった。

GPUアーキテクチャのサイクルに影響を及ぼすプロセスサイクル

 これまでのGPUの進化の道筋をプロセス技術で見て行くと、非常に興味深い。特に、AMDでは顕著だ。かつて1年で半世代プロセスが微細化していた時代には、GPUの進化は極めて順調だった。1年毎にプロセスが微細化されると、トランジスタ数を増やしてアーキテクチャを拡張した。アーキテクチャをあまり拡張しない時は、ダイを小さくして製造コストを下げた。Radeon HD 5870(Cypress)までは、このペースで1年サイクルで順調に進んでいた。

 ペースが狂い始めたのは40nmプロセスだった。ファウンダリが32nmプロセスをスキップしたことで、GPUは40nmプロセスで2年間製造されることになり、AMDは同じ40nmでアーキテクチャを拡張するため、GPUのダイサイズを大型化した。40nmから28nmプロセスに移行した時は、トランジスタを大幅に増やしながらダイを若干縮小して、再びアーキテクチャを拡張した。GCN(Graphics Core Next)アーキテクチャに移行したのは、まさにこの28nmのタイミングだった。

プロセス技術とGPUサイクル
PDF版はこちら

 だが、それから4年、AMD GPUもNVIDIA GPUと同様に28nmプロセスで足踏みをせざるを得なくなった。そこで、AMDは、GPUのダイを352平方mmから438平方mm、そして586平方mmへとどんどん大型化した。最新のRadeon R9 Fury(Fiji)では586平方mmの巨大ダイとなり、トランジスタ数は28nm世代の最初の頃と比べて倍増した。ライバルのNVIDIAも、ハイエンドのGeForce GTX Titan X(GM200)のダイは601平方mmで同列に並んでいる。誰がどう見ても限界に近い状態だ。

GPUにとって16/14nmプロセス移行の最大の壁はコスト

 16/14nmプロセスは、GPUにとって4年ぶりの技術の大躍進となる。微細化するだけでなく、トランジスタが従来のプレーナからFinFETになることで、GPUには大きな利点がある。演算回路の密度の高いGPUにとって、FinFETによる低電力化は利点が大きい。利点も多いが、チャレンジも多い。最大の壁はコストだ。

 半導体のプロセス技術が微細になるにつれて、トランジスタあたりのコスト(CPT:Cost Per Transistor)が相対的に上がって行く。この問題については、ここ数年議論があった。NVIDIAは2011年に、この問題の口火を切った。同社は、28nm以降はプロセス済みウェハのコストが急上昇するため、トランジスタコストが前世代プロセスよりも下がらなくなる可能性があると指摘した。その後、多くのチップベンダが同様にトランジスタあたりのコスト上昇を訴えた。

 プロセス技術は、微細化することで、同じダイ面積により多くのトランジスタなどを搭載できるようになる。理想的には、1世代で2倍のトランジスタを載せられるようになり、加工済みウェハのコストは前世代と同程度で、トランジスタあたりのコストは半減する。

 しかし、現実には、世代毎にプロセスコストが上がり、プロセスの開発コストも上昇するため、トランジスタあたりのコストは世代毎に約70%程度にしか下がらない。そして、20nm以下のプロセスでは、コストの上昇が急峻であるため、前世代よりトランジスタあたりのコストが下がらなくなってしまうことが懸念されていた。

プロセス済みウェハのコストが上昇すると、トランジスタあたりのコストが下がらなくなる
PDF版はこちら

トランジスタコストが下がるかどうかの議論

 この議論には2つの対立する意見がある。IPベンダーのARMなども、20nm以降のプロセスのトランジスタあたりのコストが下がるには時間がかかると見て、28nmプロセスがミッドレンジ製品では継続すると想定した製品戦略を取った。それに対してIntelは、同社のプロセスについては、14nm以降は、従来よりもコスト/トランジスタの低減率が急激になり、よりコストが下がると主張する。

20nm以降のプロセスのトランジスタあたりのコストは、しばらくは28nmプロセスよりも下がらないと想定しているARM
トランジスタあたりのコストはより下がって行くと予想するIntel

 Intelのコストダウンの論拠は、コスト上昇分を相殺できるほど、トランジスタ密度を上げることができるという点にある。逆を言えば、トランジスタ密度をIntelほど上げることができなければ、トランジスタあたりのコストの低減が鈍化する可能性がある。ここが、現在、議論が大きく分かれているポイントで、Intelは、エリアスケーリングの面では、ファウンダリのプロセスはIntelに大幅に遅れを取っていると主張している。

 上のスライドは、Intelが昨年(2015年)のInvestor Meetingで公開したものだ。Intelプロセスはフルチップで見た場合、プロセスノードとともに面積が急激にシュリンクして行く。それに対して、ファウンダリのプロセスは、TSMCとSamsungのどちらも縮小度が低い。そのため、コストダウン効果が薄いと見ている。ちなみに、ファウンダリプロセスで20nmと16/14nmのフルチップ面積がほとんど変わらないチャートとなっている根拠は、ファウンダリプロセスでは、20nmと16/14nmでは、配線層がほとんど同じだからだ。

各社のプロセス技術のゲートピッチ(ゲート間隔)とメタルピッチ(配線間隔)の比較
PDF版はこちら

 それに対して、ファウンダリ側は、いずれも、Intelが主張するほど差は開いていないとしている。下は半導体装置メーカーのASMLのスライドだが、TSMCの主張するエリアスケーリングが盛り込まれている。トップ半導体メーカーは、いずれもコスト/トランジスタを継続して下げることが可能としている。

 現在の半導体業界全体の見通しは、以前ほど悲観的ではなく、20nm以降もトランジスタあたりのコストは、従来より時間はかかるものの、一定レベルまで下がると見られている。ただし、ここには条件がある。それは、コストアップの要因を減らすこと。その点でGPUの16/14nmプロセスへの移行には、ハードルがある。従来通りのGPUの配線層の構成を取った場合、FinFETプロセス世代では、GPUはCPUやSoCよりもコストが上がってしまうからだ。

(後藤 弘茂 (Hiroshige Goto) E-mail