後藤弘茂のWeekly海外ニュース
2015年のGPUに影響するファウンダリの2年サイクル
(2013/4/25 12:46)
2年サイクルになったことでGPUのより大規模な刷新が容易に
GPUの製品刷新サイクルは、ファウンダリの半導体プロセスの微細化サイクルの変化のために、1年サイクルから2年サイクルへと変わった。ファウンダリは、通常は2年で約70%ずつの微細化サイクルに、中間のハーフノードを加えて、毎年約84%ずつの微細化を行なっていた。しかし、2008~2009年からは、ハーフノードをやめて、1世代置きの2年サイクルへと変えた。40nm以降は、40nm(2009年)→28nm(2011年)→20nm(2013年)と微細化しつつある。
約84%の微細化では同じダイサイズに載せることができるトランジスタ数は、ラフに言って84%の2乗の逆数で約1.4倍、それが約70%の微細化では2乗の逆数で約2倍となる。1年置きに1.4倍だったトランジスタ数増加のペースは、現在は2年置きに2倍となっている。
単純に言うと、GPUはかつては1年置きに比較的小幅な拡張を行なっていたのが、現在は2年置きに大幅な拡張を行なうようになった。1.4倍ではなく2倍のトランジスタ予算で、より長期間かけて設計できるため、アーキテクチャの変革の幅も大きくなる。
例えば、40nmから28nmで、AMDはVLIW(Very Long Instruction Word)からGCN(Graphics Core Next)へとアーキテクチャの大変革を行なった。また、NVIDIAも同じタイミングで、エリア最適化設計で高クロックのFermiから、電力最適化設計のKeplerへと大変革を行なっている。
サイクルは1年置きから2年置きへと鈍化したが、トランジスタの密度の向上は倍に増えたため、プロセスの移行期にはより大胆なアーキテクチャ変革が容易になった。例えば、AMDは40nmのVLIW4アーキテクチャのRadeon HD 6970(Cayman)から、28nmのGCNアーキテクチャのRadeon HD 7900(Tahiti)で、トランジスタ数を1.6倍に増やしたが、演算ユニット(Stream Processor)数は1.3倍にしか増えなかった。GCNへの移行でアーキテクチャが複雑になり、よりトランジスタが必要になったからだ。もし、これが40nmから32nmへの移行だったら、VLIW4からGCNで、演算ユニットの数を増やすことができなかっただろう。そうなると、GPUが世代交替しても実パフォーマンスの向上がほとんどなくなってしまう。
それを防ぐには、GPUダイ(半導体本体)をいったん大型化する以外になくなる。しかし、実際には40nmから28nmへのジャンプとなったため、GCN(Graphics Core Next)への移行でも、演算ユニット数も増やすことが容易になり、AMDは生演算パフォーマンスも上げることができた。2年サイクルは、新アーキテクチャへの移行を容易にする。
実際にはGPUアーキテクチャの基本的な変革は、それ以前から2年サイクルになっていた(NVIDIAではこれが顕著)のだが、プロセスの世代交替が2年サイクルになったことで、より鮮明になった。
2年サイクルに変則が入る2014~2015年
では、プロセスとアーキテクチャの変革の2年のサイクルは、今後も続くのか。答えはイエスでもありノーでもある。基本的には2年サイクルなのだが、まず、イレギュラーが入る。それは、20nmプロセスの後で、TSMCは16nm、GLOBALFOUNDRIESは14nmと呼ぶプロセスが来る。これらは、どちらも20nmプロセスのバックエンドをほとんど流用しながら、トランジスタを3D型のFinFETへと切り替えたプロセスだ。下のGLOBALFOUNDRIESのFinFET 14nm「14XM」の説明を見ると、それがよく分かる。チップコストと密度は、20nm相当になる。20nmの配線層を使うことで、FinFETへの移行を容易にすることが目的のプロセスだ。
そのため、16nm/14nmというノードの数字は、ある意味トリックとなっている。つまり、このFinFET世代のプロセスは、エリアスケーリング(チップ面積の縮小)よりFinFETによる電力削減とパフォーマンス向上にポイントを置いており、それをノードの数字に反映させたものとなっている。20nmから16nm/14nmへとノードの数字が小さくなっても、それはエリアスケーリングを示すわけではない。
TSMCが昨年(2012年)のARM Techconのキーノートスピーチで示した下のスライドでは、それが端的に示されている。このチャートでは、一番左は40nmで汎用向けの40Gと28nmでパフォーマンスモバイル向けの「28HPM」を比較、次に左から2つ目は28HPMと、20nmでモバイルにフォーカスした統合の「20SoC」を比較、3つ目は同じ28HPMとFinFETの「16FF」を比較、一番右は16FFと10nmの「10FF」を比較している。つまり、20nmと16nmは、どちらも28nmとの比較となっており、20nmと16nmは直接は比較していない。
図では、見て分かる通りチップサイズ比は、28nm HPMから20nm SoCと、28nm HPMから16nm FFの両方が同じ63%となっている。つまり、20nmと16nmで同じトランジスタ数ならチップサイズは変わらない。エリアスケーリングの効果はないことになる。28nmから20nmで、50%ではなく68%なのは、理論値ではなく現実的な数値がそのあたりということだ。
ちなみに、下は先週、米サンタクララで開催された半導体チップのカンファレンス「Linley Tech Mobile Conference 2013」でのGLOBALFOUNDRIESのスライドだ。これを見ても28nmから20nmへの微細化は45~50%のチップシュリンクなのに、20nmから14nmへは5%しかない。ほぼ同様となっている。
エリアスケーリングの利点はなくとも16nm/14nmではトランジスタの性能はFinFETへの移行で向上し、特に、低電圧時の性能が上がる。スピードとパワーは、28nm HPMから20nm SoCであまり向上しないのに、20nm SoCから16nm FFでより改善される。ハイエンドGPUでも、リーク電流(Leakage)が抑えられ、駆動電圧当たりの動作周波数が上がることで電圧を下げることが可能になるなど、利点が多い。そのため、アーキテクチャが20nm世代と同じGPUでも、16nm/14nmに移行するとパフォーマンスと電力効率の向上が期待できる。
3年間トランジスタ数を大きく増やすことができない
問題はファウンダリのロードマップでは、16nm/14nmと次の10nmプロセスの間は、再び2年近く期間が空くこと。GPUは、チップ面積を増やさない限り、同程度のトランジスタ数に留まる時代が3年ほど続くことになる。トランジスタ数が劇的には増えないため、この間の20~16nm/14nmの期間は、アーキテクチャ面での変革を行なうことが難しい。
これを時間軸で説明すると、今年(2013年)末から来年(2014年)にかけてNVIDIAもAMDも新アーキテクチャを投入する。この世代は、使えるトランジスタ数が倍になるため、大がかりな改革になる。NVIDIAだとMaxwellの世代だ。
次の2014~2015年に、今度は3Dトランジスタ化が行なわれ、性能/電力がアップする。NVIDIAのVolta(ボルタ)世代だと見られる。GLOBALFOUNDRIESの数値を見ると、20nmから14nmで電力効率は20%上がり、レイテンシは38%短縮されるとなっている。単純計算では、これで合計で50%近いパフォーマンス効率の改善となる。TSMCも同様だとすると、NVIDIAが目標とする2倍のパフォーマンス/効率アップがFinFET化だけで達成されることになる。
しかし、トランジスタ数があまり変わらないため、16nm/14nm世代ではGPU内部のアーキテクチャは、あまり変えることができない。次にアーキテクチャが大きく変わるのは、10nmプロセスのチップを出せるようになった2015~2016年の段階となる。
プロセス技術を見ると、GPUの内部アーキテクチャの今後の拡張時期は、ほぼ予想ができる。発展はリニアにはいかず、かなりデコボコがあることが分かる。もっとも、GPUを革新する要素はプロセス技術だけではない。同じマイクロアーキテクチャでも、メモリインターフェイスを大きく変えることで飛躍させることも可能だ。
実際、NVIDIAはVoltaでスタックドDRAMを採用する。2015~2016年で、JEDEC(半導体の標準化団体)がGDDR5の後継として押す新しいメモリ技術「HBM(High Bandwidth Memory)」が利用可能になるため、NVIDIAもAMDも、ハイエンドから対応すると見られる。メモリを大きく変革することで、ちょうどトランジスタ数がフラットになる時期のカンフル剤にすることができる。