後藤弘茂のWeekly海外ニュース
NVIDIAのVolta GV100をアクセラレートするTSMCの12nm
2017年11月17日 11:00
中間プロセスの12nmと22nmがカギとなるTSMCロードマップ
ファウンダリ最大手の台湾TSMCは、10月24~26日に米サンタクララで開催されたARMの技術カンファレンス「ARM Techcon 2017」で、アグレッシブなプロセスロードマップの説明を行った。明瞭になって来たのは、従来のプロセスノードの移行の間に、中間のノードが挟み込まれるようになったことだ。TSMCの場合は、16nmと10nmの間に12nmが挟み込まれ、28nmと20/16nmの間に22nmが挟み込まれた。12nmと22nmはそれぞれ異なるタイプの派生だが、どちらもメジャーノードからの派生という点では変わらない。12nmは16nmから、22nmは28nmから派生している。
TSMCの12nmには、現在知られている限り、3種類がある。現在すでにデザインインしている12FFCと、NVIDIA向けのカスタマイズ版12FFN、そして、ローパワーの12ULPだ。12nmの12FFCは、16nmの16FFCに対して、ダイエリアが20%減るとされている。また、同電力なら、性能も10%上がるとされているが、これは消費電力の低下分を周波数アップに回すためだとみられる。
TSMCの12nm 12FFNは、NVIDIAの最新GPU「Volta(ボルタ)」アーキテクチャの「GV100」に採用された。GV100は、210億トランジスタを搭載したモンスタGPUで、FP16の深層学習性能は120TFLOPSに達する。Voltaの高性能の源泉は、TSMCのコンデンスな12nmプロセスにある。
従来の微細化からトレンドが変わった
従来のプロセス微細化では、トランジスタのゲートの間隔である「ゲートピッチ(Gate Pitch)」または「CPP (Contacted Poly Pitch)」と、メタル配線の最狭のピッチ「ミニマムメタルピッチ(Minimum Metal Pitch:MMP)」を小さくすることで、トランジスタ面積とロジックセル、SRAMセルの面積を縮小してきた。しかし、現在は、CPPとMMPのスケールダウンだけでは、十分な回路密度やSRAM密度の向上が図れなくなりつつある。微細化のペースが落ちつつあることと、フィーチャサイズを縮小しただけでは実際の回路を同じペースで縮小できなくなってきたためだ。
そのため、半導体メーカーは、CPPやMMPといったフィーチャサイズ以外の要素で回路密度を高める方向へと転じている。そのカギとなるのは、スタンダードセル設計の変革で、「Design-Technology Co-Optimization (DTCO)」などと呼ばれる。
昨年(2016年)のARM Techconでは、DTCOのために、以前だったら笑い話にしかならなかったアイデアが、選択肢として浮上している、と説明していた。例えば、セルの中にコンタクトを取る時に、従来はアクティブゲートの上に取らないことが鉄則だった。そのために、アクティブデバイスのないデッド領域が必要だった。しかし、現在は、コンタクトをアクティブトランジスタの上に取る技法も、Intelなどが「Contact Over Active Gate」として採用している。その分、デッドスペースが減るので、セルサイズを小さくできるが、製造時に問題が発生する可能性が増える。
また、隣り合ったデバイスを分離する「Diffusion Break(ディフュージョンブレイク)」のスペースを狭くすることで、セルサイズを小さくする技法「Single Diffusion Break(SDB:シングルディフュージョンブレイク)」も、現在の焦点の1つとなっている。ディフュージョンブレイクでは、隣り合ったソースとドレインの間にトレンチ(溝)を掘ることでトランジスタを分離する。従来は、2個のダミーゲートの間を切る「Double Diffusion Break(DDB)」が一般的だった。しかし、Samsungが14nmで1個のダミーゲートの下で切るSDBを導入した。
隣り合うセルのトランジスタの間は、これまでダミーゲート2個分のスペースを空けなければならなかった。それが、SDBによってダミーゲート1個分で済むようになった。SDBはDRAMでトレンチの経験が深いSamsungが先行したが、他社もすぐに追従している。この他にも、従来はスタンダードセルの上下に配置されていたパワーレイルを、セルにオーバーラップさせるアーキテクチャなども、導入されつつある。
スタンダードセルを6Tに小型化した12nmプロセス
ファウンダリは現在、プロセスが成熟するに従って、より小さなセルハイトのライブラリへと比重を移し、加えて回路設計によるセル縮小技術を導入しつつある。セルライブラリを9トラック(9T)や7.5トラック(7.5T)から、6トラック(6T)へと移行させる。そして、SDBのような技術を導入して、さらにセルを小さくする。
そこに、マーケティング上の思惑が重なって、プロセスのノードの数字も変えようという話になった。結果として、16nmのプロセステクノロジをベースとしながら、より小さなセルを使うことで、“12nm”相当と名乗るプロセスができあがった。もちろん、12nmでは、プロセス自体にも改良が加えられているが、回路密度の向上の多くはセルアーキテクチャの変更によるものだ。
具体的には、TSMCの16FF/16FF+では、9Tと7.5Tのスタンダードセルライブラリがファウンダリから提供されていた。それが、16FFCでは7.5Tライブラリが基本となった。そして、12FFCではさらに6Tライブラリの提供となった。また、16FF+からGPU部などに部分的に導入されたSDBも、12FFCでは標準的に使われるようになった。
後発のプロセスほど低いセルハイトのスタンダードセルが主流になって行く一因は、プロセスの改良によりフィンあたりの電流駆動強度が高まって行くためだ。フィンの駆動能力が高まれば、同じフィン数なら性能が向上するし、フィン数を減らしても一定の性能を保つことができる。そのため、トランジスタあたりのフィン数が少ない、低いハイトのスタンダードセルアーキテクチャへと移ることが可能となる。
一方、SDBのようなアグレッシブな設計技術は、プロセスの成熟度と関連してくる。DTCOによるアグレッシブな設計は「Design For Manufacturing (DFM:製造性考慮設計)」と相反する場合が多い。プロセスが成熟して安定した方が、新設計の導入が容易となる。そのため、16nmプロセスの成熟・改良とともに、スタンダードセルの小型化が進むことになる。
スタンダードセルアーキテクチャ以外の差は小さい12nm
このように、スタンダードセルのセルハイトとアーキテクチャを変えることで、TSMCはスタンダードセルの平均サイズを小さくし、実質的な回路密度を向上させた。16FFCに対して12FFCでは10数%のエリア縮小になるとされている。また、消費電力も16FFCに対して下がり、電力削減分を性能に回せば性能もアップする。そのほとんどは、スタンダードセルアーキテクチャによるものだ。
言い換えれば、16FFCと12FFCでは、スタンダードセル以外では、差はそれほど大きくはないという。「何をベースに比較するかにもよるが、同じトラックハイト(のセルライブラリ)を使って比較するなら、(16FFCと12FFCで)それほど性能は変わらないだろう」とArmでフィジカルIPを担当するKelvin Low氏 (Vice President of Marketing, PDG (Physical Design Group),Arm)は語る。
TSMCは、6Tライブラリでの、素の16nmプロセスに対しての密度向上率を、プロセスノードの数字に換算すると、12nm相当になると考えたようで、6Tライブラリのプロセスに12nmを冠した。この流れなら、16FFCも“14FFC”と名付けられてもよさそうだったが、その時は、まだマーケティングの数字のマジックを思いつかなかったと見られる。
TSMCが6T SDBライブラリ利用プロセスに“12nm”というラベルをつけたことで、状況が動いた。ほかのファウンダリも一斉にラベルの付け替えを始めた。GLOBALFOUNDRIESは12nm(14nmからの派生?)を、Samsungも11nm(14nmからの派生)と8nm(10nmからの派生)を発表。数字の上での戦争を始めている。また、TSMCは、12nmだけでなく、28nmの派生IoT(The Internet of Things)向けプロセスに22nmと名前をつけた。プロセスノードの数字が氾濫するようになった理由は、こうした事情にある。
GPUには利点が多い12nmプロセスの6Tライブラリ
もちろん、スタンダードセルの小型化にはトレードオフがある。低いセルハイトのライブラリは、通常は性能が下がる。そのため、6Tハイトのライブラリは、高クロックCPUには使いにくい場合が多いとみられる。SDBも、性能に影響すると言われている。
「ファウンダリの6トラックのライブラリは、非常に小さくていいように聞こえる。しかし、実際にはいくつか考慮しなければならない点がある。まず、6Tライブラリでは、性能が落ちてしまう。セルが小さくなるため、自然なことだ」(Kelvin Low氏,Arm)
しかし、GPUのように、動作周波数はそれほど高くは求めないが、演算コアの密度が重要となる製品には、小さなスタンダードセルが最適となる。極限までセルを詰め込むことができるため、膨大な並列演算が可能となる。NVIDIAがVolta(ボルタ)アーキテクチャの「GV100」にTSMCの12nmプロセス「12FFN」を採用したのはそのためと見られる。ちなみに、12FFNはNVIDIA向けカスタマイズプロセスとされており、NVIDIA向け以外の12nmは12FFCとなる。
NVIDIAは、Voltaアーキテクチャで、膨大な量のFP16演算を行なうテンサーコアを導入した。その結果、ディープラーニングで多用するFP16性能は120TFLOPSクラスへ飛躍している。GV100ではGPUのダイサイズも815平方mmと極限まで巨大化している。しかし、従来のセルライブラリでは、この演算性能をこのサイズに押し込むことはできなかっただろう。
こうして見ると、NVIDIAのVoltaの異常な深層学習における性能は、TSMCの“12nm”プロセスあっての成果だったことがわかる。Voltaは、ロジックセルの小型化の恩恵を受けている。当然、NVIDIAのライバルであるAMDも同じことを考えるはずだ。AMDの製造上のパートナーであるGLOBALFOUNDRIESが、12nmプロセスを打ち出してくる理由も見えてくる。概要は明らかにされていないが、GLOBALFOUNDRIESの12nmも、TSMCの12nmと似たようなプロセスと推測される。
AMDの場合、GPUとCPUを統合したAPU(Accelerated Processing Unit)はどうなるのか。6TライブラリでCPUコアも設計ができるのか。セルライブラリベースの最適化の利点は、ユニットによってスタンダードセルのセルハイトを変えることができる点だ。もし、CPUコアに6Tが不向きだったとしても、CPUコアに7.5Tセル、GPUコアに6Tセルといった設計分けも可能だ。実際のAPUでは、GPUコアの方がロジックセルの面積がCPUコアよりずっと大きいため、6Tセルで利点は大きくなるはずだ。
TSMCは、12nmはもともとモバイルやIoTなど低電力を求める市場を考えていたといわれる。しかし、NVIDIAがGV100を開発するにあたって、10nmでは大型チップはリスクが大きく、16nmでは求める性能がダイサイズの限界に収まらないことから、12nmを使うことになったと言われている。結果として12nmはGPUなどの並列プロセッサでの優位を発揮し、これは業界全体の潮流になりそうな気配がある。