後藤弘茂のWeekly海外ニュース
プロセスとセルの両方をスケールダウンする現在の半導体微細化
2020年1月31日 11:00
プロセス微細化とセルスケーリングを組み合わせる
今後のCMOS半導体のプロセススケーリング(微細化)は、実際にはプロセス自体の微細化だけでなく、「DTCO(Design-Technology Co-Optimization:設計とテクノロジの協調最適化)」を加えることで成り立つ。DTCOでは、ロジックセルやSRAMセルの設計を、プロセス技術とともに最適化することで、セル自体の面積を縮小する。セルを縮小する「セルスケーリング(Cell Scaling)」で、鈍化したプロセスの微細化を補い、ムーアの法則に近いスケーリングを実現する。
たとえば、ロジックセルなら、おもに「セルハイト(セルの高さ:Cell height)」を小さくする。セルハイトによってロジックセルの大きさが左右されるが、セルハイトは最下層のメタル(配線)トラック数で表される。スタンダードセルが、9本のメタルトラックを配置できるセルの高さなら、9トラック(9T)セルと呼ばれる。
従来は、9トラック(9T)のスタンダードセルで設計していたユニットを、7.5トラックのセルに移行させると、それだけでセルの面積が83%に縮小する計算になる。さらに、6.5トラック、6トラック、5.5トラック、5トラックとセルの高さを縮めて行くと、ロジックセルはさらに縮小し、同じダイエリアにより多くのセルを詰め込んでトランジスタ密度を高くすることができる。この路線の最終的に行き着く先は、トランジスタの積層化で、最終ゴールには、nmosトランジスタとpmosトランジスタの積層という荒技がある。
ここで課題は、DTCOを導入してスタンダードセルの面積を縮小しながら、トランジスタ性能を保つことだ。現状では、高性能のロジック部分では、セルスケーリングを押し進めることが難しい。たとえば、性能を重視するAMDのCPUなどでは、スケーリングが緩いのは、セルスケーリングが効いていないためだと推測される。AMDの場合、GPUコアも高周波数に振っているため、GPUコア部分のセルも相対的に大きいと推測される。
セルハイトが高いと、高性能な回路を作りやすく、セルハイトを低くすると、性能は抑えられるが省電力省エリアの回路となる、というのが、これまでの常識だった。しかし、プロセスの微細化の半分はセルスケーリングで実現する時代になったため、今後は、セルを小さくしても性能を維持できることが求められるようになる。それが可能なら、たとえば、3nmでは7nmの4倍の数のCPUコアやGPUコンピュートユニットを搭載できるようになる。256コアのサーバーCPUなどが登場できるようになる。
FinFETではトランジスタ性能の向上でセルスケーリングを実現
20nmあたりまでのCMOSスケーリングでは、プロセスが微細化すると、デバイスのフィーチャサイズが小さくなり、連動してスタンダードセルも小さくなった。同じ12トラックや9トラックのスタンダードセルの面積が、1世代プロセスが微細化すると50%に縮小した。しかし、現在のCMOSスケーリングは、フィーチャサイズの微細化が緩いため、プロセス微細化だけではスタンダードセルエリアは50%/世代に縮小しない。面積では、60%台から70%台の縮小率の計算となる。
現在の半導体ファウンダリの戦略は、プロセス微細化プラスセルスケーリングで、実質的なスケーリングを実現しようというものだ。セル面積がスケールダウンすれば、単位面積あたりのトランジスタ密度が高くなる。
実際には、この流れはFinFET 3Dトランジスタになったときからはじまっている。FinFETでは、プレーナFETと比べると、チャネルの駆動能力が高いため、チャネル幅を狭くすることが可能となった。その分、セルハイトを小さくしてセルスケーリングを実現できた。今後は、DTCOを組み合わせることで、さらにセルスケーリングを実現する。
28nmプロセスでセルスケーリングを試みたAMD
じつは、AMDは、すでに5年も前にセルスケーリングによってCPUコアを小さくする設計上の試みを行なったことがある。28nmのBulldozer(ブルドーザ)系アーキテクチャのCPUコア「Excavator(エキスカベータ)」だ。Carrizo(キャリゾ) APUに搭載されたExcavatorコアは、同じ28nmプロセスのSteamroller(スチームローラ) CPUコアと比べると、ダイエリアが23%も小さくなっている。
AMDは28nmプロセスでは、CPUコアは12トラックのスタンダードセル、GPUコアは9トラックのスタンダードセルで設計していた。最高クロックを狙うCPUには、もっとも性能の高いライブラリを選択していた。それに対して、GPUコアには、動作周波数よりも密度を高めて演算ユニット数を増やす方が重要という考え方から、9トラックセルを採用していた。AMDはCarrizo APUでは、この考え方を捨てて、CPUコアであるExcavatorも、GPUと同じ9トラックセルを使って設計した。
AMDは、Carrizoをまずモバイルで投入、セルハイトを下げたことでモバイルの周波数&電力帶で競争力を上げた。当初はモバイルフォーカスとしていたが、高周波数のデスクトップ版はあとから投入している。ライブラリを9Tにしたことで、周波数の引き上げにある程度苦労したことがうかがえる。28nmの成熟で、9トラックでもある程度の性能を引き出せるという判断だったと推測される。
16/14nmプロセスからはファウンダリのプロセスはFinFET 3Dトランジスタとなった。FinFETプロセスでは、ハイパフォーマンスセルライブラリは従来の12トラックから10.5トラックになり、さらに9トラックセルも性能が必要とされるエリアで使われるようになった。そして、もっとも高密度のライブラリは、従来の7トラックよりもさらに小さな6トラックが登場した。
FinFETでセルハイトが縮んだのはトランジスタが3D構造となり駆動能力が上がったため、従来より狭いチャネル幅で高性能のセルを作ることができるようになったためだ。しかし、FinFETでは、チャネルがフィンという粒度を持つため量子的(離散的)にチャネルの幅が増える「Width Quantization(幅量子化)」と呼ばれる事象が発生した。これが、6トラック以下の小さなセルでは問題となり、DTCOに絡んでくる。もっとも、幅量子化は次のナノシートトランジスタになると解決する。
Finとメタルのギア比と量子化
FinFETプロセスのスタンダードセルでは、トランジスタのFinのピッチが重要となる。正確には、Finとメタル(配線)ピッチの比率「ギア比」が重要となる。それによって、スタンダードセルのなかに、何個のFinを配置できるかが決まってくるからだ。たとえば、TSMCの16nmプロセスやSamsung/GLOBALFOUNDRIESの14nmプロセスでは、メタルピッチ(配線間隔)が64nmで、Finピッチ(フィン間隔)が48nmだ。すると、各スタンダードセルの中に配置できるトランジスタのFinの数は下のようになる。
左から2つ目の9トラックのセルの場合、12個のFinを配置できる。左のブルーがメタル(配線)で、右のパープルがFinだ。9ラインのメタル(配線)に対して、Finは12ラインが並ぶ。そして、パープルのFinのうち色が濃いものが、実際にトランジスタとして使うことができるアクティブFinで、薄い色のFinは使うことができないダミーFinだ。
見るとわかるように、9トラックのセルでは、pmosとnmosがそれぞれ最大4Finずつ使うことができる。中央に2FinがダミーFinとなっているのは、そこにゲートコンタクトを配置するためだ。最少の6トラックセルになると、アクティブFinは2個ずつ、合計で4Finとなる。Fin数という量子化要素によってセルの設計が決まっている。
DTCOが必須となる6トラックセルのスケールダウン
現在、高密度のスタンダードセルのセルハイトは6トラック。この先の課題は、6トラックよりもさらにセルハイトを小さくする設計と、6トラックでゲートピッチとメタルピッチをスケールダウンした場合の設計になる。6トラックセルをさらに縮小したプロセスで設計することも、じつはかなり難しい。なぜなら、ゲートコンタクトを配置できるスペースがなくなってしまうからだ。
セルのなかでは配線層からコンタクトを配置しなければならないが、小さくなった現在のセルではその配置が非常に難しい。従来なら、6トラックセルなら、下の図のようにダミーフィンの上にコンタクトを並べて配置することができた。しかし、ゲートピッチ(ゲート間隔)が狭くなると、コンタクト間が近接し過ぎて並べて配置することができなくなる。この問題は、別なM0メタル(配線)にコンタクトを配置して、コンタクトをずらして配置することで解決ができる。
ところが、ゲートピッチ(ゲート間隔)とメタルピッチ(配線間隔)がさらに狭まると、1トラックずらしてもレイアウトできなくなる。その場合、メタルとFinのギア比にもよるが、コンタクトをアクティブゲート、つまり、アクティブなFinのすぐ近くに配置することで解決できる場合がある。Samsungが「CB on RX Edge」と呼んでいるDTCO技術はこれだと思われる。
よりアグレッシブな解決策は、コンタクトをアクティブゲートの直上にも配置できるようにすることが。Intelが「Contact Over Active Gate」と呼び、Samsungが「CB on RX」と呼んでいるDTCO技術で、これが可能になると、コンタクトは事実上どこにもでもレイアウトできるようになる。
性能を維持または高めながらセルハイトが小さなスタンダードセルを実現しようとすると、このようにDTCO技術が欠かせない。DTCOを使うことで、6トラックセルで、nmos/pmosそれぞれ2Finの合計4Finを維持できる。さらに、アクティブFin数を保ちながら、ダミーFinを減らすことも可能で、それによってセルハイトをさらに小さくすることが可能になる。
実際、Intelの場合は、10nmで「Contact Over Active Gate」を使っているのだが、アグレッシブで、スタンダードセルの中でアクティブFinの数を増やすために使っている。つまり、セルハイトを縮めても性能を高く保つためにDTCOを採用している。セルスケーリングと性能の維持という課題に、Intelは先に取り組み始めていたことになる。しかし、Intelの10nmは、アグレッシブなプロセス微細化と盛りだくさんのDTCOによってうまく立ち上げることができなかった。このあたりに、現在の半導体スケーリングの難しさがある。
ちなみに、もう1つの解決策があり、それは、思い切ってアクティブFinを各1個にしてしまうことだ。ダミーFinを4個分コンタクトスペースとすれば、配置ができる。しかし、その場合には、トランジスタの駆動能力は2Finの半分になってしまう。CPUやGPUに使えるとは思えない。