後藤弘茂のWeekly海外ニュース
AMDのCPU/GPUを加速するGLOBALFOUNDRIESの7nmプロセス
2018年7月4日 11:00
GLOBALFOUNDRIESの7nmプロセスがAMDを加速する
AMDで世界で初めての7nmプロセスGPUとして「Vega」アーキテクチャのGPUを投入しようとしている。すでに実チップはできあがり、サンプリング中で、年内にも正式にデビューする。AMDは、ライバルNVIDIAに先んじて、7nmのGPUを投入することになる。
ちなみに、NVIDIAは、元々の計画では10nmのGPUをVoltaに相当する世代で投入するはずだったが、12nmのVoltaへと切り替えた。AMDも12nmプロセスのGPUをメインストリームで投入する見込みだが、ハイエンドは7nmへと一歩進む。
半導体プロセス技術でリードしてきたIntelが10nmでもたついているときに、AMDが7nm GPUで先行する。数字の上では、AMDがIntelを追い抜くことになる。しかし、その背景には、AMDの7nmチップの製造を担当するGLOBALFOUNDRIESの7nmプロセスが、じつは、Intelの10nmよりも技術的に大人しいという理由がある。
7nmプロセス世代でさらに複雑化するマルチパターニング技術
半導体工程で微細加工を行なうパターニング技術にはいくつか種類がある。現状では、波長が193nmの短波長紫外線レーザー(ArFエキシマレーザー)を光源として使っている。193nmの波長で、40nmを下回るピッチの微細加工を行なうという、中華包丁でイカそうめんを切るようなことをやっている。
本来は波長の細い光源が必要なのだが、屈折と複数回のパターニングによって微細な加工を実現している。まず、液体による屈折で解像度を高める液浸露光(Liquid Immersion)によって、193nm ArFで、80nmピッチ程度まで加工可能にしている。さらに、パターニングを複数回行なうことで、より微細化加工を可能にするマルチパターニング技術が導入されている。
従来、1層の配線層(メタルレイヤ)の加工は、露光(Litho)-エッチング(Etch)を1回ずつ行なう「LE(Litho-Etch)」シングルパターニングで加工していた。80nm以下のピッチに対しては、まず、1レイヤに対して、露光-エッチングの工程を2回行なう「LELE(Litho-Etch-Litho-Etch)」ダブルパターニング(Double Patterning)が導入された。3回行なう「LELELE(Litho-Etch-Litho-Etch-Litho-Etch:LE3)」も現在は導入されている。さらに、4回のLELELELE(LE4)もある。LE系のマルチパターニング(Multi-Patterning)にもいくつか方式(LFLEなど)がある。
LE工程を複数重ねる手法とは異なるマルチパターニング技術もある。「自己整合ダブルパターニング(SADP:Self-Aligned Double Patterning)」技術で、サイドウォール技術とも呼ばれる。芯材と呼ばれる材料の両側にサイドウォールパターンを生成して、2本そろったラインを整形する。さらに、SADPを2回繰り返す「SAQP(Self-Aligned Quadruple Patterning)」がある。
両技術系統には一長一短がある。LELEでは、配線を曲げた2D配線パターンも生成できるが、対応できる配線間隔は60nm台までにとどまる。対して、SADPでは、基本は2本の線が等間隔で並ぶ1Dパターンとなり、配線の自由度が制限される。しかし、40nm台までの配線間隔に対応できる。半導体ベンダーでは、IntelがSA系技術を好み、SamsungがLE系を好む傾向がある。SamsungがEUVへの移行を急ぐのも、2DのLE系から移行しやすいのは2DのEUVという理由がある。
それぞれのパターニング技術によって、加工できるピッチがある程度決まる。80nmまではシングルパターニングのLEで、LELEで60nm台中盤まで、LELELEで50nm以下まで。SADPは、LEの半分の40nmまで、SAQPは20nm程度までとなる。現在、どのマルチパターニング技術を選択して配線アーキテクチャを組み立てるかが、各半導体メーカーで異なっている。その選択の差は、ピッチ幅と製造上の難度と関連する。
下層のメタルレイヤが大きく異なるIntelとGLOBALFOUNDRIES
メタルレイヤを見ると、Intelの10nmとGLOBALFOUNDRIESの7nmでは、ピッチがかなり異なることがわかる。FEOLのフィンの上、ゲートピッチを見ると、Intelが54nmに対してGLOBALFOUNDRIESは56nmとなる。ここは、10/7nm世代では54~56nmと、ほぼ決まっている。
興味深いのは、その上、MOLとBEOLの下層だ。最下層のM0は、IntelとGLOBALFOUNDRIESどちらもメタルピッチ(配線間隔)が40nmと同じだ。しかし、その上のM1がIntelは36nmピッチとせまくなっている。一方、GLOBALFOUNDRIESがゲートピッチと合わせた56nmとなっている。GLOBALFOUNDRIESはもっともせまいメタルピッチが、M0/M2/M3の40nmだ。最小メタルピッチ(Minimum Metal Pitch:MMP)が、Intel 36nm、GLOBALFOUNDRIES 40nm。この差は、じつは大きい。わずか4nmと思うかもしれないが、40nmを切るかどうかで、必要とされるパターニング技術が変わって来るためだ。40nmがマジックナンバーの1つだ。
また、エレクトロマイグレーション耐性と配線抵抗にも大きな影響がある。40nmと36nmでは10%しかピッチが変わらないのに、なぜ問題が大きくなるのか。それは、現在の配線材料である銅は、シリコンをコンタミネーションするため、銅の配線本体をカバーするように「ライナ(liner)」と「バリア(barrier)」を設けているからだ。これらが一定の厚みを取るため、実際の配線はより細ってしまう。
下は、GLOBALFOUNDRIESが昨年(2017年)の半導体学会「2017 Symposia on VLSI Technology and Circuits」のショートコースで示したスライドだ。ピッチがせまくなると、銅配線本体の占める比率が急速に低下することがわかる。そして、この問題がクリティカルになるのが、40nmピッチを切ったあたりからだと言われている。
IntelとGLOBALFOUNDRIESでマルチパターニング技術が異なる
では、Intelの10nmとGLOBALFOUNDRIESの7nmでは、各レイヤのマルチパターニング技術はどうなっているのか。これを色分けしてみたのが下の図だ。両社ともフィンにはSA系でマルチパターニング技術はSAQPを使っている。SAQPではサイドウォールでラインを形成したあと、そのラインにさらにサイドウォールを形成して4分割したラインを作る。SAQPはラインがきれいにそろうのでフィンの加工には向いており、EUVパターニングの導入後も、FinFETのフィンにはSAQPが使い続けられると見られる。
パターニング技術でIntelとGLOBALFOUNDRIESが大きく異なるのはメタルレイヤで、Intel 10nmはM0とM1にフィンと同じSAQPを使っている。そのため、工程が複雑で制約が多くなっている。SA系の工程の複雑度については、容易だと主張するIntelと、その見方に疑問をつける他ファウンダリで、意見が異なっている。
その上のレイヤは、M5までがSADPとなっている。対して、GLOBALFOUNDRIESの7nmでは、M0からM3までがSADPで、配線にはSAQPを使っていない。さらに、GLOBALFOUNDRIESのM4/M5はLEのシングルパターニングとなっている。
簡単に言えば、M5までの下層のメタルレイヤ(配線層)のパターニング技術については、Intelの10nmのほうがGLOBALFOUNDRIESの7nmより密だ。しかし、そのためにIntelの10nmのほうが、GLOBALFOUNDRIESの7nmより、製造上の複雑度が高い。GLOBALFOUNDRIESやTSMCが7nmで40nm メタルピッチまでに留めるのは、SADPで対応できる限界ピッチが40nmだからだ。配線にSAQPを使うことを避けたために、他社は40nmにそろった。
IntelとGLOBALFOUNDRIESの配線材料の違い
さらに、この違いは、よりクリティカルな配線の材料にもある程度影響してくる。ピッチがせまくなると、エレクトロマイグレーション(electromigration)が大きな問題となるためだ。配線を移動する電子によって、じょじょに金属原子が移動してしまうエレクトロマイグレーションによって、配線に欠損が産まれる。エレクトロマイグレーションは電流密度が高まると大きくなるため、配線が細くなると問題が増大する。
この問題を解決するため、Intelは36nmピッチの最下層の配線材料に、従来の銅ではなく新材料のコバルトを採用した。それに対してGLOBALFOUNDRIESの40nmのメタルレイヤは、材料としてはなじみのある銅のままだ。コバルト配線ではエレクトロマイグレーション耐性が改善されるが、その反面、抵抗は増える。コバルトのほうが銅よりも実際の配線ボリュームを増やすことができる(バリヤ/ライナの薄化)ため、その分抵抗を低減できるが、それでも抵抗は問題となる可能性がある。
ちなみに、GLOBALFOUNDRIESは、配線自体は銅のままだ。しかし、MOLのコンタクトにコバルトを使っている。また、GLOBALFOUNDRIESはSADP配線のライナなどにもコバルトを使っていると報じられている。GLOBALFOUNDRIESも、同様の問題に対処をしていることがわかる。しかし、配線材料自体をコバルトに変えてしまったIntelと比べると大人しい。逆を言えば、Intelの36nmピッチは、コバルト配線を要求するほどスペックが厳しいことになる。
製造上のハードルがIntel 10nmより低いGLOBALFOUNDRIES 7nm
ざっと概要を見ただけでも、Intelの10nmとGLOBALFOUNDRIESの7nmでは、製造の難度に大きな違いがあることがわかる。冒険的な印象が強いのがIntelの10nmで、より大人しいのがGLOBALFOUNDRIESの7nmだ。もちろん、実際の量産段階でGLOBALFOUNDRIESにも問題が発生する可能性はあるが、GLOBALFOUNDRIESの7nmのほうが製造のハードルが低いことは確かだ。
とはいえ、製造コストについては、また話が違う。GLOBALFOUNDRIESの7nmプロセスは、Intelの10nmと比べると確かに工程の複雑度は低い。これは、製造コスト面でもアドバンテージがあることを意味している。しかし、現在のGPUやCPUに使われてきている16/14nmプロセスと比べるとプロセスの複雑度はずっと高い。
たとえば、下の図はGLOBALFOUNDRIESの7nmのGP版と、TSMCの16nmのローコスト版の配線アーキテクチャを比べた図だ。実際には、TSMCでGPUを製造するプロセスオプションでは、中間の80nmピッチのメタルレイヤ数がずっと多いはずだ。おそらく、左側のGLOBALFOUNDRIESの7nmと同じ程度の80nmピッチ層をGPUでは使うと推測される。そのため、単純には比較できないが、M5から下のメタルレイヤは比較できる。M5から下のメタルピッチの違いは顕著で、TSMCの16nmではいずれもLELEで加工できる64nmピッチとなっている。GLOBALFOUNDRIESの7nmのほうが、マスク層数が多く、工程が多く、コストが高く、スループットが落ちる。マスク数が増えれば、歩留まりが低下する要因も増える。
TSMCの16nmとGLOBALFOUNDRIESの14nmは同世代のプロセスで、メタルピッチもある程度似通う。そのため、GLOBALFOUNDRIESのプロセス同士でも、14nmから7nmでは、マスク数と工程数が大幅に増える。プロセス済みのウェハ1枚のコストが、14nmより7nmのほうがはるかに高くなる。そのため、同程度のダイサイズ(半導体本体の面積)のチップのコストは、歩留まりが同等であっても上昇する。
マルチパターニングによる製造コスト上昇と歩留まりへの影響
最新プロセスのウェハ当たりの製造コストの上昇は、全体的な傾向で、そのため、16/14nmプロセスから10/7nmプロセスへの移行は、従来のように単純には行かない。コストが重要な製品は16/14nmプロセスにとどまり、高コストでも見合う製品から10/7nmプロセスへ移行することになる。また、GLOBALFOUNDRIESでは、中間世代となる10nmはスキップして7nmへと移行するため、顧客は14/12nmから7nmへと移行するか、14/12nmにとどまるかを選択することになる。
7nm版のVegaについて、AMDがGPUコンピュート/マシンラーニング向けの「Radeon Instinct」ラインの製品についてしか言及しない理由はこのあたりにありそうだ。プロセスの立ち上がり期は歩留まりも順調にはいかない。そのため、7nm Vegaは、当面はかなり高コストな製品となる。まずは、高付加価値で売ることができるRadeon Instinctに投入するというシナリオが考えられる。
AMDのCOMPUTEXでの発表会では、AMDのLisa Su(リサ・スー)氏(President and CEO, AMD)が、7nm GPUをゲーマー向けにも投入すると宣言した。しかし、その時期については、“stay tuned(乞うご期待)”と述べるだけで明確にしなかった。Vega 7nmは、グラフィックス向けブランドで登場するのは、Radeon Instinctよりある程度先になりそうだ。
そもそも、GPUコンピュート向けとグラフィックス向けの7nm Vegaが同じダイなのかどうかも、まだ明らかになっていない。AMDがNVIDIAのようにGPUアーキテクチャを、GPUコンピュート&マシンラーニング向けと、グラフィックス向け、それぞれに最適化した方向に切り替える可能性もある。7nm版Vegaの最上位が、GPUコンピュート&マシンラーニングに最適化したアーキテクチャになっている可能性だ。
しかし、AMDには現状では、それだけGPUのダイ種類を増やす余裕がないと推測される。とくに、7nmプロセスは、マスク枚数が多いため、マスクコストも跳ね上がり、ダイ種類を増やすとコストが大きく増える。NVIDIAの場合は、コンピュート向けハイエンドGPUビジネスが順調で、GPUのダイ種類を増やしても十分なリターンを見込むことができる。
しかし、AMDは、従来のように、1種類のダイで、グラフィックスとGPUコンピュート&マシンラーニングをカバーする路線である可能性が高いだろう。その場合は、7nmのVegaダイをグラフィックス向けとして早期に投入しない理由は、コスト的な問題である可能性が高い。
7nmの製造コストは、EUVパターニングが導入されると、マスク枚数と工程数の減少によって下がる。しかし、EUV露光装置自体の導入費用が高いため、償却にはしばらく時間がかかる。それまでは、7nmと16/14/12nmのプロセスの併存が続くことになるだろう。GPUについても、ハイエンドは8/7nmへと移行が進むが、メインストリームは12nmにしばらくとどまることになると予想される。
この傾向は、GPUだけでなく、モバイルSoCなど幅広い製品分野で同様の分化が起きると見られている。ハイエンド製品は先端プロセスに進むが、メインストリームとバリュー製品は成熟プロセスにとどまる傾向だ。つい最近まで、モバイルSoCは、ハイエンドが16/14nm→10nmと進んだが、メインストリームは16/14nmにとどまっていた。似たような現象が、より長期にわたって続くと推測される。こうした背景から、AMDはメインストリームには12nmのGPUを投入しなければならない。7nm GPUと12nm GPUの併走は必然と言える。
大容量キャッシュを実現できる小さなSRAMセルサイズ
そのほかのGLOBALFOUNDRIESの7nmプロセスの特徴としては、異なるしきい電圧(Vt)のトランジスタを作り分けるのに、ドーピングを使わない「multi-workfunction (multi-WF)」アプローチがある。この方式は、高いモビリティとVtのばらつきを抑制する効果があるという。
Vtばらつきが抑えられると、結果として、高クロック製品がより安定して取れるようになる。動作周波数が、低速なトランジスタに引っ張られて制約される要素が少なくなるからだ。しきい電圧は、通常のRVt(Regular Voltage Threshold)、低しきい電圧のLVt(Low Voltage Threshold)、さらにしきい電圧が低いSLVt(Super Low Voltage Threshold)、そして、HPC向けに提供されるXLVtの4種類だ。GPUの場合は、CPUほど高クロックはターゲットとしないため、高速だが電力の大きいXLVtは使わないと推測される。
SRAMセルの面積にはフィンピッチが大きく影響する。そのため、フィンピッチがせまいGLOBALFOUNDRIESの7nmのSRAMセルはエリアが小さい。6T SRAMでは、容量密度の高いHD(High Density)セルの面積が0.0269平方μm、性能の高いHC(High-Current)セルの面積が0.0353平方μmとなっている。14nmと比べるとHCは2倍の性能向上、HCは2倍以上の密度増加となっている。つまり、コアのレジスタやキャッシュはより高速に、大容量キャッシュはさらに容量を大きくできる。7nm世代のGPUでは、キャッシュも増量されそうだ。ちなみに、Intelの10nmのHDC SRAMセルのサイズは0.0312平方μmとなっている。
微細プロセスではビア(via)とコンタクト(Contact)のスペースが小さくなり、それが性能や信頼性の上で問題となっている。GLOBALFOUNDRIESの7nmでは、大きなビアやコンタクトもサポートできるようになっている。下の図は、高速SerDesのバッファで、通常サイズより大きなビアとコンタクトが生成される。