後藤弘茂のWeekly海外ニュース
AMDアーキテクチャの変化の原因となった7nmプロセスの特性
2019年7月31日 11:15
7nm世代では徹底してダイサイズを抑えるAMD
ファウンドリの7nmプロセスでは、CPUやGPUのダイサイズは小さくなる傾向にある。AMDの7nmプロセスのRyzen/EPYC CPUでは、8個のCPUコアを載せたCPUダイである「CCD」のダイサイズはわずか74平方mm。同じく7nmのGPU「Navi10」ではダイサイズは251平方mmと従来のハイエンドGPUの半分強のサイズ。少なくともAMDは、7nmではプロセッサのダイを小さく止めている。
理由は明瞭で、それだけ7nmプロセスの製造コストが高いからだ。AMDは、半導体学会「IEDM(IEEE International Electron Devices Meeting)」や「VLSI Symposia」で、7nmプロセスのコストの高さを指摘してきた。
AMDは、250平方mmのダイの場合、歩留まりを加味した7nmプロセスのチップの製造コストは16/14nmの2倍弱、28nmに対しては2倍を大きく越え、40nmに対しては4倍のコストだと説明していた。
こうした製造コスト比較の試算はソースによって若干の違いがあるが、10nm以降のプロセスでコストが急上昇するという観測は共通している。
たとえば、6月の「2019 Symposia on VLSI Technology and Circuits」でimecが示したコスト試算は下のようになる。imecなので、厳密に各層のコストを積算してプロセスノードごとのウェハコストを比較している。
これを見ても、16/14nm以降のコスト上昇がいかに激しいかがよくわかる。imecでは、7nmプロセスでは、28nmプロセスに対して約2倍以上のウェハコストと見積もっている。AMDの見積もりのコスト上昇のほうが高いのは、さらに250平方mmクラスの大型ダイのコストで見ているためだ。ダイが大きくなると、ダイ上に欠陥が含まれる確率が増え、歩留まりが落ちて、さらにコストが上がる。そのため、imecの示すウェハレベルのコストとは差異がある。
配線工程のコストが膨れ上がった7nmプロセス
なぜ7nmでは、ここまで急にコストが上がったのか。VLSI Symposiaで、imecは各プロセスの工程部分ごとのコストの比率も示した。
半導体チップは、最下層がトランジスタ生成などの工程で「FEOL(Front End of Line:基板工程)」と呼ばれる。配線層(メタルレイヤー)はその上に構築され、「BEOL(Back End of Line:配線工程)」と呼ばれる。
さらに、現在のプロセスでは、FEOLとBEOLの間に、「MOL(Middle Of the Line)」と呼ばれる工程が挟み込まれている。より微細で複雑になったFEOLとBOELの間をつなぐための新しいレイヤーだ。MOLのために、現在はメタルレイヤーに、新たにM0レイヤーが組み込まれている。
imecの発表によると、MOLがなかった28nmでは、コストのうち4割弱がトランジスタ回りのFEOLで残りが配線のBEOLだった。BEOLのコストは、まだそれほど支配的ではなかった。しかし、20nmではMOLのコストが加わり、BEOLのコストも増えた。BOELのコスト上昇は配線にダブルパターニング技術が加わったためだ。
28nmから20nmのコスト増は、ほぼMOLとBOELの部分の増加によるものだ。露光ツールメーカーのASMLによると、28nmプロセスでは最下層のM5までの配線層の露光は6ステップだった。それが、20nmでは8ステップに増えている。
次の14nmは、20nmとコスト差が小さい。これは、20nmと14nmでは、MOLとBEOLのコストがほぼ同じであるためだ。14nmでは、FinFET 3Dトランジスタを導入したFEOLのコストだけが増えている。20nmから14nmの差は、ほぼトランジスタ側のFEOLのコスト増だ。
14nmから10nmではFEOLコストは微増でMOLはほぼ同じ、しかしBEOLが大幅にコストが増えた。これは、配線がダブルパターニングで対応できなくなり、より複雑な配線工程となったためだ。20nmの8ステップに対して、10nmでは23ステップに露光ステップが一気に増えたという。露光ステップは半導体ベンダーによってかなり異なるので、これの数字は例に過ぎないが、10nmで激増することは間違いがない。
そして、10nmから7nmでは、FEOLは微増だが、MOLが一気に増え、BEOLも大幅にコストアップした。MOLの部分が7nmではぐっと難しくなっており、BEOLの複雑度はさらに増えている。ASMLのスライドでは、露光ステップは10nmの23ステップに対して、7nmでは34ステップに増えるという。
結果として、7nmプロセスでは、BEOL+MOLのコストがFEOLのコストの3倍弱にまで占めるようになっている。7nmプロセスでは、MOLも含めた配線層側のコストが全体の4分の3くらいになり支配的になっている。
もっとも、これは液浸多重露光の7nmプロセスの場合の話だ。同じ7nmでも、SamsungのようにEUV露光を使う場合は、すべてシングルパターニングで済むためステップ数が極端に少なくなる。ただし、EUV装置がきわめて高価格(FabもEUV対応の施設を新設する必要がある)であるため、EUV関連の設備の償却を考慮する必要があり、ステップ数だけで単純にコスト比較ができない。少なくともEUVへの移行の初期は、コストは下げにくい。
いずれにせよ、現在の液浸露光7nmプロセスは非常に高コストなプロセスとなっている。ウェハレベルのコストで比較すると28nmプロセスの2倍、14/16nmプロセスの1.6倍。そして生産するダイが大きくなるほど、不良が含まれる可能性が高くなるためチップのコストが上がる。AMDの主張する、250平方mmのチップを製造する場合は、7nmは14nmの2倍弱のコストになるという試算も、大げさではない。
コスト面の制約に大きく影響されるプロセッサ設計
7nmプロセスにはこうしたコスト面の重大な足かせがあるため、7nm世代のチップアーキテクチャは、プロセス技術の特性を意識した路線にせざるを得ない。そして、それはAMDに見えるように、プロセッサによって大きく異なる。AMDの戦略を一言で言えば、CPUはモジュラー戦略、GPUはダイ面積効率アップ戦略だ。
ウェハ当たりのコストが急上昇する状況でコストを抑えるには、まず、高コストな7nmプロセスで製造するダイ面積を小さく抑えることが必要となる。
よりアグレッシブな方法は、チップをモジュラー化して小型なチップレットダイにすること。この手法ではダイの歩留まりも大幅に高めることができる。もう1つは、モジュラー化せずにダイ面積当たりの性能効率を高めることで、マイクロアーキテクチャを刷新して効率を高める。
AMDの場合、CPUがモジュラー戦略、GPUが性能/ダイ面積アップ戦略となっている。CPUではチップをモジュラー化して、チップレットでダイを小さくすることで歩留まりを上げ、I/O回りはコストの低い14nmプロセスで製造することで、トータルのコストを抑えるというものだ。
従来、AMDのハイエンドCPUは300平方mmダイのダイサイズ、メインストリーム向けのCPUやAPU(CPUコアとGPUコアを統合したプロセッサ)は200平方mm台だった。それが、14nmのZen世代では、CPUもAPUも210平方mm台となった。CPUは2ダイや4ダイをオンパッケージで接続することを前提にダイを小型化した。
そして、Zen 2ではCPUチップは完全にモジュラー化され、CPUコア部分はチップレットに分離された。8 CPUコアとキャッシュ階層だけのチップレットのダイは、面積が74平方mmとなった。14nmのCPUの約3分の1のサイズであり、小型ダイの強味で歩留まりは高くなった。
その一方で、プロセス微細化でスケールダウンしないアナログとI/Oパッドを含むI/O回りは別ダイとなり14nmプロセスに留められた。AMDは、CPUについては、こうしてダイレベルの分離によるモジュラー化によってコストを抑えた。これは、現在大型プロセッサベンダーが進めているモジュラー化の路線に沿った対策だ。
まだモジュラー化ができないGPUはアーキテクチャ改良へ
モジュラー化したCPUに対してGPUでは、AMDは別な路線を取った。GPUダイのサイズは、14nmのハイエンドであるRadeon RX Vega64(Vega10)が486平方mmに対して、7nmプロセスのグラフィックス向け製品であるRadeon RX 5700XT(Navi10)は251平方mm。半分近くにまで縮小しているが、それでも、14nm世代のCPUより大きい。ダイサイズは抑えたものの、CPUのように7nmで製造しなければならないダイを劇的に抑えたわけではない。CPUのようなマルチダイのモジュラー構成への切り替えは行なわなかった。
AMDにおいて、CPUとGPUではアプローチが異なるのは、CPUとGPUのプロセッサとしての特性の違いと、ダイ間インターコネクト技術の制約によるものだ。CPUは必要とするデータ帯域がGPUほど広くないため、チップレットへの分割が容易だ。
しかし、GPUのようなデータ帯域を必要とするプロセッサのマルチダイ化では、ダイ間インターコネクトの電力消費は大きな問題となる。インターコネクトの伝送エネルギーを、1pJ/bit(picoJoule/bit)以下に抑えることが強く求められる。
1pj/bitなら、片方向1TB/sのデータ帯域でも、計算上は片方向で8.4W、双方向で16.9Wにまでピーク電力を抑えることができる。おそらく、1pJ/bitでもエネルギーが多すぎ、1pJ/bit以下に持って行くことが最終的には求められるだろう。現状では、このスペックを許容できるコストで実現することは難しい。
となると、残された道は、単体ダイを維持しながら、ダイサイズをできるだけ抑えながら性能を引き上げることだ。具体的には、アーキテクチャ面を改良することで、ダイ面積あたりの性能を向上させる。額面上のピークのFLOPS値を上げるだけでなく、命令発行効率などを上げることで、実効性能の向上を図る。また、7nm化によって電力消費が抑えられる分を、動作周波数の引き上げに使う。
AMDが7nm世代のGPUから採用した「RDNA」アーキテクチャの特性は、まさにこうした部分にフォーカスされいる。RDNAが、7nm以降の高コストなプロセス世代の必然から産み出されていることがわかる。