後藤弘茂のWeekly海外ニュース

ZEN 2ベースの64コアCPU「Rome」はなぜCPUとI/Oを分離したのか

ZEN 2世代のRomeダイ

AMDだけでなくIntelもCPUとI/Oの分離を構想

 AMDは、7nmプロセスのZEN 2世代のCPU「Rome(ローム)」に、マルチダイのモジュラー設計を採用した。CPUをI/OダイとCPUダイに分割。CPUダイを先端の7nmプロセスで製造する一方、I/Oダイは成熟した14nmプロセスで製造する。

 64コアのRome CPUは、1個のI/Oダイと、8CPUコアを搭載した8個のCPUダイで構成される「MCM(Multi-Chip Module)」となっている。AMDは、CPUパッケージ内のモジュラー化されたダイを「チップレット(Chiplet)」と呼んでいる。

 従来にないマルチダイアーキテクチャのRomeだが、じつは、こうしたダイ分割の方向性自体は、ある程度予想されていた。AMDだけでなく、Intelも似たような構想を示しており、今後の先端プロセスのCPUでは、決して異例の構成ではなくなる可能性がある。それは、10nm以降のプロセスの特殊性にある。

Intelが昨年(2017年)発表した10nm世代のチップの方向性のスライド。AMDと同様にCPUなど高速ロジックを先端プロセス、I/Oなどを成熟プロセスを分けている

 7nmプロセス世代で顕著なのは、コスト上昇だ。最先端プロセス技術は、露光プロセスが複雑になっているため、プロセス済みウェハのコストは大幅に上昇している。下はAMDが「2018 Symposia on VLSI Technology and Circuits」のチュートリアルで示したコスト比較のスライドだ。

AMDが示したウェハのコスト比較。7nmで跳ね上がっている

 歩留まりを加味したコストを比較すると16/14nmプロセスノードに対して、7nmノードは2倍近いコストに膨れ上がっていることがわかる。45nmプロセス当時と比較すると4倍のコストだ。言い換えれば、16/14nmプロセスと同じダイサイズのチップの製造でも、7nmでは2倍のコストがかかるということだ。

 これは、よく言われる「ムーアの法則」の鈍化と結びついている。ムーアの法則は、2年ごとにチップに載せられるトランジスタ数が2倍になる、というものだが、実際には経済則の側面が強い。ウェハあたりのコストはほとんど変わらず、トランジスタ数が倍になることで、トランジスタあたりのコストが半減する。言い換えれば、プロセスの微細化によって、2倍の機能を同じコストで手に入れることができる。ところが、7nm世代では、コストが急上昇することで、ムーアの法則の経済則が崩れてしまっている。ここに問題がある。

複雑な露光工程がコストを押し上げる

 7nmプロセスでコストが跳ね上がるのは、それだけプロセス工程で無理をしているからだ。TSMCの7nmは、露光技術に既存のArFエキシマレーザー光源を使う。ArFは波長が193nmで、液体による屈折を利用して解像度を上げる液浸露光技術を使って、80nm以下、最小で76nmピッチまでのパターニングを可能にしている。

 逆を言えば、液浸のシングルパターニング(LE)では76nmピッチまでしか切ることができない。TSMCの7nmの場合、最小のメタルピッチ(配線間隔)は40nmなので対応できない。そのため、マルチパターニング技術を使ってさらに微細な加工を行なう必要がある。

露光装置メーカーASMLが示す光源と最小ピッチの関係
パターニング技術と最小ピッチの関係

 具体的には、もっともピッチがせまいトランジスタのフィンの生成には工程が非常に複雑な「SAQP(Self-Aligned Quadruple Patterning)」を使い、もっともせまいメタル層(配線層)には「SADP(Self-Aligned Double Patterning)」などを使う。

 こうしたマルチパターニング技術は、工程が複雑でありマスクも枚数が必要となる。マスクコストがかかる上に、マスクが増える分だけ歩留まりが低下する要因が増える。また、オーバーレイやCD(Critical Dimension)コントロールなどのプロセスコントロールも難しくなる。結果として、トータルの製造コストが押し上げられる。

マルチパターニング技術
PDF版はこちら
ArF光源の7nmプロセスではマスク枚数が激増してコストが上がることを示すASMLのスライド

 これが、現在の先端プロセスの抱える問題だ。もっとも、同じ7nmという名前のノードでも、EUV(Extreme Ultraviolet)露光になると、状況が変わる。マスク枚数が激減するため、原理的にはコストが下がり歩留まりも上げやすくなり、プロセスコントロールも容易になる。

 TSMCは次世代の7nm「7FF+」でEUVを採用するほか、SamsungがすでにEUV版7nmの生産を整えている。EUV版7nmでは、EUV装置自体が高価であるため、当初は装置の減価償却のコストを考慮する必要がある。しかし、長期的に見ると、EUV世代のほうがコストが下がる見込みだ。つまり、EUV版7nmプロセス移行は、ある程度コストが下がる。現在のArF液浸版7nmプロセスは、もっともコストの高いプロセスとなる。

各プロセスのフィーチャサイズの違い
PDF版はこちら

従来とは異なる7nmプロセスへの移行

 このように、7nmプロセスは非常に高コストであるため、今回のプロセス移行は、従来とは異なるパターンを取ることが予想されている。28nmプロセスまでは、新プロセスが導入されると、微細化によってトランジスタあたりのコストが大幅に下がるため、旧プロセスから新プロセスへの移行が急ピッチに進んだ。ファウンダリでは65nm→40nm→28nmと、世代が変わるごとにCPUやGPUは製品ラインすべてのプロセスが変わった。

各社のプロセスロードマップ
PDF版はこちら

 しかし、16/14nmプロセスへの移行では、ダブルパターニングとFinFETトランジスタの導入(ダブルパターニングは20nmから)のため、移行にやや時間がかかった。スマートフォンを見ればわかるとおり、フラグシップのモバイルSoCは28nmから20nm、そして14/16nmプロセスへと世代ごとに移行したのに、バリュークラスのモバイルSoCはしばらく28nmプロセスにとどまった。この傾向は、今世代ではますます強まることが予想される。

 現状では、業界の流れとして、プロセス技術は2方向の併走になりつつある。高コストでも見合うチップはトランジスタ密度の向上と電力の低減の利点を活かすために7nmプロセスに。その一方で、コスト意識のあるチップは成熟した16/14/12nmプロセスにとどまるという方向に分化しつつある。

 この事情は、相対的に利幅の高いPC&サーバー向けCPU/GPUにもある程度共通する。また、Intelの10nmの破綻の一因は、この問題を解決しようと、トランジスタ密度をより高める方向へと振りすぎた点にあると見られる。

製造コストを大幅に下げる7nmと14nmの分割

 AMDがRomeでCPUをチップレットに分割した最大の理由は、製造コストを下げることだ。そもそも、初代ZENベースのEPYCである「Naples」も、4個のチップレットに分割したモジュラー設計を採っている。AMDは、製造コストを単一ダイと比べて59%に抑えることができたと説明していた。Romeは、その戦略をさらに推し進めたコスト削減策となっている。

チップレットに分割することで製造コストを下げる

 CPUチップの機能ユニットのうち、微細化によってスケールダウンしないか、スケールダウンの効果が少ないものがある。その典型はI/Oのアナログ部だ。アナログ部は、プロセスがいくら微細化しても、コンポーネントの大きさが変わらない。しかも、CPUチップの上で、無視できないダイエリアを取っている。そんなアナログ部を含むI/O周りを、2倍のコストの7nmプロセスに載せるのは経済的には無駄となる。つまり、7nm世代になると、I/Oなどを載せるのは不経済なのだ。

 また、I/Oやメモリインターフェイスは、それぞれ異なる電圧でインターフェイス駆動する。そして、その駆動電圧は、通常、ロジックの駆動電圧よりも高い。微細化した先端プロセスは、高電圧には不向きで、設計上でも面倒が増えてしまう。とくに、信頼性を確保しようとすると難しい。I/Oやメモリインターフェイスは7nmに載せる意味合いが薄いことになる。

 こうした背景を考えると、ダイ上で大きな面積を取るI/Oやメモリインターフェイス、さらにそれらを接続するクロスバースイッチを、7nmプロセスではなく、成熟した14nmプロセスに持っていくという判断は納得ができる。14nmプロセスは成熟しており、コストが低く、歩留まりも高く、I/O周りの実装の実績もある。Intelが10nmでI/Oを分離するという構想を示した理由も、このあたりにあると推測される。

CPUダイを小さくすることで歩留まりも上げる

 Romeでは7nmで製造するCPUチップレットは、8個のCPUコアとキャッシュメモリ、そしてダイ間インターコネクトの「Infinity Fabric」を統合したものと見られる。CPUコアは、1個のCore Complex(CCX)にまとまっているのか、2個のCCXになっているのかはまだわからない。CPUコア自体はZEN 2で拡張されたが、それでもダイは小さく収まっている。

 7nmでは、プロセスが複雑化している分だけ、歩留まりを落とす要因が多い。ダイが大きなチップは、それだけダイ上に欠陥が含まれている可能性が高くなる。GPUのように、演算コアのうちある程度を無効にした製品化が一般的なチップはそれでも問題が少ないが、CPUでは問題が発生しやすい。とくに、AMDのように普及価格帯のサーバーやハイエンドデスクトップにも提供しようとしている場合は、歩留まりも考慮しなければならない問題だ。

 AMDのRomeのアーキテクチャでは、CPUチップレットのダイは非常に小さい。ダイが小さいほうが、1個のダイ上に欠陥が含まれる確率が減り、良品ダイの取れる数が増える。これも、コスト面では重要となる。