後藤弘茂のWeekly海外ニュース

AMD、7nmで最大64コアの「ZEN2」とNVIDIA Voltaを上回る「Radeon Instinct M60」

7nmプロセスで次の地平に

 AMDは、米サンフランシスコで新製品についての技術カンファレンス「Next Horizon」を開催、7nmプロセス世代のCPUとGPUの概要を明らかにした。7nmプロセスのGPU「Radeon Instinct MI60」は現在サンプリング中で、今四半期中(2018年第4四半期)に出荷の予定。7nmプロセスの「ZEN2」ベースCPU「Rome」は、現在サンプリング中で2019年に出荷の予定だ。

 どちらも、TSMCの7nmプロセスで製造。プロセスを微細化するだけでなく、アーキテクチャも大きく拡張する。AMDは、CPUとGPUともにライブデモを行ない、製品化が順調であることを強調した。また、AMDは7nm+プロセス(EUV版7nmとみられる)で次世代Radeon Instinct GPUと次世代CPU ZEN3を開発中であり、さらにその先のZEN 4などの製品の開発も平行して進んでいることを明らかにした。

 今回のNext Horizonというイベント名は、AMDのCPU/GPUが次の地平にさしかかるという意味合いがある。そのカギとなるのは、プロセス技術だ。イベントロゴには、7nmの“7”の数字が隠されている。世界初の7nmプロセスのx86 CPUと、世界初の7nmプロセス高性能GPUをAMDが提供するからだ。

AMDの今回のNext Horizonのイベントロゴ。Zの文字に7の数字が隠されている

 AMDを率いるLisa Su氏(President and Chief Executive Officer, AMD)は、7nmプロセスの製品群によって、データセンタ市場にトータルにコミットすると強調する。7nmプロセスによって、より多くのトランジスタをチップに積むことが可能になり、AMDはCPUとGPUの性能を大幅に伸ばす。

7nmプロセス技術の採用が今回のAMDのカギだ
14nmから7nmへの移行によってトランジスタ密度は2倍に、消費電力は0.5倍に、同じ電力あたりの性能は1.25倍以上になる。

 ここで重要となるのは、ライバルのIntelが、新世代の10nmプロセスの量産で問題を抱えており、AMDがプロセス技術で先行していることだ。AMDのMark Papermaster氏(Chief Technology Officer and Senior Vice President Technology and Engineering, AMD)は、「7nmは競合(Intelの)10nmとラフに言って同じ程度のディメンションだが、われわれの方が先行している」とプロセス技術面での優位を唄う。AMDがプロセス技術でIntelに先行するという、かつてない逆転現象が起きている。この絶好の好機に、AMDは勢いづいている状況だ。

Intelの10nmプロセスの立ち上げより先行することを示すAMDのスライド
AMDのMark Papermaster氏(Chief Technology Officer and Senior Vice President Technology and Engineering)

1ソケットで最大64コアとなるZEN2 CPU

 ZEN2のRomeでは、1ソケットでCPUコアは最大64コア、128スレッドとなる。つまり、CPUコア数は、現在のEpycの2倍となる。さらに、ZEN2でCPUコアのマイクロアーキテクチャも改良される。とくに浮動小数点SIMD(Single Instruction, Multiple Data)演算では、現在の128-bit幅から256-bit幅に拡張される。それに合わせてロード/ストアユニットのデータパスも256-bit幅となる。つまり、浮動小数点演算については、CPUコア当たりのピーク性能が2倍となる。

分岐予測なども強化
浮動小数点SIMD(Single Instruction, Multiple Data)パイプは2倍の幅となり、スループットは2倍に
ZEN2のフィーチャ

 CPUコア数が2倍になり、コア当たりの浮動小数点演算性能が2倍となるため、単純計算ではソケット当たりの浮動小数点演算性能はピーク4倍となる。「浮動小数点演算の性能はダブルのダブルだ」とLisa Su氏(President and Chief Executive Officer, AMD)は語る。また、AMDはZEN2では分岐予測なども強化、IPC(Instruction-per-Clock)を引き上げる。さらに、アーキテクチャ上のセキュリティホールである「Spectre」にもハードウェアで対応する。

Lisa Su氏(President and Chief Executive Officer, AMD)

 AMDはZEN世代のCPUでは複数のダイを組み合わせるマルチダイ構成を取る。ZEN2世代でもマルチダイを継続する。しかし、ダイの構成は大きく変わる。7nmプロセスで製造したCPUコアのダイと、14nmプロセスのI/Oダイの組み合わせとなる。パッケージ上に1個のI/Oダイが配置され、その左右にCPUダイが配置される。CPUダイは各ダイが8CPUコアの構成。ZEN2ベースのRomeの64コア構成では、8個のCPUダイが配置される。

Romeの構成

 I/Oダイが分離され14nmで製造されるのは、今後の先端プロセスでは高電圧のI/Oの搭載が難しいからだ。配線が細くなるため、エレクトリマーグレーション耐性が低くなる。I/Oでは、PCI ExpressがRomeからGen4サポートとなる。AMDは、Romeを現在のEpycプラットフォーム互換と、次世代のMilanプラットフォーム互換の2つの方法で提供する。

NVIDIAのVoltaに対抗する7nmのRadeon Instinct MI60

 7nmプロセスでは、GPUの方が先に出荷される。イベントでAMDのGPU技術を統括するDavid Wang氏(Senior Vice President of Engineering for the Radeon Technologies Group at AMD)は、「世界で最初の7nm GPU」だとRadeon Instinct MI60を強調した。

 出荷秒読み状態に入っているRadeon Instinct MI60は、Vegaアーキテクチャの拡張版だ。現在の14nmのVega10よりダイは小さいが、演算性能ははるかに高くなる。FP64とFP32では、PCIe版のNVIDIAのTesla V100を上回るとAMDは説明する。また、マシンラーニング向けの機能拡張もなされている。

14nmのVegaと7nmのVegaの比較
Radeon Instinct MI60のフィーチャ

 メモリはHBM2で4スタックを搭載する。メモリインターフェイスは4096-bitとなり、メモリ帯域は1TB/secとなる。メモリ容量は32GB。また、インターフェイスはPCI Express Gen4となり、さらに、Infinity FabricによってGPU同士を接続できる。GPU同士の接続帯域は1リンクあたり100GB/secとなる。

1TB/secのメモリ帯域と32GBのメモリ帯域を実現
GPU同士の接続が可能
David Wang氏(Senior Vice President of Engineering for the Radeon Technologies Group at AMD)
4個のGPUカードをInfinity Fabricのブリッジで接続

プロセス技術でIntelに先行するAMD

 AMDは今回、プロセス技術でIntelに先んじることができた。これは、ファウンドリのプロセスが、Intelに先行しているためだ。Intelが10nmの本格量産に苦しんでいる間に、ファウンドリは7nmを立ち上げつつあり、TSMCは7nmの本格量産を成功させてしまった。

 ほんの3年前までは、Intelがプロセス技術のリーダシップを握っており、先端プロセスの導入において1世代から1.5世代先んじていた。しかし、Intelの10nmプロセスのまさかのつまづきによって状況は一変した。今や、TSMCがIntelを追い越し、Samsungも追い越そうとしている。

 もっとも、プロセスのノードの数字だけを見ていると状況を見誤ってしまう。現在、Intelと他社のプロセスのノード名とフィーチャサイズにはずれが生じているためだ。実際には、Intelの10nmプロセスは、TSMCの7nmプロセスよりもタイトで製造が難しいプロセスとなっている。EUV(Extreme Ultraviolet)露光を使うSamsungの7nmプロセスとほぼ同等だ。

社のプロセス技術の比較。指標となるミニマムメタルピッチ(最小配線間隔:Minimum Metal Pitch)とコンタクテッドゲートピッチ(ゲート間隔:Gate pitch/CPP)、それにフィンピッチ(フィン間隔:Fin Pitch)を比べている
PDF版はこちら

 TSMCは、7nmノードで2つの異なる種類のプロセスを提供する。現在は、既存の193nm短波長紫外線レーザー(ArFエキシマレーザー)によるマルチパターニング露光プロセスの7FFの量産を行っており、今後、EUV露光版の7FF+へと移行する。Intelの10nmもArF版だ。

 AMDが使っているTSMCの7FFとIntelの10nmを比較すると、TSMCの7FFはミニマムメタルピッチ(最小配線間隔:Minimum Metal Pitch:MMP)が40nm、コンタクテッドゲートピッチ(ゲート間隔:Gate pitch/CPP)が54nm。それに対してIntelの10nmは、ミニマムメタルピッチ(MMP)が36nmで、ゲートピッチが54nm。Intelの方がメタルピッチが狭い。

3社の7nmとIntelの10nmは、スペック的にかなり近い。GLOBALFOUNDRIESの7nmはキャンセルとなっている
PDF版はこちら

 このようにフィーチャサイズで比較すると、ほぼ同等だがやや緩いTSMCの7FFが、Intelの10nmに先行したという構図となる。

よりハードルが高いIntelの10nm

 TSMCが7nmを比較的スムーズに立ち上げる一方、Intelが10nmプロセス量産で苦しんでいるのは、簡単に言えばTSMCの7FFよりもスペックがきついためだ。複数の原因が重なっていると言われるが、大きな要因の1つは配線ピッチの狭さにある。TSMCの7nmは、現時点の技術上で無理をしない配線アーキテクチャとなっているため、Intelに先んじて本格量産が可能となっている。

 TSMCは7FFの量産プロセスの配線レイヤについて詳細を公式には発表していない。非公式なものは報道されているが、公式には2年前のテストチップのものしかない。TSMCは2016年12月のIEDMで、7nmプロセスのSRAMテストチップの配線層は公表している。この時のスペックは以下のとおり。

・1X ピッチがM0からM4
・1.9XピッチがM5からM9
・3.1XピッチがM10
・18XピッチがM11-M12

 TSMCの7nmでは、最小配線間隔である「Minimum Metal Pitch」は40nm。なので、1Xが40nm、1.9Xが76nm、3.1Xが124nm、最上位の18Xが720nmのピッチとなる。もちろん、ロジックの製品版の配線層アーキテクチャはこれとは異なるものになる可能性があるが、下層の配線はそれほど変わるとは思えない。これを、公表されているIntelの10nmと、キャンセルになったGLOBALFOUNDRIESの7nm HPC向け配線と比較すると下の図のようになる。

Intelの10nmとTSMCの7nmテストチップと開発中止となったGLOBALFOUNDRIESの7nm
PDF版はこちら

 実際には各メタルレイヤは、配線の高さ(厚み)もそれぞれ異なり、ピッチの広い配線ほど配線の厚みも高くなる。しかし、上の図は高さは考慮していない。メタルとゲートの部分については、ピッチだけの比較となっている。ピッチの違いだけを感覚的に掴みやすいように、簡略化した図だ。

 IntelとTSMCでは、最下層のM0レイヤは、どちらもメタルピッチ(配線間隔)が40nmと同じだ。しかし、その上のM1がIntelは36nmピッチと狭くなっているが、TSMCは40nmとなっている。36nmと40nmのわずか4nmの差はじつは大きい。40nmを切るかどうかで、必要とされるパターニング技術が変わって来る上に、エレクトロマイグレーション耐性と配線抵抗にも大きな影響が出るためだ。

下層のメタルピッチの比較
PDF版はこちら

銅配線の抱える問題

 40nmと36nmでは10%しかピッチが変わらないのに、なぜ問題が大きくなるのか。それは、現在の配線材料である銅は、シリコンをコンタミネーションするため、銅の配線本体をカバーするように「ライナ(liner)」と「バリア(barrier)」を設けているからだ。これらが一定の厚みを取るため、実際の配線はより細ってしまう。この問題を解決するために、IntelはM0とM1にはコバルト材料を配線に導入した。しかし、コバルト配線では配線抵抗が銅配線より上がってしまう。これが問題を引き起こしている可能性があると言われている。

メタルピッチと配線に占める実際の配線部分の比率

 また、IntelはM0とM1には製造工程が複雑な「SAQP(Self-Aligned Quadruple Patterning)」を導入している。40nmピッチは、製造工程上でもマジックナンバーで、40nmを切ると製造工程の複雑度が増える。

露光技術の簡単な比較
PDF版はこちら
各露光技術で製造が可能なピッチ
PDF版はこちら

 こうして概観すると、Intelは10nmプロセスで無理をし過ぎていることが推測できる。Intelはこのほかにも「Design Technology Co-Optimization(DTCO)」と一般に言われる、回路設計と結びついた最適化でもアグレッシブなアプローチを取っている。今回は、高難度に挑んだIntelが量産でもたつき、適切な難度のプロセス技術としたTSMCに遅れを取った形となっている。

 プロセス技術のリーダシップの逆転の影響は大きい。Intelの力の源はプロセス技術のリーダシップであり、他社よりも微細化したプロセスによって、優れたアーキテクチャのチップを投入することができた。しかし、現状は、プロセス技術の優位が失われており、CPU/GPU市場では、AMDがひたひたと迫って来ている。今後は、さらにプロセス開発の難度が上がるため、プロセス技術のリーダシップがどうなって行くか不鮮明だ。今回のAMDの発表は、まさにそうした状況を象徴するものとなっている。

各社のプロセス技術のラフなロードマップ
PDF版はこちら