福田昭のセミコン業界最前線
AMD、最新CPUコア「Zen 5」と「Zen 5c」の技術概要をISSCC 2025で発表
2025年2月25日 06:35
AMDは最新のCPUコア「Zen 5」と「Zen 5c」の技術概要を国際学会「ISSCC 2025」で2025年2月17日(米国太平洋標準時)に発表した(講演番号および論文番号2.1)。「Zen 5」と「Zen 5c」はZenアーキテクチャによる第5世代のCPUコアであり、過去の世代と同様にCPUコアの数や種類を変更することで、モバイル(クライアントのノートPC)向け、デスクトップ(クライアントのデスクトップPC)向け、サーバー向けへとプロセッサ製品を展開している。
モバイル向けはZen 5コアとZen 5cコアを混載するモノリシック構成
モバイル(ノートPC)向けのプロセッサ「Ryzen AI Mobile Processors」はモノリシックのシングルダイである。シリコン面積を全体としては小さく、そしてパッケージを小さく、薄くするためにシングルダイ構成を選択した。
同プロセッサは4つの「Zen 5」コアと8つの「Zen 5c」を混載しており、高性能コアと高効率コアの組み合わせによって負荷の大小に効率的に対応可能なヘテロジニアスマルチコア構成(いわゆるビッグリトル構成)を採る。両コアのIPC(サイクル当たりの命令処理数)、ISA(命令セットアーキテクチャ)、SMT(同時スレッディング)処理は共通である。ベクトル命令セット「AVX512」をサポートしており、256bit幅の浮動小数点(FP)処理ユニットを備える。
各コアは1MBの2次キャッシュを備える。3次キャッシュは共有キャッシュで、Zen 5サイドが16MB、Zen 5cサイドが8MBである。なお「Ryzen AI Mobile Processors」のマイクロプロセッサが搭載する「Zen 5」コアの面積はデスクトップ向けの87%、「Zen 5c」コアの面積はデスクトップ向けの64%とかなり小さい。製造技術はTSMCの4nm バルクCMOS FinFET技術である。
デスクトップ向けがZen 5世代で最大の動作周波数を達成
デスクトップ向けのプロセッサ「Ryzen Desktop Processors」は、すでに述べたようにチップレット構成を採る。最大2個の演算用ミニダイ「CCD」と1個の入出力用ミニダイ「IOD」を同じパッケージ基板に並べている。演算用ミニダイ「CCD」は8個の「Zen 5」コアを内蔵するので、プロセッサ全体では最大で16コアとなる。
デスクトップ向けの動作周波数は最大で5.7GHzとモバイル向け、サーバー向けと比べても高い。デスクトップ用アプリケーションを動作させるときのIPC(サイクル当たりの命令処理数)は、前世代品と比べて約16%向上した。ベクトル命令セット「AVX512」をサポートしており、512bit幅の浮動小数点(FP)処理ユニットを備える。
キャッシュは各コアが1MBの2次キャッシュを備えるほか、32MBの共有キャッシュを搭載する。また3次キャッシュのミニダイを貼り付けることで、キャッシュ容量を拡大できる(「3D V-Cache」と呼称)。貼り付け用ミニダイ(L3D)のキャッシュ容量は64MBとかなり大きい。
製造技術はCCDが4nmプロセス、IODが6nmプロセスである。いずれも製造はTSMCが担当する。パッケージは前世代のZen4プロセッサと同じ「AM5」(LGAパッケージと対応ソケットの組み合わせ)である。
サーバー向けはZen 5コアのミニダイとZen 5cコアのミニダイを個別に用意
サーバー向けのプロセッサ「EPYC Server Processors」も、チップレット構成を採用した。複数の演算用ミニダイ「CCD」と1個の入出力用ミニダイ「IOD」を同じパッケージ基板に並べている。
演算用ミニダイ「CCD」は2種類ある。8個の「Zen 5」コアを搭載した「スケールアップ(Scale Up)」と呼称するCCDと、16個の「Zen 5c」コアを搭載した「スケールアウト(Scale Out)」と呼称するCCDである。
「Zen 5」コアのCCDは最大動作周波数が5.0GHz、コア数が最大8コア、2次キャッシュがコアごとに1MB、共有の3次キャッシュが32MB(コア当たり4M)という構成になっており、最大で16個のCCDによるサーバーシステムを構築できる。
最大構成でのコア数は128コアであり、SMT対応なので256スレッドの同時スレッディングを実行できることになる。製造技術は4nmのバルクCMOS FinFETプロセスである。
「Zen 5c」コアのCCDは最大動作周波数が3.7GHz、コア数が最大16コア、2次キャッシュがコアごとに1MB、共有の3次キャッシュが32MB(コア当たり4M)という構成になっており、最大で12個のCCDによるサーバーシステムを構築できる。
最大構成でのコア数は192コアであり、SMT対応なので384スレッドの同時スレッディングを実行できることになる。製造技術は3nmのバルクCMOS FinFETプロセスで、「Zen 5」コアのCCDよりも微細化された。
デスクトップ向けとサーバー向けでZen 5コアCCDを共用
Zen 5コアCCDは、デスクトップ向けとサーバー向けで同じCCDを利用する。このことは生産数量の増加につながり、製造コストの低減に寄与する。この考え方は前世代のZen 4以前から採用されており、チップレット構成による最大のメリットだと言える。
デスクトップ向けとサーバー向けで違うのは、パッケージ基板に搭載するCCDの数である。デスクトップ向けは最大でも2個のCCDであるのに対し、サーバー向けは最大で16個のCCDを同じパッケージ基板に載せる。パッケージに内蔵させるZen 5コアの数および実際の動作/非動作によって演算処理性能を変えている。
Zen 4のマイクロアーキテクチャを数多く改良
Zen 5コアのマイクロアーキテクチャ開発では、パイプラインのスループットを高めて演算性能を向上させつつも、消費電力とシリコン面積の増加を抑えるというバランス調整を重視した。
分岐予測機構の改良、フロントエンドにおける並列処理の強化、命令のフェッチとデコードに充てるパイプの倍増、サイクル当たりのマイクロ演算数を6(Zen 4)から8に増加、整数演算ALUを4個(Zen 4)から6個に増加、浮動小数点演算のデータパス幅を256bit(Zen 4)から512bitに拡大、浮動小数点演算レジスタ数の倍増、アウトオブオーダー実行のスケジューリング機能を強化、浮動小数点加算命令のレイテンシを最小で2サイクルに短縮、などだ。
キャッシュの強化も各所に見られる。主な手法は記憶容量とウエイ数の増加である。1次データキャッシュは32KB/8ウエイ(Zen 4)から、48KB/12ウエイに拡充した。2次キャッシュ/コアは、1MB/8ウエイ(Zen 4)から、1MB/16ウエイに強化した。
2次キャッシュとコアのデータスループットは32B/サイクル(Zen 4)から、64B/サイクルに倍増した。またフロアプランの見直しによって、同じ製造技術ベースでありながら2次キャッシュの密度をZen 4と比べて11%高めた。
Zen 4と同じシリコン面積に1.2倍のトランジスタを詰め込む
Zen 4コアとZen 5コアを演算用ミニダイ(CCX : Core Complex、CPUコアと2次キャッシュ、3次キャッシュを含み、SMUやGMIなどの制御および入出力の回路は含まないダイ)で比較しよう。
製造技術はTSMCの5nmプロセスから、4nmプロセスへと微細化した。シリコン面積は55平方mmで変わらない。CPUコア数、2次キャッシュ容量、3次キャッシュ容量も同じだ。
トランジスタ数はZen 4 CCXの65億から、Zen 5 CCXでは79億と21.5%も増えている。銅金属配線層はZen 4の15層から、Zen 5では17層に増加した。
消費電力の高い領域はZen 5、低い領域はZen 5cがカバー
Zen 4とZen 5の消費電力と性能に関する評価結果(デスクトップ向け)もAMDは示していた。消費電力が高い領域ではZen 5の性能スコアが高い。
ただし消費電力が下がると両者の性能差は縮まっていく。評価範囲で最小電力の場合、Zen 4とZen 5の性能はほぼ等しい。消費電力が低い領域であることが分かっている場合はZen 5ではなく、Zen 5cのプロセッサが適しているとする。
サーバー向けプロセッサの整数演算性能は前世代の1.5~1.6倍に
Zenアーキテクチャによるサーバー向けプロセッサの整数演算性能(最大構成での比較)は、Zen 5がZen 4と比べて1.5倍、Zen 5cがZen 4cと比べて1.6倍に向上した(整数演算ベンチマークのSPECrate 2017_int_baseで比較)。
また浮動小数点演算性能(最大構成での比較)は、Zen 5がZen 4と比べて2.6倍、Zen 5cがZen 4cと比べて2.0倍に向上した(浮動小数点演算ベンチマークのLinpackで比較)。
デスクトップ向けプロセッサのゲーム処理性能は前世代を1%~26%上回る
Zen 4とZen 5のデスクトップ向けプロセッサのゲーム処理性能をさまざまなソフトウェアで比較したところ、Zen 5のデスクトップ向けプロセッサはフレーム処理速度でZen 4のプロセッサを1%~26%の範囲で上回った。
またZen 5コアのデスクトップ向けプロセッサ「Ryzen 7 9800X3D」とIntelのデスクトップ向けプロセッサ「Core Ultra 9 285K(Arrow Lake)」のーム処理性能をさまざまなソフトウェアで比較したところ、フレーム処理速度で1%~56%の範囲でAMDがIntelを超えたとする。ゲーム以外の用途別ベンチマークでも、AMDがIntelを1%~40%の範囲で上回った。