後藤弘茂のWeekly海外ニュース

AMD、“Renoir”ことZen 2ベースAPU「Ryzen Mobile 4000シリーズ」の概要を明らかに

Ryzen Mobile 4000(Renoir)のSoCアーキテクチャ

 AMDは、Zen 2ベースの新世代APU(Accelerated Processing Unit)である「Ryzen Mobile 4000 Series」を正式に発表した。Zen 2 CPUコアを8コア、VegaベースのGPUを8CU(Compute Unit)搭載する。製造プロセス技術はTSMCの7nmで、APUコードネームは「Renoir」。

 8コアのCPU性能と、1.79TFLOPSのGPU性能、LPDDR4X(4,266Mbps)に対応した広帯域メモリインターフェイス、そしてモバイルに最適化した省電力制御機能を備える。AMDは、クライアント市場への切り札としてRyzen Mobile 4000を投入する。

7nmプロセスならではのプロセッサ個数の選択

 CPU製品はチップレットアーキテクチャで複数のダイ構成だが、APUは従来どおりのシングルダイ構成となる。Ryzen Mobile 4000では、APUではじめてCPUコアが8コア構成となった。今回CPUコア数が増えたのは、7nmプロセスへの微細化によってCPUコアが小型化したためだという。

 また7nmプロセスでは、相対的にI/O関係のダイエリア(ダイ面積)の縮小率が低いため、プロセッサ個数を増やさないとI/O面積比率の大きなSoCになってしまうという事情もあるとAMDは説明する。I/Oとのバランスを取ると、こうした構成になったと見られる。

 Zen 2 CPUコアのマイクロアーキテクチャはCPU製品と同じだが、CPUコアクラスタであるCCX(Core Complex)の設計はモバイルに最適化した。AMDのZen系列CPUは、CPUコア4個でクラスタ化してCCXを構成して、4個のCPUコアでL3キャッシュを共有する。サーバー&CPU向けのCCXではL3キャッシュは16MBだが、APU向けは4MBとなっている。CCXを2セット搭載して8CPUコアの構成となっている。

Zen 2マイクロアーキテクチャ
モバイルに最適化されたCCXアーキテクチャ

 Zen 2アーキテクチャへの移行によって、CPUのシングルスレッド性能が引き上げられた。同じ15Wの電力枠で比較すると、「Ryzen 7 4800U」では「Ryzen 7 3700U」に対して25%もシングルスレッドの性能がアップする。これは、アーキテクチャの改善に動作周波数の向上が加わるためだ。

 マルチスレッドでの電力効率で比較すると、7nmプロセスのZen 2では、12nmプロセスの旧製品に対して1Wあたり性能が2倍に達するとAMDは説明する。IPC(Instruction-per-Clock)と命令効率のアップによるものが3割、7nmプロセスでの電力効率のアップが7割という。

Zen 2ベースの高性能なCPUコア
電力あたりのCPU性能

Vegaをベースにモバイル最適化を行なったGPUコア

 Ryzen Mobile 4000では、7nm初のAPUとしてGPUコアの設計に力を入れた。Renoirの内蔵GPUコアは、Radeon RX Vega64(Vega10)と同じVega系のGCN(Graphics Core Next)マイクロアーキテクチャだが、APUに最適化されて再設計されている。もっとも目立つのは、GPUコアとメモリコントローラの間のパスの改良だ。

 APUでは、GPUコアがメモリコントローラにアクセスするさいに、内部SoCファブリックを経由しなければならない。ディスクリートGPUではGPUに最適化したファブリックを持っているが、APUではCPUと共有のInfinity Fabricを経由してメモリコントローラにアクセスする。

 RenoirのVega GPUコアでは、この部分を大きく改良し、内部ファブリックへのパスを2ポートにした。従来のAPUの2倍のデータ転送幅でメモリコントローラにまでアクセスができる。

モバイル向けに最適化されたGPUコア

 APUには2セットの「UMC(Unified Memory Controller)」があり、それぞれ64-bit幅のDRAMインターフェイスに接続されている。Renoirのアーキテクチャでは、GPUコアからの2つのInfinity Fabricインターフェイスがそれぞれ個別のUMCにアクセスが可能になった。そのため、APUのメモリ帯域をフルに使うことができる。

 RenoirではGPUコアのCUあたりの演算性能も引き上げられている。動作周波数の引き上げによるもので、最大1.75GHzをマークする。

 Vega GPUコアは8CU構成で、各CUには64個の積和算ユニットを搭載するため、GPUの演算性能は1.79TFLOPSに達する。RenoirのGPU性能とメモリ帯域のバランスについては、後の記事でより細かく説明したい。

 AMDは、7nmプロセスで従来のGCNアーキテクチャのVega GPUコアと新しいRDNAアーキテクチャのNavi GPUコアの2種類を持っている。今回のRenoirでは、AMDはGCNアーキテクチャのVegaを選んだ。APU設計をスタートさせた2年前にAMDがVegaを選んだ理由は、モバイルに最適化設計するにはVegaが適していたからだという。

 具体的には、AMDはGPUコアのエンジン面積を縮小する一方で、動作周波数を引き上げた。おそらく、物理設計の最適化に間に合う時期に成熟していたのは、先行していたVegaコアだったと推測される。RenoirのVegaコアは、ディスクリートのVegaコアを論理合成しなおしただけでなく、設計面で大きく手を入れていることを意味している。

 AMDによると、APU版の7nmのVegaでは、12nmのVegaに対して59%もCUあたりの性能が向上しているという。59%のパフォーマンス/ユニットの向上のうち、70%近くは7nmプロセスでの低電力性によるもので、残りが電力バジェットを変えることなく周波数を引き上げた効果によるものと、設計の改良によるものだという。

CUあたりの性能を大幅にアップしたRenoirのGPUコア

LPDDR4Xにも最適化されたDRAMコントローラ

 AMDは、Ryzen Mobile 4000でDDR4とLPDDR4Xの2タイプのDRAMをサポートした。DDR4では3,200Mbps、LPDDR4系ではLPDDR4Xの4,266Mbps転送レートもサポートする。メモリ帯域はLPDDR4Xでは最大68.3GB/sに達する。DDR4とLPDDR4系ではDRAMインターフェイスは大きく異なる。

 LPDDR4系DRAMは1デバイスがx32(32-bit)インターフェイスとなっている(実際には2ダイで各x16)。そこで、RenoirではUMCを両メモリ規格に対して最適になるように再設計した。

 RenoirのUMCは2ユニットに分かれており、それぞれx64(64-bit)幅のDRAMインターフェイスをサポートしている。DDR4時には、UMCはそれぞれx64のDDR4 SO-DIMMに接続する。

 しかし、LPDDR4X時には、UMCは内部を2個のx32仮想チャネルに分割して動作させる。DRAMのプリフェッチ動作もLPDDR4XはDDR4とは大きく異なるため、仮想チャネルで最適化する必要がある。こうしたアーキテクチャによって、RenoirではLPDDR4Xの性能を最大に引き出している。

Ryzen Mobile 4000(Renoir)のDRAMコントローラ

 Renoirでは、LPDDR4Xにも最適化されたDRAMインターフェイスを備えており、それだけLPDDR4Xのもたらす広メモリ帯域を重視している。それは、RenoirアーキテクチャのGPU性能を活かすには、LPDDR4Xのメモリ帯域が必要となるためだ。GPUコア側でファブリックインターフェイスが2倍にされているのは、LPDDR4Xのメモリ帯域を前提としたものだ。

 AMDは将来的には「X3D」パッケージと呼ぶ積層パッケージによって、HBMなどの積層メモリをメモリ帯域を必要とするAPUにも搭載すると見られる。しかし、それまではDDR/LPDDR系メモリでの広帯域を活用するしかない。

省電力機能を大幅に改良したAPU設計

 モバイル向けにフォーカスした設計されたRenoirでは、省電力機能が大幅に強化された。7nmプロセスによる省電力性に加えてアーキテクチャ面でも改良が加えられた。

 SoC内部のファブリックであるInfinity Fabricについては、GPUコアとのインターフェイスが2倍幅となり、バス効率をアップさせた。Infinity Fabricの実態はクロスバースイッチとリピータだが、ファブリックのスイッチングパワーは動的に最適化されるようになり、ファブリックの平均消費電力が大幅に引き下げられた。

バス帯域に応じて電力を制御するようになった新設計のInfinity Fabric
モバイル向けに最適化されたRenoirの省電力機能
省電力ステートの制御ロジックが変わった

 I/O周りでは、デジタル回路だけでなくアナログ回路に対する電力も低減され、クロックディストリビューションも改良された。さらに大きいのは、CPUの低電力ステートの改良だ。Renoirでは、ACPIで露出するCPU電力ステイトが3層になった。大雑把に言うと、省電力は少ないが復帰の速いステートから、大幅に電力を削減できるが復帰に時間がかかるステートまで段階的にOSが制御できるようになった。

 そのため、CPUをオフしたときの復帰レイテンシが短くて済むケースが増えた。また、CPUをオフする場合にはコンテクストをリストアしなければならないが、そのためのバス幅も倍増され、CPUオフへ入るときと復帰時のレイテンシが短縮されている。省電力機能については、別記事で説明したい。

 Renoirのダイ面積は156平方mm。AMDのAPUは、32/28nm世代で250平方mm程度、14nm世代で210平方mm弱だったが、7nmではダイエリアを25%縮小した。トランジスタ数は98億で、12nm世代のAPUダイの「Picasso」の49.4億の約2倍となる。

 TSMC 7nmプロセスでメタル(配線)層数は13レイヤー。層数はCPU向けの7nmプロセスと同じであり、これはスタンダードセルなどの設計も共通していることをうかがわせる。

高コストな7nmプロセスに合わせてダイサイズを抑えたRyzen Mobile 4000(Renoir)
AMD CPUダイサイズ移行図
PDF版はこちら