ニュース

Zen 5+Zen 5cコアの異種混合CPU「Ryzen AI 300」の設計が公開

AMDが発表したStrix PointことRyzen AI 300シリーズ

 AMDは6月にCopilot+ PC向けの第3世代Ryzen AIプロセッサを発表し、7月にASUSなどから搭載PCが発売されるとしていた。今回、そのシステムに搭載される「Ryzen AI 300シリーズ」の詳細が明らかにされた。

Zen 5+Zen 5cという異種混合構成を実現

Ryzen AI 300のオーバービュー、CPUはZen 5+Zen 5c、GPUはRDNA 3.5 16Cu、そして50TOPSのNPUになるXDNA 2
(出典 : AMD XDNA 2 Architecture、AMD)

 開発コードネーム「Strix Point」ことRyzen AI 300のSKUは「Ryzen AI 9 HX 370」と「Ryzen AI 9 365」の2つが用意される。

Ryzen AI 300のSKU
Ryezen AI 9 HX 370Ryezen AI 9 365
CPUコア12コア/24スレッド10コア/20スレッド
Zen 5コア4コア4コア
Zen 5cコア8コア6コア
キャッシュサイズ36MB34MB
ブーストクロック5.1GHz5GHz
ベースクロック2GHz2GHz
GPURadeon 890M Graphics(16Cu)Radeon 880M Graphics(12Cu)
最大GPU周波数2,900MHz2,900MHz
NPUXDNA 2/50TOPSXDNA 2/50TOPS

 既報の通り、Ryzen AI 300はZen 5のCPU(最大12コア)、RDNA 3.5のGPU(最大16Cu)、そして50TOPSの性能を実現したNPU(XDNA2)という3つのプロセッサとPCI ExpressなどのI/Oを1チップに統合したSoC(System on a Chip)となる。

 CPUはZen 5アーキテクチャにもとづいた12コア/24スレッドのCPUであることは当初から明らかにされてきたが、具体的には4つのZen 5コアから構成されるCPUクラスタが1つ、8つのZen 5cコアから構成されるCPUクラスタが1つという2つの種類のCPUから成る異種混合(ヘテロジニアス)構成であることが今回分かった。

 Intel的な言い方をするのであれば、PコアがZen 5で4コア、EコアがZen 5cで8コアという4+8の構成になっていることになる。

 ただし、IntelのPコアとEコアがアーキテクチャも含めて異なっている(PコアはCoveのコードネームが付くCore系のCPU、Eコアはmontのコードネームが付くAtom系のCPU)であるのに対して、Ryzen AI 300では、どちらも同じZen 5アーキテクチャのCPUになっている。

 違いはL3キャッシュの容量で、Zen 5はCPUコア1つあたり4MB、Zen 5cはCPUコア1つあたり1MBとなっている。つまり、Zen 5のCPUクラスタでは16MB(4MB×4)、Zen 5cのCPUクラスタでは8MB(1MB×8)の構成となる。

 こうしたアーキテクチャを採用している利点としては、CPUそのもののアーキテクチャは同一で、L3キャッシュだけの違いとなるため、ソフトウェア側がそうしたCPUの違いを考慮する必要がないことだ。

 その代表的な例はAVX-512への対応で、AMDはZen 4世代からAVX-512に対応していたが、Zen 5でもそれは継続されており、どちらの種類のCPUコアでもAVX-512を実行可能だ。一方でIntel CPUはEコアがAVX-512に対応していないため、SoCとしてはAVX2(AVX-256)までの対応になる。

 なお、Ryzen AI 9 HX 370はフル実装の12コア(Zen 5コア×4、Zen 5c×8、L3キャッシュ : 24MB)の構成になるが、Ryzen AI 9 365はZen 5cのクラスタが2コア削減されて10コア(Zen 5コア×4、Zen 5c×6、L3キャッシュ : 22MB)の構成となる。

GPUのRDNA 3.5はCuが16に強化

RDNA 3.5のGPU(Radeon 890M Graphics)を採用している
(出典 : Ryzen AI 300 Series Processors、AMD)

 GPUはもう1つのRyzen AI 300の大きな特徴で、従来製品のRyzen 7040(開発コードネーム : Phoniex)、Ryzen 8040(開発コードネーム : Hawk Point)の2製品で採用されてきたRDNA 3アーキテクチャのGPUをさらに進化させたRDNA 3.5となる。

 Ryzen AI 300ではRyzen 7040/8040のRDNA 3 GPUが12Cuだったのに対して16CuとCPUで言えばコアに相当する演算器が増やされている。そうしたデザインが可能になったのもRDNA 3.5とアーキテクチャ自体が進化したのと、製造技術(プロセスノード)がTSMCの5nmから4nmへと微細化されたことが大きな要因となっている。

RDNA 3.5はRDNA 3をベースに電力最適化を加えたバージョン
(出典 : "Zen 5" and AMD RDNA 3.5 Architecture Update、AMD)

 RDNA 3.5は基本的なアーキテクチャそのものはRDNA 3と同等だ。ただし、いくつかの新しい省電力テクニックを採用することで、電力効率が改善されている。

RDNA 3.5の改良点
(出典 : "Zen 5" and AMD RDNA 3.5 Architecture Update、AMD)

 具体的にはエンジンの構造を見直すことで、テクスチャサンプリング時に2倍の性能を実現している。また、内挿(Interpolation)や比較(Comparison)処理を行なう場合のベクター命令セットが強化されており、同じ内部命令で実行した場合の性能が2倍になっている。

RDNA 3ベースのHawk Point(Ryzen 8040)と比較してTimespyで32%、Night Raidで19%性能が向上している
(出典 : "Zen 5" and AMD RDNA 3.5 Architecture Update、AMD)

 もう1つの大きな改良はメモリ管理で、メモリアクセスを行なう前にバッチ処理を行ない、メモリアクセスを減らす仕組みが導入されている。

 ほかにも、ハードウェアレベルでのデータの圧縮、ワークロードの削減、さらにはRyzen AI 300のメモリであるLPDDR5への最適化などを行なうことで、メモリ帯域への圧迫を減らし、メモリバスの利用率を下げることで消費電力の削減を実現する。

 AMDによれば、同じTDP設定(15W)において従来世代(Ryzen 8040)と比較して3DMark Timespyで32%、3DMark Night Raidで19%の性能向上を実現する。

XDNA 2は演算性能がベアで3.2倍に

AMDのXDNAアーキテクチャでは、演算エンジンになるAIEタイルと、メモリタイルから構成されており、メインメモリへのアクセスを最小化することで、低消費電力でAI推論が可能になっている
(出典 : AMD XDNA 2 Architecture、AMD)

 MicrosoftのCopilot+ PCの要件であるNPUの性能が40TOPS以上を大きく上回る、50TOPSを実現しているのがNPUのXDNA 2だ。XDNA 2という第2世代の名称からも分かるように、このXDNA 2はRyzen 7040/8040に搭載されていたXDNAの第2世代NPUになる。

 AMDは初代XDNAに関して同社が買収したXilinx(ザイリンクス)のFPGA製品に搭載されているNPU由来であることだけを明らかにしてきたが、今回初めてその内部アーキテクチャなどに関して説明を行なった。

 XDNAはタイル型のアーキテクチャを採用しており、コンピュートタイル(AIEタイルと呼ばれる)が内蔵されているメモリタイルにアクセスする形で、AI推論処理を高速にかつ省電力に行なう仕組みになっている。内蔵メモリにデータを展開してメインメモリへのアクセスをできるだけ減らすというアーキテクチャはほかのNPUと同様の考え方だ。

XDNAではユニークな伸縮可能なタイルアーキテクチャを採用している
(出典 : AMD XDNA 2 Architecture、AMD)

 XDNA/XDNA 2は、AIEタイルとAIEタイル、AIEタイルとメモリタイルを接続するインターコネクトがプログラマブルになっており、AIEタイルからデータがあるメモリタイルへのアクセスを行方向にも列方向にも構成可能だ。

 それによりメモリレイテンシの削減や無駄なメモリアクセスを発生させないようにしてメモリ帯域の不必要な増加を防ぐ仕組みになっている。高効率なAI推論処理が可能なのだ。

XDNAとXDNA 2の違い
(出典 : AMD XDNA 2 Architecture、AMD)
演算性能は5倍になっているが電力効率は倍になっている
(出典 : AMD XDNA 2 Architecture、AMD)

 XDNAではそのAIEタイルが20タイル、メモリタイルが5タイルという構成になっていたが、XDNA2ではAIEタイルが32タイル、メモリタイルが8タイルといずれも1.6倍に増やされている。

 また、AIEタイル1つあたりに内蔵されている演算器(MAC)自体が2倍で、単純な演算性能では3.2倍になっていることが大きな特徴だ。それだと性能は3.2倍で、Ryzen 7040の10TOPSから考えると32TOPSにしかならない計算だが、ほかにもクロック周波数の引き上げなどにより性能が向上しており、5倍の50TOPSが実現されている。

Block FP16の採用によりFP16の正確性とINT8の処理能力でAI推論を処理できる
(出典 : AMD XDNA 2 Architecture、AMD)

 XDNA 2ではBlock FP16と呼ばれるINT8の処理にかかる負荷でFP16と同等の正確性を実現する新しい浮動小数点演算の精度に対応している。このBlock FP16を利用した場合でも50TOPSの性能になるので、大きな効果がある。

 それだけだと消費電力が増えてしまうことは目に見えているが、XDNA2では新しい省電力テクニックが導入されて電力効率が2倍になっているため、Ryzen 7040と同じような消費電力で5倍の性能を実現することに成功している。

 XDNA 2では6列のAIEタイル+メモリタイルを2列ごとに区切って、オン/オフ可能になっている。たとえば、Windows Studio Effectsのような映像処理などそんなに負荷が高くない処理の場合には2列だけで動作し、ほかの4列をオフにすることで消費電力を削減する。

 逆に画像生成のようなNPUにとっては重たい処理の場合には6列すべてがオンになり、消費電力は増えるが性能を引き上げて処理を速く終わらせることが可能になる。

Ryzen AI Softwareのロードマップ

 AMDはXDNA 2に対応した新しいAIソフトウェア開発キット「Ryzen AI Software 1.2」の提供を第3四半期から開始する計画だ。第4四半期には対応したモデルを増やしたRyzen AI Software 1.3を、来年の第1四半期にはAIのソフトウェアをほかの開発キットと統合したRyzen AI Software 1.4などを提供していく計画で、ISV(独立系ソフトウェアベンダー)のソフトウェア開発のバックアップ体制も強化していく計画だ。