【後藤弘茂のWeekly海外ニュース】AMDが次世代CPUコア「Steamroller」と「Jaguar」の概要を発表

■後藤弘茂のWeekly海外ニュース■

AMDが次世代CPUコア「Steamroller」と「Jaguar」の概要を発表

●AMDが目立った今回のHot Chips

　第3世代のBulldozerアーキテクチャコア「Steamroller(スチームローラ)」は、アーキテクチャに大幅に手を入れ、シングルコア性能を高めたものになる。AMDは、プロセッサ関連カンファレンス「Hot Chips 24」のキーノートスピーチで、CPUアーキテクチャの今後の展開を説明した。

　米クパチーノ(Cupertino)で8月27日～29日にかけて開催されたHot Chipsは、今年(2012年)で24回目。今回は、AMDが、キーノートスピーチを行なったほか、3本の技術セッションを行なって目立っていた。キーノートスピーチで28nmプロセスのパフォーマンスコアSteamrollerについて明らかにしたほか、セッションでは28nmプロセスの省電力コア「Jaguar(ジャギュア)」の概要も明らかにした。

　また、現在のGPUコアで、来年(2013年)のAPUに統合されるGCN(Graphics Core Next)アーキテクチャについても講演があった。さらに、現在のAPU「Trinity(トリニティ)」についても、これまでより詳しくアーキテクチャが説明された。来年(2013年)の28nmプロセス世代のAMDのCPUアーキテクチャの概要が見えてきた。AMDのコアと製品のコードネームの関係は下の図のようになる。

CPUアーキテクチャの推移
PDF版はこちら

AMD CPUの移行図
PDF版はこちら

　「The Surround Computing Era」が、AMDのMark Papermaster氏(Senior Vice President and Chief Technology Officer)のキーノートスピーチのタイトル。スピーチの内容は、AMDが今年(2012年)2月のアナリスト向けカンファレンス「Financial Analyst Day 2012」と、7月のAMD Fusion Developer Summit(AFDS)で説明した内容の続編で、AMDの企業戦略の説明。AMDは昨年(2011年)後半から経営幹部を一新、それとともに企業戦略を大幅に変更した。

AMDのMark Papermaster氏(Senior Vice President and Chief Technology Officer)

　2月に明らかにした新戦略の柱は、コンシューマ化(Consumerization)とクラウド(Cloud)とコンバージェンス(Convergence)という3つのCへの対応。今回のHot Chipsでは、説明をさらに推し進めて、3つのCを柱としたサラウンドコンピューティング時代になることを説明。コンピュータがあらゆる場所にあり、環境に融け込み、毎日の生活の一部となっている時代という意味だ。その中で、ナチュラルユーザーインターフェイスのような、コンピューティングの負荷の高い処理が重要になることを指摘した。

　その上で、サラウンドコンピューティングには、より性能の高いクライアントやクラウドバックエンド、プログラミングフレームワークが必要になるとして、AMDが必要な要素を提供して行くと語った。しかし、AMDは、まだ組み替えたばかりの新戦略に沿った製品の計画を具体的に語るフェイズに至ることができていない。今回のHot Chipsでも、多くは概念的な説明となった。

●命令デコーダを1ユニットから2ユニットに倍増

　Papermaster氏のスピーチ中で具体的な例の1つとして示されたのはSteamrollerコア。Papermaster氏は、SteamrollerでBulldozerのベースアーキテクチャにかなりの改良を加えることを明らかにした。最大の変更は、CPUのフロントエンドの命令デコーダを、現在の1個から2個に増やすこと。

　Bulldozerアーキテクチャは、2個のCPUコアを1モジュールに融合させており、2スレッドを並列に走らせることができる。Bulldozerモジュールでは、整数コアとL1データキャッシュはスレッド毎に備えているが、フロントエンドと浮動小数点演算ユニットなどは2スレッドで共有する。命令デコーダは、サイクル毎にスレッドを切り替えてデコードしている。

　しかし、Steamrollerでは、デコーダが2ユニットとなり、2スレッドがそれぞれ専用の命令デコーダを備える。現在のアーキテクチャでは、Bulldozerフロントエンドがボトルネックとなり、実行ユニットに命令を十分にフィードできない可能性があるが、Steamrollerでは、その問題は軽減される。下は、BulldozerとSteamrollerのそれぞれのスライドを並べたものだ。

Bulldozerのフロントエンド

Steamrollerのフロントエンド

　また、SteamrollerではL1命令キャッシュも拡張され、その結果、L1命令ミスが30%減るという。分岐予測も強化され、スレッド当たりの内部命令発行幅も25%広がる。結果として、オーバーオールでサイクル当たりの内部命令OPsの発行は30%増やすことができるという。

L1キャッシュの拡張と分岐予測強化

　また、整数ユニットでは、物理レジスタ数も強化、命令スケジューリングの効率も5～10%改良したという。さらに、L1データキャッシュのハンドリングも改良。また、フロントエンドではループに最適化した改良、L2は動的なキャッシュサイズの変更などが加えられた。その一方で、浮動小数点演算ユニットは、リソースの簡素化が図られた。

Steamrollerのアーキテクチャ

　全体的に見ると、Steamrollerでは、Bulldozerのもともとのコンセプトから、伝統的なCPUへのある程度の回帰が見える。AMDは、2年前のHot Chipsで、Bulldozerの思想は、パフォーマンスと電力の「Knee of the Curve」を狙ったものだと説明した。x86 CPUの複雑な命令デコーダを1個に減らしたのもそのためだった。Steamrollerは、その点で、ある程度回帰したように見える。

Knee of the Curve
PDF版はこちら

AMDのアーキテクチャ比較
PDF版はこちら

●Piledriverコアの強化点も明らかに

GCN(Graphics Core Next)の発表を行なったAMDのMike Mantor氏(AMD Senior Fellow)

　Papermaster氏のスピーチ中で、その他に具体的な技術として示されたのは、AMDが今年買収したSeaMicroの高密度サーバーの技術を使った製品。よりスマートなクラウドを実現する要素の1つとして紹介された。

SeaMicroの高密度サーバー技術

　また、AMDはHot Chips 24の技術セッションで、現在のAPU「Trinity(トリニティ)」に使われている、第2世代のBulldozerコア「Piledriver(パイルドライバ)」の拡張についても明らかにした。第2世代のPiledriverは、Bulldozerコアと同じ32nmプロセスだが、さまざまな部分で拡張されている。すでに明らかになっている命令拡張のほかに、ハードウェア除算ユニットやL1 TLBの増量、プリフェッチャの改良、スケジューリングの向上など、さまざまな拡張がなされている。

Trinityで使われているPiledriverコアの改良

　このほか、Hot Chipsでは、AMDの現在のGPUコアアーキテクチャ「GCN(Graphics Core Next)」についてのセッションも行なわれた。Radeon HD 7000系のGPUコアで、来年のAPUのGPUコアもGCNコアになる。セッションの内容のほとんどは、すでにAMD Fusion Developer Summit(AFDS)等の自社カンファレンスで発表済みのものだ。しかし、これまで自社以外の場では公開してこなかった内容だ。

Graphics Core Nextの紹介

●28nmプロセスの省電力コア「Jaguar」の概要を公表

AMDのJeff Rupley氏(AMD Fellow, Chief Architect Jaguar Core)

　また、AMDは28nmプロセスの省電力CPUコア「Jaguar(ジャギュア)」の概要を明らかにした。Jaguarは、AMDの2系統のx86 CPUコアのうち、省電力フォーカスの「Catシリーズ」の2世代目のCPUコアだ。Catシリーズ第1世代目の「Bobcat(ボブキャット)」コアは、AMD E-Series APU(Brazos:ブラゾス)などに使われている。

　Jaguarは、2～4コアの構成で、GPUを統合したAPU「Kabini(カビーニ)」として2013年に投入される予定だ。Kaveriでは、GCN(Graphics Core Next)ベースのGPUコアと、サウスブリッジチップに当たるFCHがAPUに統合される。AMDはノートPCだけでなく、タブレットにもCatシリーズコアを推進している。28nmプロセスのJaguarは、コンシューマ機器へ向かうAMDの戦略の切り札となるコアだ。

　Bobcatはシングルコア単位で設計されており実際の製品はデュアルコア構成で発売されたが、Hot Chipsで明らかにされたJaguarは4コア構成をベースに設計されている。従来のAMD CPUコアはCPUコアがそれぞれ独立したL2キャッシュを備え、エクスクルーシブな制御をしていた。Jaguarでは4コアが2MBのL2キャッシュを共有する構成で、インクルーシブキャッシュとなっている。

Jaguarの概要

　Jaguarコアのブロックダイアグラムは、Bobcatコアとよく似ている。しかし、パフォーマンスのアップと命令セットの拡張、省電力化が図られている。Bobcatからの進化形のコアとなっている。

　命令セットでは、256-bit SIMD(Single Instruction Stream, Multiple Data Stream)命令を含む新命令AVXをサポートした。実行ユニットでは浮動小数点/SIMD演算パイプが大幅に拡張され、従来は64-bitだったSIMDユニットが128-bitになった。単精度32-bitの演算なら4乗算と4加算を1サイクルに同時に行なうことができる。256-bitのAVX命令を実行する際には2サイクルでダブルパンプで実行する。

Jaguarコアの強化点

　このほかさまざまな改良が加えられており、IPC(Instruction-per-Clock)も15%以上向上しているという。パイプラインは1段深くなり、それによって動作周波数は10%以上向上したという。Jaguarでは、Bobcatより高周波数で動作させてパフォーマンスを上げるだけでなく、Bobcatと同じ周波数で駆動電圧を下げることで、電力を抑えることもできる。コアの電力の低減では、Jaguarは個々のCPUコアがそれぞれ個別にアーキチャクチャルステイトをセーブしてパワーゲートした状態のCC6ステイトに入ることができる。CC6ステイトからの復帰は、BobcatでのCPUユニット全体のC6ステイトからの復帰より短い。