【ISSCC 2011レポート】
IntelとAMDが次世代64bitプロセッサの概要を公表

参加登録者に配布される論文集。このほかにCD-ROMが1枚付く

カンファレンス会期:2月21日〜23日(現地時間)

会場:米国カリフォルニア州サンフランシスコ Marriott Hotel



 ISSCC2011のカンファレンス初日が無事、閉幕した。初日である21日の午後には、プロセッサの講演セッションが設けられており、数多くの高性能プロセッサ技術が披露された。本レポートでは初日午後の講演から、注目の発表をご紹介する。

●Intel:次世代64bitプロセッサ「Poulson」を公表

 Intelは、Itaniumアーキテクチャの次世代64bitマイクロプロセッサ「Poulson(ポールソン)」の技術概要を公表した(講演番号4.8)。8個のハイパースレッディングCPUコア、総容量54MBのSRAMマクロ、4個のフルQPI(QuickPath Interconnect)インターフェイス、2個のハーフQPIインターフェイス、2個のSMI(Scalable Memory Interconnect)を内蔵する。

 Poulsonは、トランジスタ数に換算すると31億個という膨大な数量の回路素子を集積した、超大規模プロセッサである。このため32nmと微細な製造技術を採用しているにもかかわらず、シリコンダイは544平方mm(29.9×18.2mm)と巨大になっている。消費電力は170W(TDP値)とかなり高い。といってもプロセッサの規模を考慮すると、消費電力は相当に努力して抑えた値になっている。現行世代のItaniumプロセッサ(Itanium Processor 9300シリーズ、開発コード「Tukwila(タックウイラ)」)は65nm技術で製造しているが、このプロセッサを32nm技術で縮小したチップに比べ、CPUコア当たりのTDP値は約60%減少したと講演では述べていた。

 Poulsonでは整数演算パイプラインやデータ・パイプライン、浮動小数点演算パイプライン、命令バッファなどを新しく開発したという。CPUコアのマイクロアーキテクチャは、イン・オーダー実行や11段のパイプライン処理、最大6命令の並列フェッチ、最大12命令の並列実行などの要素技術で構成されている。

 キャッシュメモリの階層は3次まである。1次は16KBの命令キャッシュとデータ・キャッシュ、2次は512KBの命令キャッシュと256KBのデータ・キャッシュで、いずれもCPUコアごとに用意した。3次は32MBの共有キャッシュである。

「Poulson」のシリコンダイ写真。製造技術は32nmの高誘電率膜/金属ゲート(High-k/Metal gate)技術、9層の銅配線 「Poulson」のレイアウト。なおLLCは3次キャッシュ、MLIは2次命令キャッシュ、MLDは2次データ・キャッシュのこと
PoulsonとTukwilaの概要

●AMD:次世代プロセッサ「Bulldozer」の64bit CPUモジュール

 AMDは、次世代PC用マイクロプロセッサ「Bulldozer(ブルドーザ)」に向けたAMD x86-64アーキテクチャの64bit CPUモジュールの概要を発表した(講演番号4.5および講演番号4.6)。発表したCPUモジュールは、2個のCPUコアを統合している。これまでAMDが同社のイベントなどで概要を公表してきた通りだ。整数演算ユニットと16KBの1次データ・キャッシュなどで構成されるCPUコアと、共通の周辺回路(浮動小数点演算ユニット、64KBの1次命令キャッシュ、命令デコード回路、分岐予測回路、2MBの2次キャッシュ)でモジュールを構成する。

 CPUモジュールのトランジスタ数は2億1,300万トランジスタ。シリコン面積は30.9平方mmである。電源電圧は0.8V〜1.3V。製造技術は32nmのSOI高誘電率膜/金属ゲート(High-k/Metal gate)技術、11層金属配線である。

 高速動作と消費電力抑制を両立させるため、論理回路の基本ブロックであるフリップフロップを見直している。位相のわずかに異なる2本のクロックを使った3種類のフリップフロップを基本ブロックとして用意した。2本のクロックを使うことで高い精度で同期がとれ、動作周波数が向上するとともに、消費電力が低下する。さらに、製造プロセスによるトランジスタの特性ばらつきを吸収できる。用意したのは消費電力の特に低いフリップフロップ(LPXSEF)と、消費電力の低いフリップフロップ(LPSEF)、高性能だが消費電力が高めのフリップフロップ(HPSEF)である。ただし従来のフリップフロップに比べると、シリコン面積がやや増える。

 また1次キャッシュのSRAMに、標準的に使われている6トランジスタのメモリセルではなく、8トランジスタのメモリセルを採用した。6トランジスタのメモリセルに比べると、電源電圧が下がるとともに動作周波数が高まる。これもシリコン面積が増える方向に働く。

 これらの工夫により、従来と同じくらいの消費電力で論理ゲートの動作周波数を20%程度、向上できたとする。3.5GHzを超える動作周波数を達成できると、講演では述べていた。

「Bulldozer」のCPUモジュール。AMDが2010年8月に「HotChips 2010」で講演した資料から引用 「Bulldozer」に向けたCPUモジュールのシリコンダイ写真 2本のクロックを使った3種類のフリップフロップ回路。最上部は従来のフリップフロップ回路

●IBM:5.4GHzで動くメインフレーム用プロセッサ

 IBMは、同社の最新メインフレーム「zEnterprise 196」用に開発した高性能マイクロプロセッサの技術内容を発表した(講演番号4.1)。開発したプロセッサの動作周波数は最大5.4GHzときわめて高い。製品版の動作周波数でも5.2GHzに達する。前世代のメインフレーム「z10」用マイクロプロセッサの動作周波数が4.4GHzだったので、動作周波数は20%近く、向上したことになる。

 z196用マイクロプロセッサは、4個のCPUコア、CPUコアごとの1次キャッシュSRAM(命令キャッシュ64KBとデータ・キャッシュ128KB)と2次キャッシュSRAM1.5MB、共有の3次キャッシュDRAM24MB、暗号化と復号化のコプロセッサ・コア、DDR RAIM(Redundant Array of Independent Memory)メモリコントローラ、入出力バスなどで構成される。トランジスタ数は14億トランジスタ、シリコンダイ面積は512平方mmとかなり大きい。製造技術は45nmのSOI CMOS、13層金属配線である。

 講演で興味深かったのは、z196用プロセッサのマイクロアーキテクチャにアウト・オブ・オーダー実行を採用したことと、メモリサブシステムとしては4次キャッシュを別チップで開発したことだ。いずれも演算性能の向上に寄与する。

 4次のキャッシュメモリはDRAMマクロを内蔵しており、196MBと大きな容量を確保する。このキャッシュメモリは、複数のz196マイクロプロセッサが共有する。

「zEnterpriseシリーズ」メインフレームに使われたプロセッサの動作周波数の推移。IBMが2010年8月に「HotChips 2010」で講演した資料から引用 zEnterprise 196(z196メインフレーム)用高性能マイクロプロセッサの概要とシリコンダイ写真。IBMが2010年8月に「HotChips 2010」で講演した資料から引用 z196のシステム構成例。IBMが2010年8月に「HotChips 2010」で講演した資料から引用

(2011年 2月 23日)

[Reported by 福田 昭]