後藤弘茂のWeekly海外ニュース

Intelの8コア版Sandy Bridge「Xeon E5」シリーズが登場



●2ソケット向けに8コアSandy Bridge-EPを投入

 Sandy Bridge(サンディブリッジ)世代の8コア「Sandy Bridge-EP」が、いよいよサーバー&ワークステーションエリアに登場する。製品名はXeon E5シリーズで、今回発表されたのはデュアルソケット用の「Xeon E5-2600」系だ。2000番台はデュアルソケットであることを示す。プラットフォームは「Romley-EP」となる。

 Sandy Bridge-EPは、従来のWestmere-EP(Xeon 5500/5600系)ベースの2ソケットソリューションを置き換える。つまり、クライアントPCから1年遅れて、2ソケット以上のサーバー&ワークステーションも、ようやくSandy Bridgeマイクロアーキテクチャへと切り替わる。ただし、ハイエンドの4ソケットは依然としてWestmere-EXのままとなる。アーキテクチャの切り替わりは、デスクトップからサーバーへと段階的に波及する。

 IntelのサーバーCPUは、マルチコア時代に入って大きく変わった。以前のサーバー&ワークステーション用CPUは、単にキャッシュ量が多いだけで、それ以外のデスクトップ向けCPUと大きな違いはなかった。しかし、今はサーバー&ワークステーション用に完全に新しい設計のCPUが投入されている。そして、キャッシュ量だけでなく、CPUコア数、I/O、メモリ回りが、全く異なっている。むしろCPUコア当たりのキャッシュ量は、PC向けCPUと大差がなくなっている。つまり、サーバーの差別化のポイントが、より本質的な部分になってきた。

 下の図がSandy Bridge-EPのダイ写真と大まかなレイアウトだ。下の図の右側は2011年2月のISSCC(IEEE International Solid-State Circuits Conference)で公開された、Sandy Bridge-EPのリングバスとPLLの配置図だ。ダイサイズは約416平方mmで、昨年(2011年)のISSCC時に発表された435平方mmより少しだけ小さくなった。下のダイ写真は435平方mmの時のものだ。

Sandy Bridge EPのダイ写真とレイアウト(PDF版はこちら)

 Intelは、このSandy Bridge-E 8コアのダイ(半導体本体)を、Sandy Bridge-EPだけでなく、複数の製品に使っている。ダイは1~2種類で、そこから派生製品が複数あるというパターンだ。

 デュアルソケットクラスのSandy Bridge-EP 8コアでは、従来と比べてI/Oが大幅に強化されている。CPU間インターコネクトとしてQuickPath Interconnect(QPI)を2リンク、メモリインターフェイスはDDR3を4チャネル、加えてPCI Express gen 3.0を40レーン備える。クライアントPC系と比べると、ラフに言ってメモリとPCI Expressを2倍またはそれ以上に増やした構成となっている。Intelのシングルソケットソリューションは、現在、QPIを使っておらず、その点も大きな違いとなる。

 上の図を見ると、8個のCPUコアが左右対称に並び、その間にLL(ラストレベル)キャッシュが挟み込まれるレイアウトとなっていることがわかる。LLキャッシュは、各コアに2.5MBずつのスライスとなっており、PC向けの1.5~2MBずつのスライスよりサイズが大きい。キャッシュはタグRAMは分散されているが、共有アクセスができる。

 キャッシュエリアの中央に、リングバスのインターフェイスがあり、リングバスの配線がキャッシュ上に配置されている。ダイの最下層には、リングバスの折り返しとシステムエージェント部分があり、その回りにメモリコントローラと4チャネル分のDDR3インターフェイスのPHYが配置されている。ダイの上部には同じくリングバスの折り返しとシステムエージェントがあり、その回りにI/O群と電力制御のパワーコントロールユニットが配置されている。

●リングバスを中心に構成されたSandy Bridge-EPの内部

 実際のSandy Bridge-EPのユニットの接続関係は下のブロック図のようになっている。部分的に推定が入っている。リングは双方向で、2リングが山の手線状にコアとその他のユニットを全て結んでいる。各ユニットにリングストップが配置され、リングにアクセスができるようになっている。

Sandy Bridge EPのユニット接続(PDF版はこちら)

 図の左の端はメモリコントローラ部で、4チャネルのDDR3/DDR3Lインターフェイスが配置されている。低電圧のDDR3L(1.35V)をサポートするほか、Registered DIMM(RDIMM)、Unbuffered DIMM(UDIMM)の他にLoad-Reduced DIMM(LRDIMM)もサポートする。メモリスピードはRDIMM時に2DIMM/チャネルなら1,600MT/secまで、3DIMM/チャネルなら1,066MT/secまでをサポートする。当初は3DIMMで800MT/secと言われていたので、1ランクずつ高速化された。ちなみに、UDIMMでは2DIMMまでで1,333MT/secまでとなる。

 DDR3は当初のスペックから、徐々にサポートするチャネル当たりのDIMM数とロード数、複数DIMM時のスピードがアップされている。その背後には、膨大なエンジニアリングの労力がある。

 図の右の端はI/O部で、QPIエージェントとPCI Expressエージェントがそれぞれリングバスに接続されている。PCI Expressは40レーンで、物理的にはPHYは2カ所に分かれている。また、PCI Expressのブロックには、チップセットであるC600(Patsburg)と接続するためのDMI x4リンクもある。

 QPIは最高8GT/secで、2リンク。従来のWestmere-EPも2リンクだったがSandy Bridge-EPでは、PCI Expressを内蔵しているため、2リンクを全てCPU間接続に回すことができる。CPU間インターコネクトは、オーバーキルと言っていいほど強化されている。

Sandy Bridge EPの2ソケットシステム図(PDF版はこちら)

 もっとも、Intelは同ダイを廉価版の4ソケットシステムにも使い回すつもりだ。これは、Romley-EP 4Sと呼ばれるプラットフォームで、Xeon E5-4000番台の型番でSandy Bridge-Eが投入される見込みだ。

 現在のXeon系の最上位のWestmere-EXでは、QPIは4リンク(うち1リンクはPCHとの接続に使用)で、4ソケット構成でも各CPU間を1ホップで接続できる。それに対して、Romley-EP 4Sでは4ソケット構成時には3個目のCPUにアクセスするには2ホップかかってしまう。つまり、隣のCPUを中継しなければ、最も遠いCPUにアクセスすることができない。トレードオフで廉価版となる見込みだ。IntelはSandy Bridge-EP 4Sを投入した後も、Westmere-EXを併存させる。この領域が置き換わるのは、Ivy Bridge(アイビーブリッジ)のEXクラスの世代になってからだ。

 ちなみに、Ivy Bridgeの次のHaswell(ハスウェル)マイクロアーキテクチャでは、ハードウェアトランザクショナルメモリがサポートされ、デッドロックフリーのマルチスレッドプログラミングが可能になる。そのため、Haswellでは、マルチコア/マルチスレッドのソフトウェア開発の環境に大きな影響がある。

●モジュラー設計で派生させた8コア版のダイ

 IntelはSandy Bridge世代でリングバスによるモジュラー設計を導入して以来、派生CPUダイを増やしている。従来のクロスバースイッチでは、コア数などを変更すると、コア間のバスのレイアウトを再設計しなければならないが、リングバスの場合は単純にリングストップの数を変えるだけで設計できる。下が8コアまでの派生を示した図だ。

Sandy Bridgeのモジュラー設計(PDF版はこちら)

 Sandy Bridgeで最初に開発されたのは4コア版だった。4コア版の4個のCPUコアはリングバスで接続されて並んでおり、簡単にコア数を調節できるようになっている。リングバスのため、Sandy Bridgeでは、コア数の異なるチップを派生させやすくなっている。Intelは、メインストリーム/バリュー向けのPC用CPUではSandy Bridgeで4コアと2コアで、3種類の異なるダイを設計した。8コアでは、I/O回りは大きく変わるが、Sandy Bridge設計では、CPUコアとLLキャッシュスライスのペアには大幅な変更は必要がない。CPUとLLキャッシュのセットを2倍にして向かい合わせて、両側にI/Oを配置するだけだ。

 今回のSandy Bridge-E系ダイの写真やレイアウトをよく見ると、これも、PC版とほぼ同じコアと構造をそのまま使い回していることがわかる。下の図は、Sandy Bridgeのダイ派生を示したものだ。

Sandy Bridgeのダイレイアウトバリエーション(PDF版はこちら)

 ちなみに、Intelのプレゼンテーションでは、Sandy Bridge-EPの8コアのうちの真ん中の4コアをカットするように描かれていた。そのため、4コアをカットした、Sandy Bridge-E系の4コアのダイも存在すると見られる。この場合は、4コア版Sandy Bridge-Eのダイサイズは300平方mmを切ることになる。PC向けの4コア版は、GPUコアを含めて216平方mmで、Sandy Bridge-E 4コアの方がずっと大きくなる。しかし、I/Oが増える分を考えると、300平方mmを切る程度のダイサイズはそれほど不利なわけではない。その場合、CPUの面積の半分はI/O系となり、CPUコアとキャッシュは半分のエリアに押し込められる。

●巨大化しているIntelのサーバーCPU

 400平方mmを越えるSandy Bridge-E 8コア系のダイサイズは大きく感じる。しかし、Intelの最近のサーバー&ワークステーション向けCPUの中では、むしろ小さい方だ。下はIntel CPUのダイサイズ(半導体本体の面積)移行図に、2006年のNetBurst系MP CPU「Dual-Core Xeon 71xx(Tulsa:タルサ)」以降のサーバーCPUを加えた図だ。IA-64系は入っていない。

Intelのダイサイズ移行図(PDF版はこちら)

 こうして見ると、Intelのx86/x64系サーバーCPUは、大型化していることがよくわかる。その理由の1つは、かつてはIA-64に開拓させていた市場にも、今はx86/x64系を浸透させつつあるからだ。Nehalem-EXに至っては700平方mm近いサイズだった。45nmのNehalem-EXと32nmのSandy Bridge-Eを比較すると、同じ8コアでも、ダイは60%に縮小している。

Nehalem-EXとSandy Bridge-Eのダイ比較(PDF版はこちら)

 対抗するAMDのBulldozer 8コアのダイ「Orochi(オロチ)」と比べると下の図のようになる。Orochiは8コア(4モジュール)で、Sandy Bridge-E 8コアのダイの3/4程度のサイズに収まっている。

Bulldozer 8コア(Orochi)とSandy Bridge 8コアのダイ比較(PDF版はこちら)

 Sandy Bridge-Eのダイを、4コアのSandy Bridge、それに22nmプロセスのIvy Bridgeと比較したのが下の図だ。これを見ると、8コアのSandy Bridge-Eが、ほぼ4コアプラスGPU版Sandy Bridgeの半分のサイズであることがよくわかる。また、比較すると、Ivy BridgeのCPUコアは小さく、Ivy Bridgeのサーバー版であるIvy Bridge-EXは、CPUコアを増やしやすいことも一目瞭然だ。

Sandy Bridge 8コア/4コアとIvy Bridge 4コアのダイ比較(PDF版はこちら)