後藤弘茂のWeekly海外ニュース

AMDの12コアのサーバーCPU「Magny-Cours」は2010年第1四半期に登場



●2010年第1四半期にはデュアルダイで12コアのMagny-Cours

 AMDは、今年(2009年)6月に6コアのサーバー向けCPU「Istanbul(イスタンブール)」を投入する。予定を2四半期ほど繰り上げての投入となる。製品デリバーが遅れ遅れになっていたAMDが巻き返しを図る。また、Istanbulは、AMDとしてはこれまでにない巨大サイズのダイのCPUで、AMDがサーバーにさらに注力することを示している。AMDは、Istanbulの後もサーバーは速いペースでプラットフォームとCPUの更新を行なう。

 前倒しになったIstanbulの次に控えるのは、来年(2010年)第1四半期に予定されている12または8コアの「Magny-Cours(マニクール)」と、そのプラットフォーム「Maranello(マラネロ)」だ。Magny-Cours+Maranelloからは、システムアーキテクチャが「Direct Connect Architecture(DCA) 2.0」へと移行する。

 Magny-Coursは、2個のCPUダイを1個のパッケージに封止したMCM(Multi-Chip Module)技術のCPUだ。6コアのダイを2個載せることで合計12コアとなる。従来「Sao-Paulo(サンパウロ)」と呼ばれていた8コア版は、Magny-Coursのコードネームに統合された。Magny-Coursが8コアと12コアの両方を含むことになる。このことから、8コア版もMCMであると見られる。

Istanbulの主な概要
K10のダイサイズ推定
AMD CPUの移行図

 歩留まり向上のために、欠陥CPUコアとキャッシュエリアをディセーブル(無効化)にした製品を作らざるを得ないことを考えると、8コア版が登場することは理にかなっている。8コア版を作ることで、歩留まりは劇的に向上する。ダイ上で50%以上を占めるCPUコアとL3キャッシュが、事実上歩留まりに影響しなくなるからだ。

 Magny-Coursでは、CPUコア数の倍増に加えて、システムインターフェイスを大きく拡張することで性能が大幅に伸びるという。AMDのチャートでは、現行の4コアの45nmプロセスCPU「Shanghai(シャンハイ)」に対して、Magny-Coursでは整数演算と浮動小数点演算のどちらも2.5倍ほど性能が伸びている。ところが、Shanghaiと同じプラットフォームに乗るIstanbulでは、整数演算性能は約1.7倍弱に伸びるのに浮動小数点演算性能は1.2倍強程度伸びに留まる。Istanbulで浮動小数点演算性能の伸びが鈍化しているのは、メモリがボトルネックになっているためだと推測される。Magny-Coursでは、帯域の制約が外され、性能が伸びると考えられる。

 Magny-Coursからは、CPUの新機能もイネーブル(有効化)される。仮想化支援ハードウェア機構のAMD-Vが新バージョンのAMD-V 2.0に、省電力制御のAMD-PがAMD-P 2.0に、それぞれ拡張される。もっとも、プラットフォームと機能はIstanbulからMagny-Coursでジャンプするが、実際の半導体チップ自体はおそらく同じ設計だろう。CPUメーカーは、次のCPUでイネーブルする機能を前もって実装しておき、実際のシリコンでテストを行なうのが常だ。Istanbulで機能は全て実装されており、Magny-Coursでイネーブルされると考えるのが自然だ。

2009年と2010年のプラットフォーム比較サーバー向けCPUの性能向上
AMD-VスイートとAMD-PスイートAMD-V 2.0とAMD-P 2.0の概要

●サーバーCPUの切り分けをMCMとシングルダイに変更

 こうした変化以上に重要な点は、AMDのサーバーCPUの切り分けが変わる点だ。これまで、AMDのサーバーCPUはソケット数で区切られてきた。4ソケット以上がOpteron 8000系、2ソケットがOpteron 2000系、1ソケットがOpteron 1000系だ。しかし、Magny-Cours世代からは区分が変わる。「パフォーマンスと拡張性(Performance/Expandability)」重視の市場向けの「Opteron 6000」系と、「電力効率とバリュー(Power Efficiency/Value)」重視の市場向けの「Opteron 4000」系に2分する。

 伝統的な区分で言えばデータベースサーバーなどがOpteron 6000系のPerformance/Expandability、WebエッジサーバーなどがOpteron 4000系のPower Efficiency/Valueに入る。それぞれサポートするソケット数が異なる。上位のOpteron 6000が2ソケットと4ソケット以上をサポートし、下位のOpteron 4000が1ソケットと2ソケットをサポートする。

マーケットの変化

 この区分を半導体チップの面から見ると、こちらもきれいに分かれる。MCMの8~12コアのMagny-Coursが上位のOpteron 6000系、シングルダイと見られる4~6コアの「Lisbon(リスボン)」がOpteron 4000系となる。つまり、2個のダイのCPUが上位、シングルダイのCPUが下位という切り分けとなる。

 ここでポイントは、AMDは、C32ソケットCPUの中身として2つの選択肢を持っている点だ。すなわち6コアのIstanbul系のダイだけでなく、4コアのShanghai系のダイを使うこともできる。C32のメモリチャネルは2なので、低コストなShanghai系ダイでも問題なくサポートできる。AMDはデマンドと市場価格に応じて、フレキシブルに対応できるだろう。

●4チャネルメモリで50GB/sec近いメモリ帯域を実現

 AMDのプラットフォームも新しいCPU区分に対応する。Opteron 6000系向けのプラットフォームが「Maranello(マラネロ)」で「ソケットG34」サポート。Opteron 4000向けプラットフォームが「San Marino(サンマリノ)」で「ソケットC32」。現在は、2ソケットと4ソケット向けのプラットフォームが共通のソケットFベースの「Fiorano(フィオラノ)」で、1ソケット向けだけがデスクトップと同じソケットAM2ベースで異なっていたが区分が変わる。C32のSan Marinoは、以前のAMDのロードマップにはなく、今回が初めての公開となる。

Opteron 6000シリーズと4000シリーズのロードマップ

 CPUソケット数の上限以外でのG34とC32の最大の違いはメモリインターフェイスだ。G34が4チャネルメモリ、C32が2チャネルメモリとなっている。どちらもRegistered DIMM(RDIMM)またはUnbuffered DIMM(UDIMM)のDDR3に対応する。G34が1チャネル3DIMMで合計12DIMM、C32が1チャネル2DIMMで合計4DIMMまでのサポートとなる。1チャネル3DIMMにはDIMMのラック数などの制約があると推測される。

 AMDはG34のMaranelloプラットフォームでは、CPUコア数が現在の4コアから12コアへと3倍になるだけでなく、メモリチャネルが2倍に、メモリ帯域が3.3倍、HyperTransportの帯域が1.9倍、キャッシュ量が2.2倍になるという。

Direct Connect Architecture 2.0

 メモリは、現状のShanghaiがDDR2-800の2チャネルで、メモリ帯域は最大12.8GB/sec。3.3倍の帯域では42.7GB/secとなる。Maranelloのメモリチャネルは4チャネルなので、DDR3-1333までをサポートすることがわかる。DDR3-1600時には51.2GB/secに達する。

 Intelの8コアハイエンドCPU「Nehalem-EX(Beckton:ベックトン)」はFB-DIMMインターフェイスをオンマザーボードのバッファチップを介してDDR3 DIMMをサポートする。コスト面ではAMDに利がある。

 ちなみに、CPUダイを見る限りIstanbul自体のメモリチャネルが2チャネルなのに、G34が4チャネルメモリをサポートするのは、もちろんMCMによるデュアルダイ構成だからだ。それぞれのダイが2チャネルずつメモリインターフェイスを備えるため、G34ソケットCPUは4チャネルメモリをサポートできる。G34はMCMデュアルダイを前提としたソケットであることがわかる。

 HyperTransportは、G34になると、リンク数が現在の3リンクから4リンクに増える。現状のShanghaiはHyperTransport 3だが転送レートが4.4Gtpsなので、16/16(片方向16-bitずつ)の1リンク当たりの帯域は17.6GB/sec。3リンクで52.8GB/secとなる。4リンクのG34で帯域が1.9倍に上がることは、転送レートもHyperTransport 3.1の6.4Gtpsに上がることを意味する。帯域は1リンクで25.6GB/sec、4リンク合計で102.4GB/secとなる。

G34プラットフォーム
K10のダイサイズ比較

●ハイペースで続くサーバーCPUの性能向上に合わせる

 G34 Maranelloプラットフォームの狙いは明瞭だ。CPUパフォーマンスのさらなる増大に備えて、メモリとI/Oの帯域を引き上げることにある。2011年に登場する「Bulldozer(ブルドーザ)」アーキテクチャのOpteron 6000系CPU「Interlagos(インテルラゴス)」も、Magny-Coursと同様にMaranelloプラットフォームに乗る。CPUパフォーマンスを引き上げ、CPUコア数も増大させるInterlagosは、さらにメモリ帯域ハングリとなる。AMDとしてはプラットフォームの帯域を何としても引き上げておかなければならない。

 AMDの性能予測のチャートを見ると、2008年のShanghaiに対して2010年のMagny-Coursでは整数と浮動小数点演算の両方の性能が約2.5倍に伸びる。そして、Bulldozer世代のInterlogosになると、Shanghaiに対して浮動小数点演算は4.2倍以上、整数演算は3.6倍以上伸びるとAMDのチャートは示している。下の米国でのWebカンファレンスのスライドでは、Interlogosの予測性能が明確に示されているように見えるが、実際はこの数字より上へ伸びることがぼかしで示されている。日本で行なわれた説明会のスライドでは、より明瞭にそれが示されていた。

 チャートが示すところは明瞭だ。サーバーCPU性能の向上は一定比率で維持され続ける。初代Opteron以来、年平均1.6倍強のペースで整数と浮動小数点演算ともに伸びており、それが今後も継続されることになる。もちろん、この数字はAMD公称のもので、CPUの理想条件での性能比だと見られる。1.8GHzのシングルコアK8を1とした場合に、2.5GHzの4コアK10の性能が約10倍強となっている。しかし、ここで重要な点は性能そのものではなく、性能向上の比率がほぼ一定に保たれるという点だ。AMDのサーバーCPUでは、デスクトップPC向けCPUの向上比率よりハイペースで性能向上が維持される。

 そのために、AMDはCPUダイを巨大にしつつ、MCMでCPUダイを複数化し、サーバーCPUをデスクトップCPUから分化させて、コストをかけても性能を上げようとしている。だから、それに見合ったプラットフォーム性能が必要となる。

2011年のCPU性能予測