後藤弘茂のWeekly海外ニュース

8コア×8ソケットで64コア128スレッドの「Beckton」




●MPサーバーCPUを強化しつつあるIntel

 Intelは、IA-32系のMP(Multi-Processor)サーバーCPUに力を入れ始めている。IntelのサーバーCPU全体のロードマップを見ると、明瞭にその傾向を見て取ることができる。Intelは現在、デスクトップPC、モバイルPC、ボリュームサーバーの3分野に対しては、ほぼ同じ設計のCPUを使っている。それに対して、今後のMPサーバーCPUは、PC&ボリュームサーバー向けCPUとは、大きく設計を変え、CPUコア数を倍増した製品を投入して行く。

IntelサーバーCPUロードマップ
(別ウィンドウで開きます)
PDF版はこちら
IntelのMP版CPUの流れ
(別ウィンドウで開きます)
PDF版はこちら
Nehalemのサーバープラットフォーム
(別ウィンドウで開きます)
PDF版はこちら

 以前のXeon MP系CPUは、PC&ボリュームサーバー向けCPUそのままか、オンダイでL3キャッシュを加えただけのCPUだった。しかし、昨年(2006年)のNetBurst系MP CPU「Dual-Core Xeon 71xx(Tulsa:タルサ)」では、CPU設計を大きく変え、ネイティブデュアルコア化と16MB L3キャッシュの搭載を行なった。さらに、CPU全体の物理設計を大きく見直し、消費電力の削減を図った。

 Intelが来年(2008年)第4四半期に投入する6コアのDunnington(ダニングトン)や、2009年後半に投入する8コアの「Nehalem-EX(ネハーレンEX)」も同じ流れにある。CPUをエンタープライズ向けに再設計し、より多くのCPUコアと大容量のキャッシュを搭載する。今年(2007年)のQuad-Core Xeon 73xx(Tigerton:タイガートン)は、例外的にPC系CPUに近いが、これは開発していたMP向けネイティブクアッドコアCPU「Whitefield(ホワイトフィールド)」がキャンセルになってしまったためだ。Tigertonはピンチヒッターで、本来の計画では、ここもMP向けに設計されたマルチコアCPUになるはずだった。つまり、Intelは2006年以降は、MP向けCPUの設計に多くのリソースを割き、本腰を入れている。

 IntelのサーバーCPUのこうした設計の示す意味は明瞭だ。Intelは、サーバーCPUの強化に本気で取り組んでいる。特に、MPプラットフォームは堅固に固めようとしている。

 もっとも、これまでは、CPUマイクロアーキテクチャが1世代遅れとなるため、その効果はあまり出なかった。例えば、NetBurstマイクロアーキテクチャの最後のCPUであるTulsaは、PC&ボリュームサーバーがCore Microarchitecture(Core MA)に移行したところに登場した。そのため、インパクトが薄かった。しかし、今後はCPUコア数で、PC&ボリュームサーバとMPサーバーCPUは明瞭に差がつくようになる。そのため、違いが明確化してゆくだろう。ちなみに、AMDのネイティブオクタコアCPU「Sandtiger(サンドタイガー)」のアプローチも同じだ。

●MP向けのチップセット「Boxboro」

 Intelの次期マイクロアーキテクチャ「Nehalem(ネハーレン)」では、CPU同士をポイントツーポイントで接続するトポロジへと変わる。そのため、従来のIntelプラットフォームと比べると、柔軟に効率の高いマルチプロセッサ構成が可能となる。それは、特にMP(Multi-Processor)向けの「Nehalem-EX」で活きる。Nehalem-EXは、「Beckton(ベックトン)」と呼ばれていたCPUで、最大8 CPUコアを搭載し、2/4/8ソケットのマルチプロセッサ構成をサポートする。

 Becktonをサポートするチップセットは、「Boxboro(ボックスボロ)」となる。Boxboroのスペックは、DP(Dual-Processor)/UP(Uni-Processor)用のチップセット「Tylersburg(タイラスバーグ)」と非常によく似ている。36レーンのコンフィギュラブルなPCI Express Gen2を備えており、x4 ESI(Enterprise Southbridge Interface)によってICHを接続できる。ESIは実際にはPCI Express Gen1互換であるため、ICHを接続しないBoxboroは、x4 PCI Express Gen1インターフェイスも出すことができる。ESIは物理的にはPCI Express Gen1とほぼ同じものだと言われている。

 Boxboroの36レーンのPCI Express Gen2は、x2/x4/x8/x16に自由にバンドルできる。例えば、4x8(x8が4スロット)と1x4や9x4といった組み合わせが可能だ。

 Beckton+Boxboroベースのプラットフォームには「Stoutland(スタウトランド)」というコードネームがつけられていたが、現在は「Boxboro-EX」プラットフォームに名前が変わっているようだ。ちなみに、BoxboroはクアッドコアのIA-64 CPU「Tukwila(タックウィラ)」のチップセット「Boxboro-MC」としても使われる。つまり、Boxboroをベースとして、IA-64とIA-32のコモンプラットフォームが成立する。ただし、ソケット完全互換ではないという。

●8ソケットのグルーレス構成が可能なBeckton

 下がNehalem-EX(Beckton)とBoxboroによる、8ソケットシステム「Boxboro-EX 8S」構成の例だ。

 Becktonは、CPUにシリアルインターコネクト「QuickPath Interconnect(QPI)」を4リンク備える。そのため、上のトポロジのようにグルーチップなしで8ソケットが可能となる。最も遠いCPUに対しても、2ホップでアクセスが可能だ。QPIのリンク数とメモリインターフェイスが異なるため、Becktonは同じNehalemでも、DP(Dual-Processor)向けの「Gainestown(ゲインズタウン)」やUP(Uni-Processor)向けの「Bloomfield(ブルームフィールド)」とはソケット互換ではない。DP/UPのソケットはLGA1366だが、BecktonはSocket-LSとなる。

Nehalem-EXの8ソケットMP構成例
(別ウィンドウで開きます)
PDF版はこちら

 上は8 CPUソケットと4 IOH(I/O Hub)チップの構成だが、8Sでも、これ以外の構成も可能と見られる。例えば、IOHの数を減らすことも可能だろう。上の構成の場合、CPUコア数は合計で64コア、並列スレッド数は128スレッド、搭載できるDIMM枚数はDDR3 Registered DIMM(RDIMM)が128枚。PCI Expressのレーン数はGen 2が108レーン、Gen1が14レーンとなる。

 ただし、Intel自身は8ソケットシステムやマザーボードの提供は行なわない。また、8ソケットについては、詳しい設計ガイドなどの提供やバリデーションも行なわないという。限られた設計ガイドの提供とデバッグ等のサポートしか行なわない。つまり、8ソケットについては、基本的にはシステムベンダーの責任で設計して欲しいというのがIntelのスタンスだ。

●CPUコア数とメモリ搭載量が強みとなる

 下の図は、より一般的な4ソケットと2ソケットのBecktonシステム構成例だ。

 一番上は4ソケット「Boxboro-EX 4S」で2 IOHの構成例。このトポロジでは、各CPUは1ホップで相互にアクセスが可能となっている。BoxboroもQPIを2リンク備えるため、2個のBoxboroがそれぞれ4 CPUのうち2 CPUと接続できる。ちなみに、QPIのピン当たり転送レートは6.4Gtpsと4.8Gtpsの2つがサポートされている。

MP版Nehalemの構成例
(別ウィンドウで開きます)
PDF版はこちら

 4ソケット構成で3 IOHの構成も可能だ。真ん中の構成例がそれだ。図中ではICHを2個描いているが、実際にはICHは1ハードウェアパーティションにつき1個しか搭載できない。ICHは、以前はICH9をサポートとされていたが、現在はICH10サポートとなっているようだ。2ソケット+3 IOHでI/Oインテンシブな構成にすることも可能だ(Intelはバリデイトしない)。

 Becktonを2ソケットで使う「Boxboro-EX 2S」の通常の構成は、一番下の図となる。DP版Nehalem-EP(Gainestown)との大きな違いは、1ソケット当たりのCPUコア数が8コアと2倍になる以外では、Beckton同士を2リンクのQPIで接続している点と、搭載できるDIMM枚数が増える点。BecktonではメモリインターフェイスがFBD2(FB-DIMM2)ベースとなり、オンマザーのメモリバッファチップにより搭載できるDDR3 RDIMMの数が1 CPU当たり16枚となる。つまり、2ソケット時に、CPUコアは16、CPU同士のリンク帯域は2倍、DIMM枚数は2倍の32枚となる。

 DP版サーバーのNehalemであるNehalem-EP(Gainestown)のシステム構成は下の図の上側。UPサーバーのBloomfieldのシステム構成は下の図の下側となる。パフォーマンスPC&ボリュームサーバー向けのチップセット「Tylersburg(タイラスバーグ)」ファミリとの組み合わせとなる。デスクトップPC向けのBloomfieldは、Tylersburg「Tylersburg-DT」との組み合わせで、ほぼ下の図の左下の構成となる。Tylersburg系もICH10に切り替わっているようだ。

Nehalemのさまざまな構成例
(別ウィンドウで開きます)
PDF版はこちら

●2009年第4四半期が転換期となるサーバーCPU

 Intelのサーバー&ワークステーションCPUロードマップ全体を見ると、来年(2008年)第4四半期にはDP/UPのほとんどの分野で一斉にNehalemベースのTylersburg系プラットフォームへと移行が始まる。Tylersburgチップセットのサーバー&ワークステーションプラットフォームは、「Thurley(サーリー)」とも呼ばれている。

 同時期に、IA-64も、Tukwilaへの移行が行なわれる。IA-64はこの世代でクアッドコアに移ることになる。Tukwila世代のIA-64では、CPUコアのマイクロアーキテクチャを完全に再設計し、CPUコアを小型化することでより多くのCPUコアを搭載する方向に切り替えることも検討された。複数命令をバインドするIA-64命令を、いったん命令デコーダで個々の命令単位に分解。分解したRISC風命令を、動的に命令スケジューリングを行なうCPUコアで実行するというラディカルなプランだった。しかし、この計画は早い段階で破棄され、TukwilaではMontecito系のマイクロアーキテクチャに近いCPUコアが使われると言われている。

 Tukwilaでは、FBD2メモリインターフェイスとQPIがCPUに統合される。そのため、プラットフォームも一新され、Boxboro-MCチップセットベースの「Richford(リッチフォード)」プラットフォームとなる。この世代になって、Intelがかなり前からサーバーベンダーに約束していた、IA-64とIA-32のプラットフォーム統合が、ようやく実現することになる。

 一方、IA-32系のMPサーバーは同時期にCore MAベースのヘクサコアCPU「Dunnington」への移行が行なわれる。プラットフォーム自体はIntel 7300 (Clarksboro)チップセットベースの「Caneland」が継続される。MPがNehalemアーキテクチャへと切り替わるのは約1年後となり、アーキテクチャ的には、ここだけが1世代取り残される。その代わり、6 CPUコアとCPUコア数が下のプラットフォームより増える。逆を言えば、CPUコア数を増やすことで、バランスを取る。

 もう1つ移行が遅れるのは、コスト重視のエントリサーバーのUPプラットフォームだ。ここも、2009年に「Foxhollow(フォックスハロウ)」プラットフォームに移行するまでは、Core MAのまま留まる見込みだ。同じことはDP/UPのブレードサーバーにも言える。

□関連記事
【8月18日】【海外】正体が見えてきたIntelの6コア「Dunnington」と8コア「Beckton」
http://pc.watch.impress.co.jp/docs/2007/1018/kaigai394.htm
【10月2日】【海外】デュアルコアからオクタコアまでスケーラブルなNehalem
http://pc.watch.impress.co.jp/docs/2007/1002/kaigai390.htm
【9月27日】【海外】Penrynの1.5倍のCPUコアを持つ次世代CPU「Nehalem」
http://pc.watch.impress.co.jp/docs/2007/0927/kaigai389.htm

バックナンバー

(2007年10月22日)

[Reported by 後藤 弘茂(Hiroshige Goto)]


【PC Watchホームページ】


PC Watch編集部 pc-watch-info@impress.co.jp ご質問に対して、個別にご回答はいたしません

Copyright (c) 2007 Impress Watch Corporation, an Impress Group company. All rights reserved.