●インターフェイス回りを強化したNehalem 前回の記事「いよいよベールを脱ぐIntelの次期CPU「Nehalem」」でレポートしたように、IntelのNehalemではシステム構成が大きく変わる。特に、特徴的な点は、CPUの周囲のI/Oが大幅に拡張されたことだ。メモリ回りでは3チャネルのDDR3インターフェイスをCPU側に内蔵し、DDR3-800/1066/1333をサポートする。メモリ帯域はピン当たり転送レートが最大の1,333Mbps時に32GB/secに達する。帯域はデュアルチャネルDDR3と比べると1.5倍、デュアルチャネルDDR2-800の12.8GB/secからは2.5倍となる。 もっとも、デスクトップでは、バリューセグメントのNehalemはメモリコントローラをチップセット側に持つと言われており、上位のNehalemとは話が異なっている。また、3チャネルインターフェイスのマザーボード上での引き回しは難しく、Intelの提供するデザインガイドはあるものの、マザーボード上での実装面積を取り、マザーボードレイアウトが制約されてしまう。そのため、ほとんどのPCでは2チャネルに留まるだろうという。 また、NehalemではFSB(Front Side Bus)はシリアルインターコネクトの「Intel QuickPath interconnect(CSI)」になり、ピン当たり転送レートは6.4Gbpsとなった。インターフェイス幅は32bitsなので、帯域は25.6GB/sec。従来のFSB 1,333MHzの10.7GB/secに対して、これも約2.5倍に伸びた。来年(2008年)第1四半期に登場するX48チップセットはFSB 1600なので差は縮まるが、それでも大きなジャンプであることに違いない。 こうして概観すると、増えるCPUコアとパフォーマンスに合わせて、I/O回りのパフォーマンスを伸ばしたのがNehalemであることがわかる。もっとも、システム構成としては、AMDの取った道を、ようやくIntelが進んだことになる。
●多様な構成が可能なTylersburgのPCI Express Gen2 これは、Nehalemに対応するチップセットである「Tylersburg(タイラースバーグ)」についても同じだ。Nehalemプラットフォームでは、DRAMコントローラがCPUサイドに移動したため、チップセット側が空いた。そのため、Tylersburg IOHでは、2リンクのQuickPath interconnectと、最大36レーンのPCI Express Gen2を備える。Tylersburgの実態は、シリアルインターコネクトのスイッチだ。 Tylersburgでは、36レーンのPCI Express Gen2を柔軟にコンフィギュレートできる。例えば、デュアルPCIe x16構成とデュアルPCIe x2の構成、4 x8と2 x2の構成、8 x4と2 x2または9 x4の構成などが可能だ。x8で接続するなら、4枚のビデオカードを接続することも可能になる。 さらに、Tylersburgは最大2リンクのQuickPath interconnectを備えるため、Tylersburgが2個の構成を取ることもできる。CPU側がシングルプロセッサでもデュアルプロセッサでも、Tylersburgをデュアル構成にすることが可能だ。デュアルTylersburgの構成では、PCIe Gen2 x16を最大4基備えることができる。そのため、x16で4枚のビデオカードを接続できる。 この構成では、最大でクアッドコアのデュアルプロセッサと4ビデオカード構成が実現できる。エンスージアスト向けハイパフォーマンスPCでは、これが最高の構成になるだろう。
●メモリ搭載量を増やすための3チャネルDDR3 帯域面の利点があるNehalemの3チャネルDDR3だが、実際にはより広いメモリ帯域を求めてというより、より多くのメモリ搭載を求めての要素が強い。少なくとも、サーバー&ワークステーションではIntelはそうした説明をしているようだ。これは、Nehalemのサポートするメモリ構成を見るとよくわかる。 メモリインターフェイスは、高速化の代償として1チャネルに接続できるDRAMの個数が減る傾向にある。そもそも、DDR3の構想段階のスペックでは、1チャネルにつき1DIMMスロットで、1スロット当たり2ランク(Rank)の計画だった。いわゆる「ポイントツー2ポイント」のアプローチで、バスのスタブ(分岐)からの反射による信号の品質の劣化を減らすとされていた。最終的にDDR3は1チャネル2 DIMMまでスペックが拡張されたが、Unbuffered DIMM(UDIMM)だけでなく、Registered DIMM(RDIMM)もきつい制約が課される。RDIMMでも、1チャネルにつき2 DIMM(ただし4Rankサポート)が制約となっている。 この制約の枠内でメモリ搭載量を増やすために、Intelはさまざまな工夫をしている。もともとはIntelはDDR3世代ではFB-DIMMを使うことで、メモリ搭載量の制約を突破しようとしていた。しかし、DDR3のスペックが1チャネル2 DIMM 4Rankに変わり、その一方で、FB-DIMMがレイテンシの問題から1チャネル実質4DIMMにと制約されたことで、状況が変わった。Intelは、現状ではデュアルプロセッサ(DP)までのNehalem世代では、RDIMMで搭載量を確保する方策に出ている。 ●DDR3世代でも1チャネル3DIMMでメモリ搭載量を増やすIntel Gainestown/Bloomfieldでは、1チャネル3 DIMMスロットまでをサポートする。DDR3のスペックとかみ合わないようだが、これには仕掛けがある。Gainestown/Bloomfieldで、3 DIMMをサポートするのは2Rankまでで、4Rankは2 DIMMまでのサポートになっている。Intelは、これで自社プラットフォームのバリデーションを行なうことで3DIMMを実現するつもりだ。 結果として、以下のような制約がある。Gainestown/Bloomfieldでは、3チャネルが各3 DIMMスロットで合計9 DIMM(DPの場合は18 DIMM)スロットをサポートするが、9 DIMM(DPでは18 DIMM)にできるのは2Rankまでで、4Rankでは6 DIMM(DPでは12 DIMM)となる。4Rankの方が DIMMの容量は2倍になるので、6/12 DIMMでも容量は大きくなる。デュアルプロセッサ(DP)の場合、2G-bit DRAMチップでは2Rankの8GB DIMMが18枚で最大144GB、4Rankの16GB DIMMが12枚で最大192GB。4G-bit DRAMチップになると2Rankまでで18枚、最大288GBに伸びる。 これがもし、Gainestownに統合するメモリインターフェイスがFB-DIMMで2チャネルだったとしたら、各チャネル4 DIMMで最大8 DIMMで、現在の9 DIMMとほぼ同レベルとなる。簡単に言えば、FB-DIMMを使った場合と同レベルのシステムメモリ搭載量を確保しようというのが、今回の3チャネルDDR3だ。PCでは非現実的な容量だが、サーバーでは意味がある。 特に、CPUのマルチコア化が進むと、従来はマルチプロセッサのソリューションだった領域もデュアルプロセッサ構成のサーバーに落ちてくる。そうすると、デュアルプロセッサのプラットフォームでも大容量のシステムメモリを必要とするソリューションが増える。Intelの動きは、こうした状況を反映している。 ちなみに、物理メモリアドレスはGainestown/Bloomfieldでも40 bitsなので、アドレス空間は1 TBが上限。Gainestown/Bloomfieldの実装を見ると、あと数年で上限に来ることがわかる。マルチプロセッサ版の「Beckton(ベックトン)」になると、もっと上限が近いはずで、物理アドレスの拡張も近づいている。ちなみに、UDIMMの場合は、1チャネル2DIMMまでで、1DIMM当たり2Rankまでとなる。シングルプロセッサでは6 DIMM、デュアルプロセッサでは12 DIMM。DRAMはx8かx16となるので、2G-bit DRAMチップで2RankでもDIMM当たり4GB。最大で24GB(DPでは48GB)となる。1G-bit DRAMチップの場合はその半分、1Rankではさらに半分となる。 ちなみに、Gainestown/Bloomfieldでは、RDIMMとUDIMMのどちらにも対応するが、1チャネル3スロットが実装されていても、UDIMMは2枚までしか挿せない。また、3スロットに2枚を挿す場合には、DDR3の転送レートは1,066Mbpsまでに制限され、1,333Mbpsはサポートされない。容量と速度のトレードオフにある。 ●IntelとAMDで異なるDDR3世代のメモリソリューション Nehalemの3チャネルDDR3のフォーカスが、サーバー&ワークステーションでは容量であって帯域ではないのは、転送レートのサポートを見るとわかる。UDIMMだけでなく、RDIMMでも、転送レートと1チャネルに接続できるDRAM数はトレードオフの関係にある。まず、4Rankの場合はRDIMMでも1,333Mbpsはサポートされず、1,066Mbpsまでのサポートになる。ロードするDRAM数が増えることで制約される。 また、Gainestown/Bloomfieldのスロット数によっても転送レートは制約される。1チャネル3スロットで3DIMMまでを挿す場合、転送レートは800Mbpsに制限される。つまり、2Rankでの最大容量を満たす場合にはDDR3の転送レートは800Mbpsに、4Rankでの最大容量の場合には1,066Mbpsが上限となる。これがIntelのアプローチの制約だ。 これを、AMDのサーバー&ワークステーションにおけるDDR3サポートのアプローチと比較して見ると面白い。AMDは、2009年にOpteron系でSocket G3を導入してDDR3をサポートする。G3をサポートするのは、2009年第1四半期のオクタコアCPU「Montreal(モントリオール)」になると言われているが、AMDの場合は製品計画とコードネームが揺れるため、確実ではない。ちなみに、Montrealは、クアッドコアの45nmプロセスCPU「Shanghai(シャンハイ)」のダイを2つ、パッケージ内に納めた「MCM(Multi-chip Module)」になると言われている。 AMDは、サーバー&ワークステーションでのDDR3は、UDIMM、RDIMM、そしてG3MXの3段階でサポートする。最上位のサーバー&ワークステーション向けのG3MXソリューションは、メモリバッファチップをマザーボード上に据える。バッファチップを介することで、メモリ容量とデータ転送レートの両立を図る。比較すると下の図のようになる。
Socket G3世代のAMD CPUは2チャネルのDDR3インターフェイスを備える。インターフェイスはバッファチップインターフェイスと互換となっていて、各チャネルに2個のメモリバッファチップを接続できる。各メモリバッファは、2チャネルを備え、通常のDDR3 RDIMMを1チャネル2 DIMMで駆動できる。バッファチップを介する点はFB-DIMMと似ているが、FB-DIMMとは異なり、DIMM自体は標準的なJEDECのDDR3 RDIMMを使う。 G3MXでは、合計で上の図のようなメモリ構成が可能となり、大容量のシステムメモリを搭載できる。1チャネル3DIMMスロットのような無理はしないため、DRAM当たりの転送レートも犠牲にせずにすむ。バッファチップを要する分だけG3MXはコスト増となるが、容量と転送レートの利点は大きい。 ●Intelもまたバッファアレイの搭載を検討 もっとも、Intelもバッファアレイをマザーボード上に搭載するBoBと呼ぶソリューションを、おそらく2009年頃の導入として計画している。IntelのBoBもG3MX同様に、標準的なDIMMを使うため、FB-DIMMのようにDIMM自体を変える必要がない。 IntelもAMDと同じようにバッファをかませることを考えているのは、DDR3-1600以降の転送レートでは、1チャネルに2DIMMですら駆動することが難しくなって来るからだ。Intelは最近まで、DDR3-1333以降のメモリサポートの計画を明らかにして来なかったが、それにはそうしたDRAM技術上の理由がある。 ただし、IntelはDDR3-1600を前倒しで来年(2008年)第1四半期のX48チップセットでサポートするという情報もある。X48でどうやってDDR3-1600をサポートするのか、DIMM数に制約をつけるのかどうか、このあたりはまだわかっていない。JEDEC(米国の電子工業会EIAの下部組織で、半導体の標準化団体)でのDDR3の標準化作業に火をつけるという目的もあるのかもしれない。 ちなみに、AMDはDDR2を1,066Mbpsまで拡張してメモリ帯域を上げる。そのために、AMDの後押しによってJEDECで進めていた1,066Mbps DDR2の規格化は完了した。しかし、DDR2-1066を推進するMicron TechnologyとAMDに対して、一部の有力DRAMベンダーが抵抗。その結果、通常のDDR2の名前を冠することで合意することができず、「Special DDR2-1066」という名称で決まったと言われる。こうした流れを受けて、IntelもSpecial DDR2-1066をサポートすると言われているが、まだ具体的なプランは見えない。
□関連記事 (2007年9月18日) [Reported by 後藤 弘茂(Hiroshige Goto)]
【PC Watchホームページ】
|