●A0シリコンでのNehalemのデモを公開
IntelのPatrick(Pat) P. Gelsinger(パット・P・ゲルシンガー)氏(Senior Vice President and General Manager, Digital Enterprise Group)は、現在サンフランシスコで開催されているIntel Developer Forum(IDF)で「Tick Tock: Powerful, Efficient and Predictable」と題した基調講演を行なった。その中で、Intelの次期CPUマイクロアーキテクチャ「Nehalem(ネハーレン)」の概要を明らかにした。また、3週間前にアップしたNehalemの「A0」シリコンを使い、DP(Dual-Processor)構成での実動デモを行なった。A0が最初のサンプルチップとなる。 Nehalemの基本的な内容は、前回と、前々回とで、すでにレポートした通り。最初の実装では、Nehalemは4個のCPUコアと、DRAMコントローラ、シリアルインターコネクト「QuickPath interconnect(QPI:キューピーアイ)」、マルチレベルの共有キャッシュを実装する。8コアのバージョンも計画されている。 IDFでは、それに加えて、Nehalemに追加される新命令や、マイクロアーキテクチャがCore MAと同様に4イシュー/サイクルであること、64-bitに最適化された設計になること、GPUコアがCPUのダイ(半導体本体)に統合されること、マルチプロセッサ(MP)版ではQuickPath interconnect(CSI)が4リンクになることなどが明らかにされた。ただし、Nehalemのマイクロアーキテクチャの詳細や、謎の多いキャッシュ階層などについては、今回は明らかにされなかった。
●システム構成が一新されるNehalem Gelsinger氏は、NehalemにDRAMコントローラ、シリアルインターコネクト「QuickPath interconnect(QPI:キューピーアイ)」が統合され、システム構成が一新されることが公式に明らかにされた。下がGelsinger氏が基調講演で示したスライド。それを、これまでに判明しているNehalemの構成と重ね合わせたのが下の図だ。
今回明らかになったのは、MP(Multi-Processor)版のNehalemには、4リンクのQuickPath interconnectが実装されること。それに対して、DP(Dual-Processor)版のNehalemは2リンクの構成となっている。Intelのロードマップでは、MP版だけスケジュールが後ろにずれており、MP版のダイはUP/DP版と異なることが予想される。QuickPath interconnectの実装されているリンク数が異なるとすれば、ダイは当然異なることになる。 MP版Nehalemは、コードネーム「Beckton(ベックトン)」と伝えられている。Gelsinger氏は、MP版Nehalemのプラットフォームは、次期IA-64プラットフォーム(Tukwila世代)とソケット互換ではないがシステム互換になると説明しており、サポートメモリもUP(Uni-Processor)/DP版とは変わり、FB-DIMMになる可能性が高い。また、MP版ではキャッシュサイズも変わることが示唆された。 現在の情報によると、Nehalem世代のDPプラットフォームの構成の詳細は次の図のようになる。
前々回で説明したように、DP版Nehalemでは、2個のNehalem CPU同士が1リンクのQuickPath interconnectで結ばれ、さらにそれぞれのNehalemが1リンクのQuickPath interconnectでチップセットと結ばれている。NehalemのDP版は「Gainestown(ゲインズタウン)」と呼ばれる。 サーバー&ワークステーションとパフォーマンスPC向けの対応チップセットは「Tylersburg(タイラースバーグ)」。CPU側にメモリコントローラが移ったため、Tylersburgのノースブリッジチップは「MCH」ではなく「IOH(I/O Hub)」と呼ばれている。IDFでは、TylersburgもNehalemとの組み合わせで動作デモが行なわれた。 Tylersburgには、QuickPath interconnectが2リンクのバージョンと1リンクのバージョン、PCI Expressのレーン数が36レーンのバージョンと24レーンのバージョンがある。IOH側に2リンクのQuickPath interconnectが実装されているのは、2個のCPUと直結するためだ。UP版ではQuickPath interconnectは1リンクとなり、CPUとチップセットIOHが1対1で結ばれる。 MP版では、DP版の構成がさらに拡張され、各Nehalemがそれぞれ4リンクのQuickPath interconnectで、CPU同士とIOHを結ぶ構成となる。CPUは、他の3つのCPUとワンホップで接続され、さらに、隣接するIOHともワンホップで接続される。 ●DDR3を3チャネル備えるNehalemのメモリコントローラ IDFでは、NehalemのサポートメモリがDDR3で、コンフィギュレーションによるがバッファドとアンバッファドの両方がサポートされることも公式に明らかにされた。Nehalemのメモリインターフェイスの構成については、前回でレポートした通り。3チャネルのDDR3インターフェイスをCPU側に内蔵し、DDR3-800/1066/1333をサポートする。Gelsinger氏は、デュアルチャネルDDR2との比較で、3倍のメモリ帯域と説明している。3チャネルDDR3で1,600Mbps時には3倍のメモリ帯域となるため、Nehalem世代でDDR3-1600もサポートする可能性が高い。 ちなみに、IntelはDDR3-1600だけでなく、拡張規格としてDDR3-2133も計画している。前回のレポートでは、DDR3-1600以上ではマザーボード上にバッファアレイを配置する「BoB」をIntelが計画していると書いた。しかし、複数の業界関係者からの情報によると、IntelはDDR3-1600/2133でも、バッファを使わずに、そのまま1チャネルに2枚のUnbuffered DIMM(UDIMM)/Registered DIMM(RDIMM)を接続することを検討しているという。タイミングマージンがきつくなるため、技術的なハードルは高い。
●CPUコアのマイクロアーキテクチャは一新 NehalemのCPUコアは、Core MAの4命令イシュー/サイクルを継承する。これは、Core MA以前の3命令イシュー/サイクルから拡張されている。ただし、NehalemのCPUコアのマイクロアーキテクチャは、完全に新設計で、Core MAの拡張ではないという。マイクロアーキテクチャ自体にもさまざまな新技術が織り込まれているはずだが、今回は、その点は明らかにされていない。 Nehalemでは、マルチスレッド技術SMT(Simultaneous Multithreading)も組み込まれた。Nehalemコアは、2wayのSMTによって、1コアで2スレッドを同時実行できる。そのため、クアッドコアのNehalemでは、8スレッドを実行できる。SMTは、NetBurstアーキテクチャでは採用されたが、Core MAでは省かれていた。Gelsinger氏は、CPUコアの設計サイズの4~5%の増加で、0~30-40%程度のパフォーマンスアップが得られる2wayのSMTは、CPUのパフォーマンスアップの方法としては非常に有効だと説明した。 また、Gelsinger氏は、Nehalemが64-bitに最適化されたマイクロアーキテクチャになることも明確にした。32-bitモードももちろん従来通りサポートされるが、最初から64-bitを考慮した設計となっている。当然、64-bit時のパフォーマンスが、32-bit時より落ちるといった問題もなくなると見られる。 このことは、Core MAで64-bitパフォーマンスを削ぐ原因となっている、命令プリフェッチと命令プリデコード、命令デコード部分の設計が大きく変わっていることを意味している。Core MAを見ると、こうした部分が32-bitに最適化されて設計されており、64-bitは追加されたような気配がある。 Penrynでは47のSSE4命令が加わるが、NehalemではSSE4.2としてさらに7命令が追加される。Nehalemでは、Application Targeted Accelerator(ATA)命令として、より複雑な操作の命令が加えられる。「Cyclic Redundancy Check (CRC:巡回冗長検査)」のバリューのチェックを行う命令「CRC32」、オペランド中のビットセットの数を数えるラージデータセットのサーチ向けのPopulation Count命令「POPCNT」、XMLなどのアクセラレーションを可能にするストリーミング命令などが加わる。このほか、Gelsinger氏は、Nehalemアーキテクチャの32nmプロセス版である「Westmere」では、暗号化アクセラレーションを可能にする「AES-NI」が加わることも明らかにした。
●大きなCPUのダイ(半導体本体) Nehalem系CPUのダイ(半導体本体)は大きい。IDFで示されたNehalemのウェハを見ると、縦に22個分、横に15個(エッジで分断されている部分を含めて)分が配置されているように見える。すると、計算上ではダイサイズは約270平方mmとなる。Intel CPUのダイサイズの比較は下の図のようになる。
Nehalemのダイサイズを、同じ45nmプロセスのCore MAのPenryn(ペンリン)と比べると、Penryn 6Mが107平方mmで、Penryn 6Mのダイを2個、MCM(Multi-chip Module)で封止したYorkfieldは合計で214平方mm。Core MAと比べると、ダイはラフに言って約20%大きい。しかし、NehalemにはノースブリッジのDRAMコントローラ部分がCPU側が入り、さらにFSBがシリアル伝送となりSerDesが入った。それを考えると妥当なラインだ。 ちなみに、Nehalemのトランジスタ数は731M(7億3,100万)で、Yorkfieldの820M(8億2,000万)より少ない。これは、トランジスタ密度の高いSRAMの量のためだと推測される。最初のNehalemのキャッシュサイズは8MBと見られ、Yorkfieldの合計12MBより少ないと推測される。 実際に、Nehalemのダイ写真を見ると、キャッシュSRAMの面積は相対的にCore MAよりずっと少ない。CPUコアとI/Oの占める面積がぐっと大きくなっている。特に、CPUコアのサイズはCore MAよりぐっと大きく、レイアウトも全く異なっている。この点からも、NehalemのCPUコアが新設計であることがわかる。
ちなみに、ダイ写真上に見えるCPUコアは、Core MAのように2つのコアが密接に統合されたレイアウトにはなっていない。CPUコア1つ1つが、ユニットとして区切られているように見える。CPUコア数をスケーラブルに増減しやすいように、設計されていることがわかる。 IntelはNehalemのチップセットTylersburgのウェハも公開した。ウェハからはTylersburgのダイサイズが140平方mm台であることが推測される。チップセットは通常100平方mm以下、大きくても120平方mmが一般的なので、こちらもかなり大型だ。 □関連記事 (2007年9月20日) [Reported by 後藤 弘茂(Hiroshige Goto)]
【PC Watchホームページ】
|