●FB-DIMMの影響で複雑化したIntelのDPサーバーロードマップ Intelは、NetBurst(Pentium 4)系サーバーCPUのデュアルコア化も進めようとしている。しかし、65nmプロセス版のDP(Dual-Processor)市場向けデュアルコアCPU「Dempsey(デンプシ)」のリリースは、2006年第1四半期から第2四半期へとずれ込んでしまった。その最大の原因は、サーバー向けメモリモジュール規格「Fully Buffered DIMM(FB-DIMM)」の立ち上げの遅れだ。 Dempseyは、実際には90nm版Pentium D(Presler:プレスラ)と中身は同じなので、Dempsey自体は実はすでにアベイラブルだ。元々の予定でも、第1四半期に投入することになっていた。Intelは遅れをカバーするため、MP(Multi-Processor)用に開発した90nmプロセスのデュアルコアNetBurst「Paxville(パックスビル)」を投入した。 Dempseyの問題は、Dempseyをサポートできるチップセットが、デュアルFSBを備えた「Intel 5000P(Blackford:ブラックフォード)」だけという点にある。Dempseyは、パッケージ内の2個のCPUダイ(半導体本体)がそれぞれFSBを備える。パッケージ内に分岐がある、マルチチップモジュールだ。 IntelのFSBアーキテクチャは、ポイントツーポイントではなくマルチドロップで、1本のFSBに最大4個のCPUを接続できる。しかし、Dempseyが目指すFSB 1,067MHzで接続しようとすると、1本のFSBに2個のCPUまでしか接続できない。そのため、1本のFSBに1個のCPUパッケージ(2個のCPUダイ)しか接続できない。DP構成にしようとすると、チップセット側にFSBが2つ必要になる。PaxvilleはFSBが1つにオンチップで統合されているので、既存チップセットに載せられるが、DempseyはBlackford系が必要となる。 ところが、Blackford系がサポートできるメモリはFB-DIMMだけ。そして、FB-DIMMはJEDEC(米国の電子工業会EIAの下部組織で、半導体の標準化団体)で標準化を行なっていたが、Rambusが基本特許を抑えており、RambusがJEDECに対して特許を開示しなかった。そのため、FB-DIMM製品では、Rambusからの特許ライセンス取得が必要になった。それが最終的に結論となったのが2005年秋。そのため、ライセンス交渉のために、FB-DIMMの立ち上げがずれ込んでしまった。 つまり、FB-DIMM特許→FB-DIMM遅延→Blackford遅延→Dempsey遅延と、連鎖的にスケジュールがずれ込んでしまったと見られる。Blackfordは、それ以前から、DRAMベンダーに伝えていたスケジュールよりずるずると遅れており、FB-DIMMの立ち上げはIntelの思惑よりかなり後ろへずれている。 Blackfordの遅延のあおりを食ってDempseyが遅れたため、2006年のDPサーバーCPUは複雑な状況になっている。Dempseyが今春登場しても、1四半期置いて秋にはMerom(メロン)系アーキテクチャの次世代デュアルコア「Woodcrest(ウッドクレスト)」が登場、さらに2四半期後にはMerom系クアッドコアの「Clovertown(クローバタウン)」が登場と、立て続けに新CPUが登場する。複雑な構図になってしまった。Intelは、当面はDempseyとWoodcrestを併存させるものの、あまりすっきりした移行戦略ではない。
●ブランドを変更しないサーバーCPU戦略 さらに、輪をかけて複雑にしているのが、IntelのCPUブランディング戦略だ。Intelはブランドやナンバーでも、NetBurst系とMerom系の両アーキテクチャの違いを明確にしない。例えば、NetBurstのDempseyと、Merom系のWoodcrestの両方とも、今のところXeon系ブランドになる見込みで、Processor Numberも、Dempseyが5000番台、Woodcrestが5100番台になる。サブブランド名がつかないとすると、見かけ上は、Xeon 50xxとXeon 51xxとなり、わずか100番台の違いと、品番だけでは両CPUの見分けはつけにくい。メッセージは明瞭で、重要なのはプラットフォームで、CPUではないということだ。 もちろん、実際には両CPU系統の中身は全く異なる。高クロック偏重のNetBurstと、並列性重視のMeromは、両極の設計思想に向かったアーキテクチャだ。わかりやすい周波数などのスペックを見ても、NetBurstのDempseyは最高3.73GHzでFSB 1,067MHz、それに対してWoodcrestは最高3GHzでFSB 1,333MHzとなる。常識的に考えれば、動作周波数や命令並列度が大きく異なるアーキテクチャを、製品分類上シームレスにつなげるのは、かなり無理がある。 だが、Intelはそうする。Intelの側には、そうまでしても、CPUアーキテクチャの違いを目立たせたくないという思惑があるように見える。これは、アーキテクチャの変わり目でCPUブランドを変えるモバイルCPUやデスクトップCPUとは、明確に戦略が異なる。DPは新アーキテクチャに切り替わるが、MPはNetBurstアーキテクチャのままという違いをできるだけ意識させないための措置かもしれない。DPのブランドを変えてしまうと、MPだけが取り残された感が強くなってしまう。あるいは、長期的な製品計画が重要なサーバーでは、CPUアーキテクチャの違いを際だたせない方がいいと判断したのかもしれない。もしくは、モバイルグループ側で開発されたMeromに対しての、デスクトップ&サーバー系の意地かもしれない。 ちなみに、CPU価格帯も、DempseyとWoodcrestは並列する。これはIntelの伝統的な戦略で、新フィーチャを備えたCPUを、旧CPUと同価格に並べることで、顧客の移行を促すわけだ。 Intelは、今後はデュアルコアシフトとともにBlackfordを普及させるつもりだ。DPプラットフォームでは、例外的なPaxvilleベースのXeon DP 2.8GHz以外をのぞけば、デュアルコアはDempseyとWoodcrestになる。どちらも、基本的にはBlackford系チップセットでしかサポートしない。そのため、Intelはデュアルコアシフトとともに、Blackfordが急速に浸透するというガイドラインを打ち出している。第2四半期の段階では、Blackfordは10%程度だが、第2四半期には50%弱、第4四半期には85%程度にまで一気に普及するというのがIntelのプランだ。 そして、それにともなって、サーバーメモリも、Intelが求めるFB-DIMMへとシフトするという筋書きだ。つまり、デュアルコア=Dempsey/Woodcrestシフト→Blackfordチップセット普及→FB-DIMM浸透という図式となる。逆を言えば、CPUかメモリのどちらかがつまずくと、もう片方の普及に影響が出るという関係にある。 ●最後のNetBurst CPUとなるTulsa MP市場向けの65nm NetBurst系CPU「Tulsa(タルサ)」は、おそらく最後のNetBurst系CPUとなる。Tulsaは、実は、かなりIntelとしては力の入った、つまり、手間暇をかけて設計したCPUだ。基本的には65nmプロセスのNetBurst CPUコア2個と、16MBのL3キャッシュを集積したCPUだ。しかし、単純にCedar MillコアとL3を載せただけではない。物理設計を大幅に改良し、チャネルの長い「Long-Le」トランジスタやスリープトランジスタなどの技法を使うことで、かなり消費電力を抑えている。つまり、現行のPentium 4/Dからは一歩進化したCPUだ。
この同じテクニックを使えば、シングルコアCPUやDP向けデュアルコアCPUでも、それなりに消費電力を抑えたCPUを作ることができたはずだ。しかし、Tulsaが登場する時には、すでにMerom系アーキテクチャが登場しているため、TulsaはMPのニッチだけに留められる。NetBurstの改良はフェイズ遅れで、Tulsaは比較的短命の最後のあだ花で終わってしまう可能性が高い。 ちなみに、Intelは65nm世代では、Tulsa以外にシングルダイ(半導体本体)のNetBurst系デュアルコアCPUを持っていない。65nmのNetBurstデュアルコアは、いずれもシングルコアCPUのダイを2個、ワンパッケージに納めたものだ。Tulsaが、65nmのNetBurstでは唯一の本格的なデュアルコアCPUとなる。
ISSCC(IEEE International Solid-State Circuits Conference)での発表によると、Tulsaは1.25Vと低電圧で3GHz以上動作。ワーストケースの消費電力は165Wで、3.4GHz時のTDP(Thermal Design Power:熱設計消費電力)は150W。典型的なサーバーワークロードでは110W。現行のMP向けNetBurstデュアルコアのPaxville MPは最大3GHzで、マックスが173W、TDPが165W。ラフに言えば、SRAMを16MB足して121M(1億2,100万)トランジスタの巨大チップにしたにも関わらず、熱は今までより約10%抑え、周波数向上も可能にしたことになる。 つまり、今のNetBurstが抱えている問題を、ある程度までは軽減した新設計のCPUがTulsaだ。
●キャッシュSRAMにさまざまな省電力技術を実装 Tulsaの内部ブロックは、これまでのどのNetBurst系CPUよりも本格的なデュアルコア設計になっている。2個のCPUコアと共有L3キャッシュが、ダイレクトインターフェイスでバスコントローラに接続されており、バスコントローラが、コア間の調停とL3アクセス、外部バスリクエストを制御する。各CPUコアは1MBの占有L2キャッシュを備えている。 TulsaはキャッシュSRAMエリアにはスリープトランジスタ技術を使うことで、リーケッジを大幅に抑えている。Tulsaのスリープトランジスタは、アクティブ、スリープ、シャットオフの3つのオペレーションモードがある。Vssを底上げすることで、リーケッジをスリープ時には50%、シャットオフ時には25%にまで減らす。L3全体は256のアレイブロックに分割されており、各キャッシュアクセス毎に全体の0.8%程度しかパワーアップされない。そのため、平均消費電力は0.75W/MBと、1MB当たり1Wを切る。 省電力技術で面白いのは、Tulsaでは、リーケッジ(漏れ電流)を抑えるために、通常使われるような高しきい電圧(High-Vt)トランジスタを使っていないこと。チャネルが通常のトランジスタより約10%ほど長い「Long-Le」トランジスタを多用することで、サブスレッショルドリーケッジ(Subthreshold Leakage)抑制を達成しているという。Long-Leトランジスタではスイッチングは約10%遅くなるが、リーケッジは1/3になるという。 Intelは、低電圧化してくるとHigh-Vtを使うほうが難しく、High-VtではなくLong-Leを使う方が得策と判断したという。キャッシュSRAMセルは100%がLong-Leで構成されており、CPUコアでもタイミングクリティカルではない部分(全体の約54%)にLong-Leが使われている。どのトランジスタも、ノーマルとLong-Leを切り替えられるようになっているという。 キャッシュの消費電力は90%以上がリーケッジなので、スリープトランジスタとLong-Leで、かなりの効果が見込めるという。トータル電力では、74%がコア、11%がコントロールロジック、3%がI/O、12%がL3キャッシュ。しかし、リーケッジでは67%がコア、9%がコントロールロジック、2%がI/O、22%がL3キャッシュとなる。 ●オーバー4GHzの能力を持つTulsaは遅く来たCPU Tulsaのサンプルチップの電圧vs周波数の相関プロット(Shmoo)も公開された。Tulsaはラボでは1.35V時に4GHz弱、1.4V時には4GHz以上を達成している。実際には、TDP枠のために、電圧と周波数を抑えるため製品ではこの周波数は出すことができない。しかし、NetBurstの深いパイプラインのおかげで、潜在的にはオーバー4GHzの実力があることがわかる。逆を言えば、TDPのために周波数を抑えなければならない以上、NetBurstでは無駄にパイプラインが細分化してしまっている。 Tulsaは16MBの大容量L3のために、ダイサイズ(半導体本体の面積)は435平方mmと巨大チップになってしまっている。しかし、面積の半分を占めるキャッシュSRAMエリアは冗長性を持たせているため、ダイサイズの割に歩留まりはいいと推定される。これは、Tulsaだけでなく、大容量キャッシュ搭載CPU全般に言えるが、SRAMは冗長化できるため、歩留まりへの影響を最小にできる。 こうして省電力化に注力した設計のTulsaを見ると、NetBurstのボタンの掛け違いがますます鮮明になる。Prescott系CPUを設計する時に、初めからTulsaのような設計にしていれば、TDPをより下げるか、周波数を上げるか、どちらか可能になったろう。もう少しNetBurstも延命できたかもしれない。しかし、Merom系CPUが控えている現状では、どう考えてもTulsaは遅く来たCPUだ。 □関連記事 (2006年2月24日) [Reported by 後藤 弘茂(Hiroshige Goto)]
【PC Watchホームページ】
|
|