■後藤弘茂のWeekly海外ニュース■
IntelとAMDの32nm世代のCPUのダイサイズを見ると、2011~2012年のCPUの傾向が見えてくる。
IntelのパフォーマンスCPUは、45nmプロセスでは4コア(クアッドコア)だったが、32nmプロセスでは6コアまたは4コアプラスGPUコアになる。製造コスト面で無理をした大型ダイなら8コアだ。メインストリームCPUは、2コアプラスGPUコア。一方のAMDは、32nmではパフォーマンスCPUで8コア(4モジュール)で、メインストリームCPUでは4コア、または2コアプラスGPUコアになる。
Intelは、米サンフランシスコで今月開催されたISSCC(IEEE International Solid-State Circuits Conference)で、32nmプロセスの6コアCPU「Westmere 6C(ウエストミア 6-core)」のダイを明らかにした。Westmereは、45nmプロセスの「Nehalem(ネヘイレム)」アーキテクチャの32nm版。6コア版のWestmere 6Cの製品としてのコードネームは「Gulftown(ガルフタウン)」となる。
市場に今春登場する予定のWestmere 6Cのダイは240平方mm。これは、45nmのNehalem系4コアCPU「Bloomfield(ブルームフィールド)」の262平方mmとほぼ同じ。つまり、製造コスト的には45nmの4コアと、32nmの6コアは、ほぼ並ぶことになる。
同じ32nmでも、Nehalemの次のマイクロアーキテクチャ「Sandy Bridge(サンディブリッジ)」は、4コアにGPUコアを加えて200平方mm台のダイサイズになると見られる。こちらも同程度のコストラインと推定される。つまり、45nmで4コアCPUが占めていたコスト帯は、32nmでは6コアCPUまたは4コアプラスGPUコアのCPUが占める。
Sandy Bridgeには、この他、エントリサーバー向けの8コア(6コアも含む)のダイ(Sandy Bridge-EN系)もある。Intelは、これをハイエンドデスクトップPCに持って来ることもできるが、その場合のダイは、最近のパフォーマンスCPUのサイズより一回り大きくなるだろう。
ダイサイズの移行図(PDF版はこちら) |
Nehalem系の比較(PDF版はこちら) |
Sandy Bridgeのダイレイアウト(PDF版はこちら) |
Intel CPUのダイサイズ比較(PDF版はこちら) |
●Sandy BridgeデュアルコアはメインストリームCPUのサイズ
一方、IntelのメインストリームとバリューCPUのダイサイズである100平方mm台中盤は、今の流れが継続される。32nmのSandy Bridgeでは、このサイズは2コアプラスGPUコアのCPUになる。Nehalem系では、GPUコアを搭載しない2コアCPUのWestmere 2Cが79平方mm(ISSCCでの数字。Intelの製品発表時の数字は81平方mm)だ。Westmere 2Cのダイサイズがやけに小さいのは、DRAMコントローラやシステムロジックを搭載していないためだ。
32nmのWestmere 2Cは、GMCH(Graphics Memory Controller Hub)コアの「Iron Lake(アイロンレイク)」と同パッケージに封止されている。Westmere 2CとIron Lakeを合わせたコードネームが、デスクトップ2コアの「Clarkdale(クラークデール)」とモバイル2コアの「Arrandale(アランデール)」だ。
45nmで製造されているIron Lakeのダイサイズは114平方mm。Iron Lakeを32nm換算にしてダイサイズを60%程度になると見積もると、Westmere 2Cを加えるとちょうど100平方mm台中盤のダイサイズになる。もちろん、Sandy BridgeになるとCPUアーキテクチャが変わるため、CPUコアのサイズも変わる。
ただし、Sandy BridgeのCPUコアは、Core Microarchitecture(Core MA)-Nehalem系の延長で、パイプラインの大枠は変わらず、AVX(Advanced Vector Extensions)命令をサポートするため、SIMD(Single Instruction, Multiple Data)ユニットとロード/ストアユニットが拡張されている程度。そのため、CPUコア自体のサイズはある程度増えるものの、劇的には変わらないと見られる。
Sandy Bridgeのハイライト |
そのため、32nmのSandy Bridge世代での、2コアプラスGPUコアは、100平方mm台中盤のダイサイズで、メインストリーム&バリューCPUのコストに入ると見られる。ちなみに、Sandy Bridgeに統合されるGPUコアは現行アーキテクチャのままで、実行ユニットは増えるもののそれほどGPUコア自体は肥大化しない。CPUに統合するGPUコアは、22nmのHaswell世代でジェネレーションXになり、その次にようやくLarrabee系のコアの統合になると見られている。
こうして見ると、現状の2ダイ構成のClarkdale/Arrandaleは、バリューCPUとしてはコスト的に不利であることがわかる。ただし、Intelは、その分を、実質的にチップセットの価格に載せている。つまり、チップセット側からメモリコントローラとGPUコアがCPUパッケージ側へと移動したにもかかわらず、チップセットの価格体系を下げていない。顧客は、原価数ドルと見られる小さなPCH (Platform Controller Hub)に、数十ドルも払っている。Intelが、Sandy Bridge世代でも、半導体的に、いびつな価格構造を続けるかどうかはわからない。
●QPIインターフェイスを低電圧振幅にしたMCPインターフェイスClarkdale/Arrandaleで、Westmere 2CとIron Lakeを、オンパッケージで接続するMCP Interfaceは、実際にはNehalemのチップ間インターコネクトである「QuickPath Interconnect(QPI)」だ。Bloomfieldやサーバー向けマルチコア系Nehalemは、QPIでCPU同士やチップセットを接続する。ただし、基板上で接続する通常のQPIと、パッケージ内で接続するMCP Interfaceには違いがある。伝送距離がぐっと短くサブストレート上に配線するMCP Interfaceでは、インターフェイスの電圧振幅を抑えている。
IntelのISSCCでの発表によると、32nmのQPIインターフェイスはアダプティブな回路アーキテクチャになっており、最長14インチまでのチャネルに対応できるという。また、トランスミッタは、電圧振幅を500mVから150mVまで変えられるスケーラビリティを持っている。ISSCCの論文では、MCPチャネルで振幅を150mVにした場合にも、データの送受信に充分なだけのデータアイが開いていることが示された。
QPIの電圧振幅は、サーバー向けCPUの500mVに対して、クライアントCPUのClarkdale/Arrandaleでは150mVで、振幅のスケーラビリティは約3倍になるという。その分、クライアントのClarkdale/Arrandaleでは、電力消費を抑えることができる。ISSCCでは、クライアントCPUのMCPチャネルの電力は、サーバーCPUのQPIの60%程度に抑えられると説明された。QPI技術を使っていても、電力消費はかなりセーブされている。
また、QuickPath Interconnect(QPI)自体も32nmプロセスではさらにスピードアップが可能だ。現行では、QPIの転送レートは最大で6.4Gtps(Gega transfer per second)だが、Sandy Bridge世代のサーバーCPUでは最高8Gtpsに上がる見込みだ。チップ間インターコネクトは、ついに10Gtpsのレンジに近づきつつある。
ClarkdaleとArrandale(PDF版はこちら) |
MCPチャネルの振幅(PDF版はこちら) |
●CPUコアをひたすら小さくするAMD
AMDは32nm SOIプロセス世代の「K10(Hound)」系CPUコアで、CPUコアのサイズを10平方mm以下に縮小する。Llanoに搭載されると見られる32nmのCPUコアのサイズはわずか9.96平方mmで、1MBのL2キャッシュとパワーゲートリング(Power-Gate Ring)を含めても17.7平方mmに抑えられている。ちなみに、下の図でCPUコアとL2キャッシュも回りを囲っているのが、新しい省電力機能パワーゲーティングのためのパワーゲートリングだ。リングの占める面積は1平方mm以下だという。
K10のコア(PDF版はこちら) |
AMDのCPUコアのサイズを振り替えると、K8以来、着実にシュリンクしていることがわかる。K8からK10(Hound)のアーキテクチャチェンジで増えているが、130nmから32nmで、ほぼ20%以下のサイズに小型化している。次のパフォーマンスCPUである32nmのBulldozerでも、2個のCPUコアを融合させたCPUモジュールが2個のCPUコアより小さなサイズになると予想される。
AMDの世代ごとのコアのダイサイズ(PDF版はこちら) |
下はAMDが公開した4コア版Llanoのダイ写真を、45nmの4コアと比較したものだ。CPUコアのサイズから、ダイサイズを45nm版と合わせてある。GPUコアが加わったLlanoのダイは、45nmの4コアとほぼ同じ程度であることがわかる。
ただし、このLlanoのダイ写真は、完全なものではない可能性が高い。まず、LlanoにはPCI Expressなどが統合されているはずだが、この写真だとそれが明確にわからないこと。また、このレイアウトとは大きく異なる、一回り大きめのLlanoダイレイアウト写真が流出していること。そのため、実際のLlanoは、この写真から推測される160平方mm前後のダイよりは数十%大きめである可能性が高い。ただし、その場合もダイサイズは200平方mm前後に留まると推測される。デュアルコア版なら、ダイサイズはさらに小さくなる。
Llanoのダイ(PDF版はこちら) |
AMD CPUのダイサイズの移行図(PDF版はこちら) |
K10ファミリのダイサイズの推定(PDF版はこちら) |