【ISSCC 2010レポート】
Intel、IBM、Sunの高性能プロセッサ技術
〜Westmere、POWER7、次世代SPARC

プレナリセッション開催前の会場風景

会期:2月7日〜11日(現地時間)

会場:米国カリフォルニア州サンフランシスコ Marriott Hotel



 ISSCC 2010のメインイベントであるカンファレンスが、2月8日(現地時間)に始まった。ISSCC実行委員会によると、参加者数は約2,550名に達する。ISSCCの参加者数は過去最高を記録した2007年の3,564名、2008年の3,391名と最近は3,000名を超えていたものの、景気後退に見舞われた2009年には参加者数が2,274名と一気に落ち込んでいた。今年は開催前の時点で前年を超える2,301名の参加登録を得ており、最悪期は脱したようだ。

 2月8日の午後にはプロセッサの講演セッションがあり、数多くの高性能プロセッサ技術が披露された。本レポートではその中から、注目講演の概要をお届けする。

●Intel:6個のCPUコアを内蔵するWestmereプロセッサ

 Intelは、32nm世代のマイクロプロセッサ「Westmere(ウエストミア)」の技術内容を公表した(講演番号5.1)。Westmereにはコア数の違いによって、いくつかの品種が存在する。ISSCCでは、デュアルコアのデスクトップ/モバイル用マイクロプロセッサ「Westmere-2Core」と、6個のCPUコアを内蔵するサーバー/ハイエンドデスクトップ用マイクロプロセッサ「Westmere-6Core」の概要を簡単に紹介し、それからサーバー/ハイエンドデスクトップ用のWestmere-6Coreに絞って技術内容を明らかにした。

 デスクトップ/モバイル用のWestmere-2Coreチップは、グラフィックスコアとDDR3メモリコントローラを集積したコンパニオンチップとともに同じパッケージに収容される。いわゆるマルチチップ・パッケージである。

 興味深いのは、2個のCPUコアと1個のグラフィックスコアの間で、処理条件に応じて動作周波数を上げるTurbo Boostを働かせるとの説明があったことだ。グラフィックスコアを含めて動作周波数を調整できるとなれば、消費電力当たりの処理性能をより効果的に高められる。

 Westmere-2Coreの製造技術は32nmの高誘電率膜/金属ゲート(High-k/Metal gate)技術。4MBの共有3次キャッシュを内蔵している。ダイ面積は78平方mmとかなり小さい。

 サーバー/ハイエンドデスクトップ用のWestmere-6Coreチップは、DDR3メモリコントローラ(3チャンネル)とチップ間高速インターコネクトQPI(QuickPath Interconnect)(2チャンネル)を内蔵する。2個のWestmere-6CoreチップをQPI接続することによってデュアルソケットのサーバーシステムを構築できる。

 Westmere-6CoreもWestmere-2Coreと同様に、32nmの高誘電率膜/金属ゲート技術で製造する。12MBとかなり大きな共有3次キャッシュを内蔵した。ダイ面積は240平方mmで、4個のCPUコアを内蔵する45nm世代のマイクロプロセッサ「Nehalem-4Core」のダイ面積262平方mmよりも小さく収まっている。

 Westmere-6Coreで興味深いのは、メモリコントローラが電源電圧1.5VのDDR3インターフェイスだけでなく、電源電圧1.35VのLV-DDR3インターフェイスもサポートすることだ。例えばSamsung Electronicsは、LV-DDR3 SDRAMのサーバー用メモリサブシステムではDDR3 SDRAMに比べると消費電力を44%も下げられると2009年6月に米国で開催されたイベント「Memcon 2009」で表明している。サーバー用メモリサブシステムでは大量のSDRAMを使用するので、消費電力の削減効果はかなり大きいと期待できる。

サーバー/ハイエンドデスクトップ用マイクロプロセッサ「Westmere-6Core」とデスクトップ/モバイル用マイクロプロセッサ「Westmere-2Core」のシステム構成 Westmereのシリコンダイ写真。左がWestmere-2Core、右がWestmere-6Core DDR3 SDRAMメモリサブシステムの消費電力。電源電圧が1.35VのLV-DDRに変更するとメモリサブシステムの消費電力が44%減少する。Samsung Electronicsが2009年6月に「MemCon 2009」で講演した資料から引用
NehalemとWestmereの概要

●IBM:POWERアーキテクチャの大規模プロセッサ「POWER7」

 IBMはPOWERアーキテクチャのサーバー用大規模プロセッサ「POWER7」を開発し、その技術概要を発表した(講演番号5.4)。POWER7は8個のCPUコアを内蔵しており、1個のCPUコアが4スレッドを同時に処理できる。すなわち、最大で32スレッドのマルチスレッディングをサポートする。

 製造技術は45nmのSOI CMOS、11層の銅配線である。トランジスタ数は12億。動作周波数は3〜4GHzと高い。シリコンダイは567平方mmと巨大である。

 CPUコアごとに64KBのSRAM 1次キャッシュ(命令キャッシュ32KB、データキャッシュ32KB)と256KBのSRAM 2次キャッシュを内蔵し、共有キャッシュとして埋め込みDRAM技術による32MBの大容量3次キャッシュを搭載した。さらに、2個のDDR3メモリコントローラ(最大8チャンネル)、SMP構成のサーバーシステムを構築するための入出力リンク(ローカルリンクとリモートリンク)も内蔵している。最大で32個のPOWER7チップを利用し、SMP構成のサーバーシステムを構築できる。

「POWER7」のシリコンダイ写真。IBMが2009年8月に「HotChips 2009」で講演した資料から引用 「POWER7」の概要。IBMが2009年8月に「HotChips 2009」で講演した資料から引用 「POWER7」のCPUコア。IBMが2009年8月に「HotChips 2009」で講演した資料から引用

●Sun:128スレッドを処理可能な次世代SPARCチップ

 Sun Microsytemsは、SPARCアーキテクチャのCPUコアを16個内蔵するサーバー用大規模プロセッサ「Rainbow Falls」(開発コード名)を試作し、その技術概要を公表した(講演番号5.2)。1個のCPUコアが8スレッドを同時に処理可能なので、最大で128スレッドのマルチスレッディングをサポートする。Rainbow Fallsは4チップ構成のサーバーシステムを組めるように設計してあるので、最大で512スレッドを同時に処理するシステムを構築できることになる。

 Rainbow Fallsの特徴は、16個のCPUコアと8分割した共有2次キャッシュの間をクロスバースイッチ「CCX」で相互接続したことにある。2個のCPUコアがクロスバースイッチの1本のポートを共有する。8×9ポート構成のクロスバースイッチは、461GB/secの速度で動作する。

 Rainbow Fallsチップの製造は台湾TSMCが請け負う。製造技術は40nmのCMOSプロセス(N40GP)、11層銅配線である。トランジスタ数は約10億。シリコンダイの面積は377平方mmとかなり大きい。2.0GHzで動作させたときの消費電力は120Wと、これもかなり大きい。

「Rainbow Falls」(開発コード名)の内部ブロック 「Rainbow Falls」(開発コード名)のシリコンダイ写真 CPUコアと2次キャッシュを相互接続するクロスバースイッチ「CCX」の構成。Sun Microsytemsが2009年8月に「HotChips 2009」で講演した資料から引用

●ルネサス:ヘテロジニアスマルチコアの組み込み用プロセッサ
ルネサス テクノロジと日立製作所、早稲田大学、東京工業大学の共同研究グループが開発した大規模プロセッサのシリコンダイ写真

 組み込み用途では、ルネサス テクノロジと日立製作所、早稲田大学、東京工業大学の共同研究グループがヘテロジニアスマルチコアの大規模プロセッサを開発し、その概要を発表した(講演番号5.3)。ネットワーク接続されたデジタルTVといった画像処理やデータベース検索などを必要とする組み込み機器を想定している。

 内蔵したCPUコアは3種類ある。SuperHアーキテクチャのSH-4Aコア(32bit、8個内蔵)、動的再構成可能なプロセッサコア「FE(Flexble Engine)」(16bit、4個内蔵)、1,024wayの超並列プロセッサコア「MX-2」(4bit、2個内蔵)である。例えばビデオデータから人間の顔を検出してデータベースと照合する処理では、顔の検出をMX-2が担当し、顔の動き検出をFEが担当し、データベース検索をSH-4Aが担当することで、高速に処理を実行できるとする。

 プロセッサチップの試作には45nmのCMOSプロセスを利用した。シリコンダイの寸法は12.4mm角である。消費電力は3.07W(動作周波数648MHz、電源電圧1.15V)。

(2010年 2月 9日)

[Reported by 福田 昭]