イベントレポート

IBM、Oracle、富士通が最先端プロセッサを披露

（2013/8/28 16:12）

Hot Chips 25の登録受付(8月26日の午前8時頃)

会期：8月25日～27日(現地時間)
会場：米国カリフォルニア州パロアルト
Stanford University Memorial Auditorium

　最先端高性能プロセッサに関する技術講演会「Hot Chips 25」では、大規模なサーバーシステムに向けたプロセッサ技術に関する講演が相次いだ。米IBMがPowerアーキテクチャの次世代プロセッサ「Power8」の概要を発表したほか、米OracleがSPARCアーキテクチャの次世代プロセッサ「SPARC M6」の概要を明らかにした。また富士通が、SPARCアーキテクチャの最先端プロセッサ「SPARC64 X」の改良版である「SPARC64 X+」を発表した。

IBMの「Power8」は12コア内蔵、8スレッドを同時に実行

　IBMは20年以上に渡り、Powerアーキテクチャの高性能プロセッサを開発してきた。最近では2009年のHot Chips 21で45nm技術、8コア内蔵、4スレッド同時実行、32MBキャッシュの「Power7」プロセッサを発表し、2012年のHot Chips 24では改良版である32nm技術、8コア内蔵、4スレッド同時実行、80MBキャッシュの「Power7+」プロセッサを発表している。

　今回発表した「Power8」では、製造技術を22nmに微細化するとともに、内蔵するCPUコアの数を12コアに増やし、同時実行するスレッドの数を8スレッドに高めた。最大で同時実行可能なスレッド数は、Power7/7+の32スレッドから、Power8では96スレッドと約3倍に増えている。この結果、演算性能が大幅に向上した。

IBMが過去数年に発表したPowerプロセッサとその概要

IBMが過去数年に発表したPowerプロセッサと「Power8」の概要

Power8の主な性能。Power7+を基準にした相対値

　キャッシュは2次キャッシュがCPUコアごとに512KB、3次キャッシュが共有で96MB。2次キャッシュはPower7+の256KBから2倍に増強した。3次キャッシュはPower7+でも80MBあったので、増分はあまり大きくない。

　CPUコアは前述のようにマルチスレッディングのスレッド数が8スレッドと2倍になったほか、1次データキャッシュが64KBと倍増した。また2次キャッシュから1次キャッシュにデータを取り込むバスの幅が64バイトと、これも2倍になっている。

Power8の主な仕様とシリコンダイ写真

Power7+の主な仕様とシリコンダイ写真(2012年8月に開催されたHot Chips 24の講演スライドから)

Power8のCPUコア

　メモリサブシステムの大きな違いは、外付けキャッシュのチップを介して主記憶のDRAMと接続することだ。Power7/7+ではメモリコントローラを内蔵しており、外付けキャッシュは用意されていない。これに対してPower8のメモリサブシステムでは、16MBのキャッシュを内蔵するチップ「Centaur Memory Buffer」がプロセッサに直結される。1個のプロセッサに8個のCentaur Memory Bufferチップを直結できるので、外付けキャッシュの最大容量は128MBとなる。

　Centaur Memory Bufferチップはキャッシュというよりも、その名称が示すように、実際の役割はバッファに近い。DDRコントローラを4チャンネル内蔵しており、合計で32チャンネルのDRAMインターフェイスを構成する。ソケット当たりのDRAM容量は1TBになる。

Power8の外部メモリアーキテクチャ。外付けのキャッシュを兼ねるメモリバッファ兼メモリコントローラ「Centaur Memory Buffer」を介してDRAMチップアレイと接続する

Centaur Memory Bufferの概要とシリコンダイ写真。16MBのキャッシュと4チャンネルのDDRメモリコントローラを内蔵する

Oracleの「SPARC M6」は96ソケットの大規模システムを実現

　Oracleが開発中の自社サーバー向けSPARCプロセッサ「SPARC M6」は、最新世代である「SPARC M5」の後継品となる。Oracleは2011年のHot Chipsで「SPARC T4」、2012年のHot Chipsでは「SPARC T5」を発表してきた。

　SPARC T5は16個のCPUコアを内蔵し、最大で128スレッドを同時に処理する高性能プロセッサである。これに対してSPARC M5はSPARC T5と同じ28nmの製造技術を採用し、同じCPUコア(S3コア)を内蔵するものの、コア数が6コアと少ない。同時に処理できるスレッド数は最大で48スレッドであり、単体プロセッサとしての性能はSPARC T5に比べると劣る。

Oracle(および前身のSun Microsystems)におけるSPARCプロセッサの沿革

SPARC T4とSPARC T5、SPARC M5の概略

　SPARC M5の特徴は3次キャッシュ(全て共有キャッシュ)と、システムを構成したときの最大ソケット数にある。3次キャッシュの容量は48MBと、SPARC T5の8MBに比べると6倍も大きい。最大ソケット数は32ソケットで、SPARC T5に比べて4倍のソケット数のシステムを構成できる。

　SPARC M5の次世代品であるSPARC M6は、内蔵するCPUコア数を2倍の12コアに増やすとともに、システムを構成するときの最大ソケット数を96ソケットと3倍に拡大した。3次キャッシュの容量は48MBでSPARC M5と同じ。ソケット当たりのDRAM主記憶容量は1TBで、SPARC M5と変わらない。

　製造技術は28nmのCMOSで、これもSPARC M5と同じである。SPARC M6のシリコンダイ面積は公表しなかったものの、推定は可能だ。まずSPARC M5のシリコンダイ面積が511平方mmなので、CPUコアが2倍に増えたSPARC M6はさらに大きなシリコンダイになっていると見られる。28nmプロセスで製造したS3コアのシリコン面積は15.7平方mmだから、6個のS3コアで92.4平方mmが加わる。すると単純計算では603.4平方mmになる。

次世代SPARCプロセッサの開発指針

SPARC M6の概略

SPARC M6の主な仕様とシリコンダイ写真

SPARC T5の主な仕様とシリコンダイ写真(2012年8月に開催されたHot Chips 24の講演スライドから)

CPUコア「SPARC S3」の概要。2命令を同時発行し、アウトオブオーダー実行機構を備える。動作周波数は3.6GHz

SPARC M6の内部構成

周波数向上などの改良を加えた富士通の「SPARC64 X+」

　富士通が発表したUNIXサーバー向けの高性能プロセッサ「SPARC64 X+」は、同社が2012年のHot Chipsで発表した高性能プロセッサ「SPARC64 X」の改良版である。

　SPARC64 X+とSPARC64 Xの主な違いは、動作周波数の向上(3.0GHzから3.5GHz強に向上)、専用ハードウェアの強化、1次データキャッシュの転送速度の向上、プロセッサ間インターフェイスの転送速度向上、などにある。改良の結果としてトランジスタ数とシリコンダイ面積はわずかに増加した。シリコンダイ写真を比べると両者は非常に良く似ており、違いを見つけることは難しい。CPUコア数は16コア(2スレッド/コアのマルチスレッディング動作)で同じ、製造技術はともに28nmのCMOS技術、2次キャッシュ(共有キャッシュ)の容量はいずれも24MBである。

富士通における高性能プロセッサ開発の歴史

SPARC64 X+のシリコンダイ写真と主な仕様

SPARC64 Xのシリコンダイ写真と主な仕様(2012年8月に開催されたHot Chips 24の講演スライドから)

　専用ハードウェアの強化では、暗号化回路と10進浮動小数点演算回路の性能を高めた。1次データキャッシュの性能向上では、3本のポートが同時に動くようにした。ロード(読み出し)がデュアルポート、ストア(書き込み)がシングルポートである。SPARC64 Xの1次データキャッシュは、ロードのデュアルポート動作あるいは、ロードとストアがシングルポートで動作するモードのどちらかだった。

　プロセッサ間インターフェイスの転送速度の向上では、SPARC64 Xでは14.5Gbpsだった転送速度を、SPARC64 X+では25Gbpsに高めた。いずれも4個のプロセッサを相互に直結できる。ブリッジチップを介することで、最大で64ソケットのシステムを構成可能である。なおソケット当たりのDRAM主記憶容量は1TB。

SPARC64 X+のパイプライン構成。赤色で囲った部分をSPARC64 X+で強化した

SPARC64 Xにおける専用ハードウェアの内蔵。「ソフトウェアオンチップ」と呼んでいた。暗号化回路と10進浮動小数点演算回路、データベース処理回路を載せた

SPARC64 X+における専用ハードウェアの強化

1次データキャッシュの性能向上。2本の読み出しポートと1本の書き込みポートが同時に動く。このため書き込み動作とコピー動作で性能が大きく向上した

プロセッサ間インターフェイスの転送速度向上と64ソケットのシステム構成

　Hot Chips 25で発表された3つのサーバー向けプロセッサを改めて眺めてみよう。CPUコア数ではIBMとOracleが12コア、富士通が16コア。製造技術ではIBMが22nmのSOI CMOS、Oracleと富士通が28nmのバルクCMOS。シリコンダイ面積はIBMが650平方mm、Oracleが603平方mm(推定値)、富士通が600平方mm。入出力インターフェイスではIBMとOracleがPCIe Gen3を搭載。ソケット当たりの主記憶容量はいずれも1TB(4Gbit DRAM換算で2,048チップ)である。

　集積密度と集積規模では22nmプロセスを採用したIBMのPower8が頭1つ抜けているものの、集積度以外では2者が重なる項目が少なくない。最先端をそれぞれが追究しながらも、似た部分が存在する。このあたりは興味深いところだ。

（福田昭）