次世代SPARCプロセッサ「T4」の概要を公表
高性能チップに関する技術講演会「Hot Chips 23」では、8月19日にサーバー用高性能プロセッサに関する講演セッションが設けられていた。本レポートでは、マルチコアプロセッサの講演とメニープロセッサの講演の概要をご紹介する。
●シングルスレッド性能と暗号化性能を高めるマルチコアプロセッサは、Oracleが開発中の次世代SPARCプロセッサ「T4」(開発コード名「Yosemite Falls」)である。「T4」プロセッサは、現行のサーバー用SPARCプロセッサ「T3」の後継となるチップで、T3プロセッサに比べるとシングルスレッド処理性能や暗号処理性能などの向上が図られている。2011年中には正式に発表される予定である。
T4プロセッサのCPUコア数は8コアで、T3プロセッサの16コアに比べると半分に減っている。マルチスレッディング数は8スレッドでT3プロセッサと変わらない。すなわち最大で64スレッドを同時並列に処理できることになる。T3プロセッサの128スレッドに比べると半分になっているものの、シングルスレッド当たりの性能が高いので、全体性能ではT4がT3を上回る。またT4からは3次キャッシュ(L3キャッシュ)を内蔵した。容量が4MBの共有キャッシュである。
トランジスタ数は約8億5,500万トランジスタで、T3チップの約10億トランジスタに比べると、少し減っている。製造技術はT3チップと同じ、40nmのCMOS技術である。シリコン/ダイ面積は公表していないが、T3チップが377平方mm(正方形換算で19.4mm角)だったことから、T4チップは320~330平方mm(正方形換算で18mm角)とみられる(トランジスタ数の違いから換算したもの)。動作周波数は3GHzを超えるとする。消費電力は公表していない。
次世代SPARCプロセッサ「T4」の狙いと応用システム | 「T4」プロセッサの概要とシリコン・ダイ写真。シリコン・ダイ中の「S3」はCPUコア、L3は3次キャッシュ、CCXはクロスバースイッチを意味する |
CPUコアは新規開発の「S3コア」である。2命令同時発行やアウトオブオーダー実行などの機能を備える。整数演算パイプラインは16段と非常に長い。T3チップの「S2コア」に比べると、整数演算性能は約5倍(SPECint2006ベンチマーク値)、浮動小数点演算性能は約7倍(SPECfp2006ベンチマーク値)に達するとする。
S3コアは16KBの1次命令キャッシュと16KBの1次データキャッシュ、128KBの2次キャッシュを内蔵する。T3チップのS2コアでは、16KBの1次命令キャッシュと8KBの1次データキャッシュのみの内蔵だった。キャッシュ周りが強化されていることがわかる。
「S3コア」の内部ブロック図 | 「S3コア」のパイプライン。整数演算パイプラインが16段ある。このほか暗号演算、ロード、浮動小数点演算のパイプラインがそれぞれ設けてある。 | 「S3コア」のパイプラインにおけるスレッドの動き |
シングルスレッド性能(SPECint2006ベンチマーク値)の比較。横軸はマルチスレッド性能 | T4チップとT3チップの演算性能比較。上は整数演算性能、下は浮動小数点演算性能 |
T4プロセッサではまた、T3プロセッサに比べると暗号化処理が強化されている。AESやDES、Kasumi、Camellia、CRC32cといった符号化アルゴリズムに対応する低遅延の「in-pipe」命令と、MD5、SHA-1、SHA-256、SHA-512、MPMULといった符号化アルゴリズムに対応する高遅延の「out-of-pipe」命令がある。
暗号化ユニットのブロック図。図中でFGUは浮動小数点グラフィックスユニット、FRFは浮動小数点レジスタファイルのこと | T4チップとT3チップの暗号化処理性能比較。T4はT3に比べると1.5倍~2.5倍の性能がある |
●384個のデュアルコアAtomチップを内蔵した低消費サーバー
メニープロセッサの講演は、低消費電力で性能がそこそこ出るプロセッサを数多く使い、全体として消費電力当たりの演算性能が高いシステムを構築する試みに関するものである。サーバー開発企業のSeaMicroが、デュアルコアAtomプロセッサ「N570」を256個~384個と数多く使った低消費電力サーバーシステム「SM10000-64」の概要を公表した。
こういったメニープロセッサのシステムでは、CPU間の通信が演算性能の制約要因となる。SM10000-64では、ノード間通信とI/O(ストレージやEthernetなど)仮想化を担うASICチップを開発した。1個のASICチップが2個のファブリックノードを内蔵する。すなわち、最大で2個のCPUと接続される。CPUとASICはPCIeで接続する。ファブリックノード間はデータ転送速度が2.5Gbpsのリンク6本でつながれる(X方向、Y方向、Z方向が2本ずつ)。このノードで8ノード×8ノード×8ノードの3次元トーラス構造を構築する。ノード数は全体で512ノード、データ転送速度は全体で1.28Tbpsとなる。
サーバーシステム全体は64枚のコンピュータカード、1~8枚のEthernetカード、1~8枚のストレージカード、ストレージ(HDDおよびSSD)などで構成される。コンピュータカード1枚には4個のASICチップと4~6個のデュアルコアAtomチップ、CPU当たり4GBのDRAMなどが載る。
開発したサーバー(SM10000-64)と既存のサーバー(Xeonプロセッサ搭載サーバー)を比較すると、ほぼ同じ演算性能(Apacheベンチマーク値)を達成するために必要な消費電力は、SM10000-64が約4分の1、そのときの容積は約4.5分の1で済むという。
メニープロセッサ・システムのアーキテクチャ | ノードの構造。CPU(デュアルコアAtomプロセッサ)とASIC(2ノードを担う)で構成される | I/O(ストレージおよびEthernet)の仮想化 |
実際のサーバーの内部構造。コンピュータ(Compute)カード、Ethernetカード、ストレージカード、ストレージ(HDDおよびSSD)などで構成される | 開発したサーバーと既存のサーバー(Xeonプロセッサ搭載サーバー)との性能比較 |
データセンターの消費電力を抑える、あるいは下げるといった要求は近年、急速に厳しくなってきた。要求する演算性能の方向性や絶対値は異なるものの、モバイル機器と同様に「消費電力当たりの演算性能」が評価軸となりつつある。今後、この傾向はさらに強まりそうだ。
(2011年 8月 26日)
[Reported by 福田 昭]