ニュース

Intel、2ソケット向けBroadwellプロセッサ「Xeon E5 v4」

~14nmにより最大22コアに強化、前世代と比較して最大44%の性能向上

14nmプロセスルールで製造されるXeon E5 v4のウェハ

 Intelは3月31日(米国時間)、同社がBroadwell-EPのコードネームで開発を続けてきたデータセンター/サーバー向けプロセッサを「Xeon E5 v4」ファミリとして発表した。

 Xeon E5 v4は、日本で需要が高い2ソケットサーバー向けに主に利用されるサーバー向けプロセッサで、2014年の9月に発表されたXeon E5 v3(別記事)以来1年半ぶりの新製品となる。新しいXeon E5 v4ファミリは製造プロセスルールが14nmに微細化され、CPUコアがXeon E5 v3(開発コードネーム:Haswell-EP)の最大18コアから増えて最大22コアに強化された。

 Xeon E5 v4はHCC(High Core Count、24コア)、MCC(Medium Core Count、15コア)、LCC(Low Core Count、10コア)の3つダイバリエーションがあり、複数のSKU(製品グレード)がそこから派生されて展開される。Intelが公表した資料によれば、前世代となるXeon E5 v3に比べて、最大44%の性能向上が見込めるという。

最大の特徴は14nmプロセスルールへの微細化

 今回発表されたXeon E5 v4(製品名としてXeon E5-2600 v4シリーズとプロセッサナンバーを含めた形で呼ばれることも多いが、本記事ではファミリ全体を示す時にはXeon E5 v4に統一する)は、2012年に発表された初代のXeon E5(開発コードネームSandy Bridge-EP)から数えて4世代目の製品となる。

Xeon E5 v4のパッケージ、Xeon E5 v3と同じくSocket R3に対応

 IntelはTICK-TOCKと呼ばれる開発体制を敷いており、TICK(プロセスルールを微細化した版)とTOCK(プロセスルールは同じだがマイクロアーキテクチャを改良した版)を概ね1年ごとに交互に投入するという体制になっていて、今回発表されたXeon E5 v4はTICKに相当する。だが、近年のIntelプロセッサがそうであるように、TICKであってもマイクロアーキテクチャ以外の点で多くの新機能が追加されている。従来製品との違いを大きくまとめると以下のようになる。

【表1】2ソケット向けのXeon E5シリーズおよびXeon 5600番台の仕様(Intelの発表より筆者作成)
ブランド名Xeon 5600番台Xeon E5Xeon E5 v2Xeon E5 v3Xeon E5 v4
開発コードネームWestmere-EPSandy Bridge-EPIvy Bridge-EPHaswell-EPBroadwell-EP
リリース年2010年2012年2013年2014年2016年
製造プロセスルール32nm32nm22nm22nm14nm
CPUコア(最大)68121822
ダイ構成6815、10、618、12、824、15、10
HT対応
LLCキャッシュ(コアあたり)2MB2.5MB2.5MB2.5MB2.5MB
LLCキャッシュ(最大)12MB20MB30MB/20MB/15MB45MB/30MB/20MB55MB/37.5MB/25MB
コアマイクロアーキテクチャNehalem世代Sandy Bridge世代Sandy Bridge世代(改良版)Haswell世代Haswell世代(改良版)
CPUソケットSocket B(LGA1366)Socket R(LGA2011)Socket R(LGA2011)Socket R3(LGA2011v3)Socket R3(LGA2011v3)
最大ソケット22222
最大メモリ容量288GB768GB768GB1.5TB1.5TB
メモリDDR3-1333DDR3-1600DDR3-1866DDR4-2133DDR4-2400
メモリチャネル数34444
命令セットSSE4.2SSE4.2/AVXSSE4.2/AVXSSE4.2/AVX2SSE4.2/AVX2/TSX
QPI2×最大6.4GT/s2×最大8GT/s2×最大8GT/s2×最大9.6GT/s2×最大9.6GT/s
PCI ExpressPCI Express Gen2(チップセット側)PCI Express Gen3PCI Express Gen3PCI Express Gen3PCI Express Gen3
PCI Expressレーン数36(チップセット側)40404040
DMI-DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)
チップセット5500(Tyrusburg)C600(Patsburg)C600(Patsburg)C610(Wellsburg)C610(Wellsburg)

 見て分かるようにTOCKに相当するXeon E5-2600(Sandy Bridge-EP)やXeon E5 v3(Haswell-EP)がマイクロアーキテクチャのアップデートを伴うため、多くの点で改良がされているのに対して、TICKに相当するXeon E5 v2(Ivy Bridge-EP)やXeon E5 v4(Broadwell-EP)は改良点が少ない。

 だが、TICK世代の最大の特徴は製造プロセスルールが微細化されることのメリットを享受できることだ。製造プロセスルールは半導体を構成するスイッチのゲートと呼ばれる部分の長さを示しており、この数字が小さければ小さいほど、同じ面積により多くのトランジスタを積み込める。これにより、半導体の性能が向上し、消費電力が下がるなどのメリットが得られる。

 Xeon E5 v4は、最新世代である14nmプロセスへと微細化されている。これにより、ダイサイズは従来世代に比べて小さくなっているのにも関わらずトランジスタ数が向上している。増えたトランジスタは、新しいCPUコアなどに割り当てられており、従来世代(Xeon E5 v3)では最大18コアだったCPUコアは、Xeon E5 v4では最大24コアへと増やされている。また、アクティブ時の消費電力も少なくなっており、電力効率も改善されているとIntelでは説明している。

HCC、MCC、LCCという3つのダイバリエーションがある構造はHaswell-EPと同等

 ところで、表1の仕様の中で、Xeon E5 v4のCPUコアは最大22コアだと説明しているのに、なぜ前の文の最後で24コアだと言っているのか不思議に思った人もいるのではないだろうか。実はXeon E5 v4のダイのハードウェア的な仕様としては最大24コアになっているのだ。

 Xeon E5 v4には、HCC(High Core Count)、MCC(Medium Core Count)、LCC(Low Core Count)の3つのダイバリエーション(製造時のハードウェアとしての半導体の種類)があるという。

【表2】Xeon E5 v4のダイバリエーション(Intelの発表より筆者作成)
ダイ名リングバス数ホームエージェント数最大コア数消費電力トランジスタ数ダイ寸法ダイサイズ
HCC4224145~120W72億個18.1×25.2mm456.12平方mm
MCC3215160~65W47億個16.2×18.9mm306.18平方mm
LCC2110135~55W32億個16.2×15.9mm257.58平方mm

 Sandy Bridge世代以降、Intelは基本的にサーバー向けのCPUで3つのダイバリエーションを造り、それを元に、一部のコアを無効にするなどの手法で複数のSKUを派生していく仕組みになっている(なお、Sandy Bridge世代だけは例外で、開発中だったHCCは途中でキャンセルされている)。これをXeon E5 v4世代でも踏襲する。

 Intelによれば、HCCが24コア、MCCが15コア、LCCが10コアとなっており、それを元に後述するSKUに派生していく。ただ、そのSKUの表を見れば分かるように、HCCから派生している製品で最上位SKUとなるXeon E5-2699 v4は22コアになっており、HCCの24コアすべてを利用しているわけではない。MCCも同様で、MCCを利用した製品では最上位SKUとなるXeon E5-2690 v4も14コアで、MCCの15コアすべてを利用しているわけではないのだ。

 これには2つの事情が考えられる。1つは、生産の都合からそうなっている可能性だ。半導体の生産は歩留まりと呼ばれる数値が重視される。これは製造した半導体のうちいくつが出荷できるものであるかを示す数値で、これが高ければ高いほど、半導体メーカーにとっては順調に生産できていることを意味している。それを上げる手法の1つとして、マルチコアのCPUの場合には設計上やや多めのCPUコアにしておき、1つや2つが使えなくても、そこを無効化すれば、良質の製品として出荷できるようになるので、歩留まりを上げることができるのだ。

 もう1つは、今回は発表されていないが、EXプロセッサ(Xeon E7)と呼ばれる、4ソケット以上のより大規模向け製品が別途用意されており、そのために24コア構成はあえて残している可能性だ。実際、前世代となるHaswell世代では、Xeon E7 v3は、Xeon E5 v3と同じHCCのダイを共有していた。従って、今後EXプロセッサが登場すれば、24コアすべてを使うという製品の登場も考えられる。ただ、現時点ではIntelはBroadwell世代のEXプロセッサに関しては何も発表していない。

HCCの構造(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)
MCCとLCCの構造(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 なお、HCC、MCC、LCCの構造は、コア数が変わった以外は基本的にXeon E5 v3(Haswell-EP)世代と変わっていない。HCCが4つのリングバス(CPUとCPUを接続する内部バスのこと)、MCCは3つのリングバスにCPUコアと2つのホームエージェント(メモリコントローラがなど)ぶら下がる形になっている。LCCは、2つのリングバスにCPUコアと1つのホームエージェントがぶら下がる形になっている。3つ以上のリングがあるLCCとMCCに関しては、リングバス同士をバッファスイッチで接続する形状も前世代と同様の仕組みだ。

同じTICK世代のXeon E5 v2と比較しても小さなダイサイズとなっているBroadwell-EP

 2012年にリリースされたXeon E5(SNB)以降のIntelのサーバー用プロセッサ(Xeon E5 v2=IVB、Xeon E5 v3=HSW、Xeon E5 v4=BDW)のダイサイズとコア数の変遷を、ダイの種類によってグラフにすると以下のようになる。

Xeon E7/E5用ダイのコア数の変遷(Intelの資料などより筆者作成)
Xeon E7/E5用ダイのダイサイズの変遷(Intelの資料などより筆者作成)

 Sandy Bridge世代にはHCCがないように見えるが、これは元々Sandy Bridge-EXとして計画されていた12コアの製品がキャンセルされたためだ。こうしてみていくと、コア数は概ねリニアに増えており、3世代後(つまり2度のプロセスルールの微細化と一度の新マイクロアーキテクチャの導入で)に概ね倍になっていることが分かる。

 これに対して、ダイサイズはプロセスルールの微細化で一度小さくなり、新しいマイクロアーキテクチャの導入で大きくなっている。今回のBroadwell-EPのHCCではダイサイズが456平方mmと、22nmのHaswell-EPのMCCよりも小さくなっている。つまり、IntelにはIvy Bridge-EP世代と同じように500平方mmを超えるダイサイズにして、もっとコアを増やすという選択肢もあったが、それを選択しなかったことになる。

 Broadwell-EPの設計者に確認したところ「もちろんダイサイズを増やすという選択肢もあった。しかし歩留まりや消費電力、さらにはターゲットにしている性能を考えれば、24コアで十分だと決めた」という答えが返ってきた。

 Intelにしてみれば、Xeon E5 v3のMCCよりも小さいダイサイズでXeon E5 v4のHCCが作れるということは、工場のラインを有効に使えているというだけでなく、ダイサイズが小さくなればなるほど歩留まりにもいい影響を与えるわけだ。

CPUのマイクロアーキテクチャ強化点はクライアント向けと同等、TSXにEPでも対応

 CPUコアのマイクロアーキテクチャは、前世代となるXeon E5 v3(Haswell-EP)に比べて若干の改良が加えられている。大きい改良点は2つあり、1つは浮動小数点演算時の性能改善と、TLB(Translation Buffer)の改善が上げられる。

Xeon E5 v4のCPUマイクロアーキテクチャの変更点。基本的にはクライアントPC用のBroadwellと同等(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 浮動小数点演算時の性能改善では、浮動小数点演算時のかけ算と割り算の性能向上が大きく貢献している。1つには浮動小数点の乗算を行なう時のレイテンシが、Haswell世代まで5クロックサイクルから3クロックサイクルに削減されている。また、1024 Radix Dividerが導入され、Ivy Bridge/HaswellまでのRadix-16 Dividerに比べて除算時のレイテンシが削減され、さらにはスカラー除算時の動作が分離され、2つのスカラー除算が同時に行なえるようになっている。

乗算や除算時のレイテンシが削減されている(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 また、Xeon E5 v4では、Xeon E5 v3世代ではマイクロコードのレベルで無効にされていたTSX命令が有効にされている。Haswell世代ではTSXが有効にされたのはEXことXeon E7 v3だけだったが、Broadwell世代ではE5でも同様に有効になっている。

Xeon E5 v3世代では無効にされていたTSX命令が有効にされている(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 なお、これらのマイクロアーキテクチャの改良は、クライアントPC向けのBroadwell(第5世代Coreプロセッサ)でもなされたもので、基本的に共通だと言っていい。

 セキュリティ関連の機能強化ではADC/SBB/PCLMULQDQ実行時のレイテンシ削減、ADCX/ADOXの新命令の導入、RDSEEDのサポート、スーパーバイザーモードアクセス制限(Supervisor Mode Access Prevention =SMAP)などの機能が追加されている。

Xeon E5 v4で強化されているセキュリティ関連の演算機能(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 また、ADC/SBB/PCLMULQDQ実行時のレイテンシ削減やADCX/ADOXの新命令の導入により、Xeon E5 v4は前世代に比較して、AESやRSAなどのセキュリティ関連の演算を行なう際により高速に演算することができる。

AESやRSAなどの処理を行なう時の性能が向上している(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 SMAPと呼ばれるスーパーバイザーモードアクセス制限の機能は、ユーザーモードのアドレススペースを保護する新しいCPUベースのメカニズムになる。同じような機能としてはSMEP(Supervisor Mode Execution Prevention)がユーザーデータページからのスーパーバイザーモードでの実行を防止するが、SMAPはユーザーモードのアドレススペースにあるデータへスーパーバイザーモードから意図せずアクセスすることを防止する。

SMAP(Supervisor Mode Access Prevention)機能、ユーザーモードのデータへスーパーバイザーモードからの意図しないアクセスを抑制する(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

リソースの割り当てを動的に行なうIntel RDTに対応、VM周りでも性能を強化

 Xeon E5 v4ではキャッシュやメモリのモニタリング機能が拡張されている。前世代ではCMT(Cache Monitoring Technology)と呼ばれるL3キャッシュの状況をモニタリングする機能が追加されたが、Xeon E5 v4ではそれに加えてCAT(Cache Allocation Technology、前世代では通信向けのSKUでのみ有効になっていた)、CDP(Code and Data Prioritization)、MBM(Memory Bandwidth Monitoring)の機能が追加され、CMT自体も機能が拡張されている。

Xeon E5 v4で拡張されているRDTの機能、Haswell世代で対応していたCMT以外にCAT、CDP、MBMなどが追加される(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 これらの機能はまとめて「Intel Resource Director Technology」(RDT)と呼ばれ、OSや仮想マシンがメモリやキャッシュの状況を常にモニタリングして、より効率が良い使い方ができるように管理する機能として利用される。CMTとMBMがキャッシュとメモリのモニタリングを、CATとCDPがキャッシュの割り当てを動的に行ない、ノイジーネイバーと呼ばれる、実際には必要がないのにキャッシュに居座ってしまうVMを追い出す役割などを果たす。

Intel Resource Director Technologyを利用すると、必要ないのにキャッシュやメモリ帯域を圧迫しているノイジーネイバーのVMを排除できる(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 仮想化向けの拡張では3つの強化点がある。それがPosted Interrupts、Page Modification Logging、VM Enter/Exitレイテンシのさらなる削減だ。

仮想化ソフトウェア向けの強化点(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 Posted Interruptsは外部からの割り込みが発生した時に、従来の方式だとVM Exitと呼ばれるゲストOSからホストへの切替が多く発生してしまい性能低下の原因となっていた。そこで、Posted Interruptでは外部からの割り込みを直接ゲストOSへと渡し、VM Exitを減少させ性能向上させる。

Posted Interruptsを使うとVM Exitを減少させることができる(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 Page Modification Loggingは、ラピッドチェックポイントと呼ばれる仕組みを利用してVMのフォルトトレランス(障害時にバックアップに切り替えて動作を続けること)のオーバーヘットを削減する機能。Haswell世代からサポートされているHaswell EPT A/D実装を利用しており、プライマリのVMのチェックポイントをバックアップに対して発行することで、素早くバックアップに切り換えることが可能になる。また、Xeon E5 v3(Haswell-EP)世代でも削減されたVM Enter/Exit時のレイテンシもさらに100サイクルほど削減されており、仮想化ソフトウェアを利用した時の性能が向上しているのだ。

Page Modification Loggingを利用するとVMのフォルトトレランス時のオーバーヘッドを削減する(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

 そのほか、HWPM(HardWare controlled Power Management)とプロセッサトレース(プロセッサの動作状態をメモリに書き出す機能、デバッグなどに利用できる)などの機能も追加されている。HWPMはCPU省電力のプロファイルを4つ備え、それらをハードウェアベースで切り換えることで、OSベースの省電力よりもより高速に省電力モードとハイパフォーマンスモードを切り換える事ができる。

 Intelが第6世代Coreプロセッサ(開発コードネーム:Skylake)で導入した、Intel SpeedShift Technologyに似たような機能とも言えるが、あちらはプロセッサに内蔵されているマイクロコントローラでよりインテリジェントに切り替えているのに対して、このHWPMは4段階をハードウェアで切り替えているだけなので、もう少し原始的な仕組みと言える。

HWPM(HardWare controlled Power Management)は4つのプロファイルを用意してそれらをハードウェアで切り換えることで、省電力モードから高性能モードへの復帰をより早く切り替えられるようになる(出典:Intel、Intel Xeon Processor E5 v4 Family Architecture Review、2016年)

4年前のSandy Bridge-EPと比較するとVMを3.5倍に増やし、Haswell-EPに比べて44%性能が向上

 Intelが公表したXeon E5 v4の性能データによれば、4年前のシステムと比較して1つのサーバーに対して収納できる仮想マシンが3.5倍になっており、IBMのPOWER8 S824(12コア/3.5GHz)に対して価格性能比が約4倍、S&I Engineering Solutions PvtのHiFUNで前世代と比較して44%性能が高いと説明している。

Intelが公表したXeon E5 v4の性能のまとめ(出典:Intel、Intel Xeon Processor E5-2600 v4 Product Family Performance、2016年)

 また、前世代(Xeon E5-269x v3)と新製品(Xeon E5-269x v4)のSPECintなど一般的なベンチマーク結果は以下のようになる。ベンチマークによって結果は違っているが、1.07~1.64倍になっており、平準化すると1.27倍であるという。

前世代(Xeon E5-269x v3)と新製品(Xeon E5-269x v4)を比較した各種ベンチマークのテスト結果(出典:Intel、Intel Xeon Processor E5-2600 v4 Product Family Performance、2016年)

 過去の3世代(Xeon E5 v3、Xeon E5 v2、Xeon E5)との比較結果は以下のようになっている。

過去の3世代(Xeon E5 v3=Haswell-EP、Xeon E5 v2=Ivy Bridge-EP、Xeon E5=Sandy Bridge-EP)との比較データ

 これによれば、Xeon E5 v3との比較では1.2~1.4倍、Xeon E5 v2との比較では1.7~2.1倍、Xeon E5との比較では2.6~2.8倍となっている。

マザーボードはXeon E5 v3と共通でBIOSアップデートで換装が可能になる

 最後に、SKU構成と1,000個ロット時の価格について紹介しておきたい。Xeon E5 v4には全部で27の公式なSKUが用意されている。なお、今回は発表されていないが、この他特定の顧客向けの特別なSKUが提供される場合もある。

【表3】Xeon E5 v4のSKU構成と価格(Intel社が公開した資料より筆者作成)
ターゲット市場プロセッサナンバーダイコアHT対応ベースクロックターボTDPLLCQPIメモリ価格(米ドル)
セグメント特化型E5-2699 v4HCC222.2GHz145W55MB9.6GT/sDDR4-24004,115
E5-2698 v4HCC202.2GHz135W50MB9.6GT/sDDR4-24003,226
E5-2697A v4HCC162.6GHz145W40MB9.6GT/sDDR4-24002,891
E5-2697 v4HCC182.3GHz145W45MB9.6GT/sDDR4-24002,702
E5-2695 v4HCC182.1GHz120W45MB9.6GT/sDDR4-24002,424
E5-2683 v4HCC162.1GHz120W40MB9.6GT/sDDR4-24001,846
周波数最適化E5-2667 v4LCC83.2GHz135W25MB9.6GT/sDDR4-24002,057
E5-2643 v4LCC63.4GHz135W20MB9.6GT/sDDR4-24001,552
E5-2637 v4LCC43.5GHz135W15MB9.6GT/sDDR4-2400996
E5-2623 v4LCC42.6GHz85W10MB8GT/sDDR4-2133444
アドバンスドE5-2690 v4MCC142.6GHz135W35MB9.6GT/sDDR4-24002,090
E5-2680 v4MCC142.4GHz120W35MB9.6GT/sDDR4-24001,846
E5-2660 v4MCC142GHz105W35MB9.6GT/sDDR4-24001,445
E5-2650 v4MCC122.2GHz105W30MB9.6GT/sDDR4-24001,166
スタンダードE5-2640 v4LCC102.4GHz90W25MB8GT/sDDR4-2133939
E5-2630 v4LCC102.2GHz85W25MB8GT/sDDR4-2133667
E5-2620 v4LCC82.1GHz85W20MB8GT/sDDR4-2133417
ベーシックE5-2609 v4LCC8-1.7GHz-85W20MB6.4GT/sDDR4-1866306
E5-2603 v4LCC6-1.7GHz-85W15MB6.4GT/sDDR4-1866213
低消費電力E5-2650L v4MCC141.7GHz65W35MB9.6GT/sDDR4-24001,329
E5-2630L v4LCC101.8GHz55W25MB8GT/sDDR4-2133612
ワークステーションE5-2687W v4MCC123GHz160W30MB9.6GT/sDDR4-24002,141
ストレージ/通信向けE5-2658 v4-142.3GHz105W35MB9.6GT/sDDR4-24002,040
E5-2648L v4-141.8GHz75W35MB9.6GT/sDDR4-24001,544
E5-2628L v4-121.9GHz75W30MB8GT/sDDR4-21331,364
E5-2618L v4-102.2GHz75W25MB8GT/sDDR4-2133779
E5-2608L v4-81.6GHz-50W20MB6.4GT/sDDR4-1866441

 なお、Xeon E5 v4はプラットフォーム側、つまりチップセットに関してはXeon E5 v3(Haswell-EP)と同じC610を利用する。このため、既にC610を搭載したマザーボードを利用しているユーザーは、BIOS(ファームウェア)をXeon E5 v4対応版にアップグレードすることでそのまま利用することができる。

C610を搭載したマザーボードがそのまま活用できる
CineBench 2015を実行している所
Xeon E5-2699 v4をWindowsのタスクマネージャで見ているところ、44個の物理CPUコアと、88個の論理プロセッサがあることが確認できる

 今回発表されたXeon E5 v4は既にOEMメーカーなどへの出荷が開始されており、まもなくOEMメーカーから搭載システムが販売開始される予定だ。マザーボードはv3と共通で利用することができるので、OEMメーカーからの出荷もさほど遠くない時期に開始されることになるだろう。

(笠原 一輝)