ニュース
Intel、2ソケット向けBroadwellプロセッサ「Xeon E5 v4」
~14nmにより最大22コアに強化、前世代と比較して最大44%の性能向上
(2016/4/1 01:30)
Intelは3月31日(米国時間)、同社がBroadwell-EPのコードネームで開発を続けてきたデータセンター/サーバー向けプロセッサを「Xeon E5 v4」ファミリとして発表した。
Xeon E5 v4は、日本で需要が高い2ソケットサーバー向けに主に利用されるサーバー向けプロセッサで、2014年の9月に発表されたXeon E5 v3(別記事)以来1年半ぶりの新製品となる。新しいXeon E5 v4ファミリは製造プロセスルールが14nmに微細化され、CPUコアがXeon E5 v3(開発コードネーム:Haswell-EP)の最大18コアから増えて最大22コアに強化された。
Xeon E5 v4はHCC(High Core Count、24コア)、MCC(Medium Core Count、15コア)、LCC(Low Core Count、10コア)の3つダイバリエーションがあり、複数のSKU(製品グレード)がそこから派生されて展開される。Intelが公表した資料によれば、前世代となるXeon E5 v3に比べて、最大44%の性能向上が見込めるという。
最大の特徴は14nmプロセスルールへの微細化
今回発表されたXeon E5 v4(製品名としてXeon E5-2600 v4シリーズとプロセッサナンバーを含めた形で呼ばれることも多いが、本記事ではファミリ全体を示す時にはXeon E5 v4に統一する)は、2012年に発表された初代のXeon E5(開発コードネームSandy Bridge-EP)から数えて4世代目の製品となる。
IntelはTICK-TOCKと呼ばれる開発体制を敷いており、TICK(プロセスルールを微細化した版)とTOCK(プロセスルールは同じだがマイクロアーキテクチャを改良した版)を概ね1年ごとに交互に投入するという体制になっていて、今回発表されたXeon E5 v4はTICKに相当する。だが、近年のIntelプロセッサがそうであるように、TICKであってもマイクロアーキテクチャ以外の点で多くの新機能が追加されている。従来製品との違いを大きくまとめると以下のようになる。
ブランド名 | Xeon 5600番台 | Xeon E5 | Xeon E5 v2 | Xeon E5 v3 | Xeon E5 v4 |
---|---|---|---|---|---|
開発コードネーム | Westmere-EP | Sandy Bridge-EP | Ivy Bridge-EP | Haswell-EP | Broadwell-EP |
リリース年 | 2010年 | 2012年 | 2013年 | 2014年 | 2016年 |
製造プロセスルール | 32nm | 32nm | 22nm | 22nm | 14nm |
CPUコア(最大) | 6 | 8 | 12 | 18 | 22 |
ダイ構成 | 6 | 8 | 15、10、6 | 18、12、8 | 24、15、10 |
HT対応 | ○ | ○ | ○ | ○ | ○ |
LLCキャッシュ(コアあたり) | 2MB | 2.5MB | 2.5MB | 2.5MB | 2.5MB |
LLCキャッシュ(最大) | 12MB | 20MB | 30MB/20MB/15MB | 45MB/30MB/20MB | 55MB/37.5MB/25MB |
コアマイクロアーキテクチャ | Nehalem世代 | Sandy Bridge世代 | Sandy Bridge世代(改良版) | Haswell世代 | Haswell世代(改良版) |
CPUソケット | Socket B(LGA1366) | Socket R(LGA2011) | Socket R(LGA2011) | Socket R3(LGA2011v3) | Socket R3(LGA2011v3) |
最大ソケット | 2 | 2 | 2 | 2 | 2 |
最大メモリ容量 | 288GB | 768GB | 768GB | 1.5TB | 1.5TB |
メモリ | DDR3-1333 | DDR3-1600 | DDR3-1866 | DDR4-2133 | DDR4-2400 |
メモリチャネル数 | 3 | 4 | 4 | 4 | 4 |
命令セット | SSE4.2 | SSE4.2/AVX | SSE4.2/AVX | SSE4.2/AVX2 | SSE4.2/AVX2/TSX |
QPI | 2×最大6.4GT/s | 2×最大8GT/s | 2×最大8GT/s | 2×最大9.6GT/s | 2×最大9.6GT/s |
PCI Express | PCI Express Gen2(チップセット側) | PCI Express Gen3 | PCI Express Gen3 | PCI Express Gen3 | PCI Express Gen3 |
PCI Expressレーン数 | 36(チップセット側) | 40 | 40 | 40 | 40 |
DMI | - | DMI/Gen2(4レーン) | DMI/Gen2(4レーン) | DMI/Gen2(4レーン) | DMI/Gen2(4レーン) |
チップセット | 5500(Tyrusburg) | C600(Patsburg) | C600(Patsburg) | C610(Wellsburg) | C610(Wellsburg) |
見て分かるようにTOCKに相当するXeon E5-2600(Sandy Bridge-EP)やXeon E5 v3(Haswell-EP)がマイクロアーキテクチャのアップデートを伴うため、多くの点で改良がされているのに対して、TICKに相当するXeon E5 v2(Ivy Bridge-EP)やXeon E5 v4(Broadwell-EP)は改良点が少ない。
だが、TICK世代の最大の特徴は製造プロセスルールが微細化されることのメリットを享受できることだ。製造プロセスルールは半導体を構成するスイッチのゲートと呼ばれる部分の長さを示しており、この数字が小さければ小さいほど、同じ面積により多くのトランジスタを積み込める。これにより、半導体の性能が向上し、消費電力が下がるなどのメリットが得られる。
Xeon E5 v4は、最新世代である14nmプロセスへと微細化されている。これにより、ダイサイズは従来世代に比べて小さくなっているのにも関わらずトランジスタ数が向上している。増えたトランジスタは、新しいCPUコアなどに割り当てられており、従来世代(Xeon E5 v3)では最大18コアだったCPUコアは、Xeon E5 v4では最大24コアへと増やされている。また、アクティブ時の消費電力も少なくなっており、電力効率も改善されているとIntelでは説明している。
HCC、MCC、LCCという3つのダイバリエーションがある構造はHaswell-EPと同等
ところで、表1の仕様の中で、Xeon E5 v4のCPUコアは最大22コアだと説明しているのに、なぜ前の文の最後で24コアだと言っているのか不思議に思った人もいるのではないだろうか。実はXeon E5 v4のダイのハードウェア的な仕様としては最大24コアになっているのだ。
Xeon E5 v4には、HCC(High Core Count)、MCC(Medium Core Count)、LCC(Low Core Count)の3つのダイバリエーション(製造時のハードウェアとしての半導体の種類)があるという。
ダイ名 | リングバス数 | ホームエージェント数 | 最大コア数 | 消費電力 | トランジスタ数 | ダイ寸法 | ダイサイズ |
---|---|---|---|---|---|---|---|
HCC | 4 | 2 | 24 | 145~120W | 72億個 | 18.1×25.2mm | 456.12平方mm |
MCC | 3 | 2 | 15 | 160~65W | 47億個 | 16.2×18.9mm | 306.18平方mm |
LCC | 2 | 1 | 10 | 135~55W | 32億個 | 16.2×15.9mm | 257.58平方mm |
Sandy Bridge世代以降、Intelは基本的にサーバー向けのCPUで3つのダイバリエーションを造り、それを元に、一部のコアを無効にするなどの手法で複数のSKUを派生していく仕組みになっている(なお、Sandy Bridge世代だけは例外で、開発中だったHCCは途中でキャンセルされている)。これをXeon E5 v4世代でも踏襲する。
Intelによれば、HCCが24コア、MCCが15コア、LCCが10コアとなっており、それを元に後述するSKUに派生していく。ただ、そのSKUの表を見れば分かるように、HCCから派生している製品で最上位SKUとなるXeon E5-2699 v4は22コアになっており、HCCの24コアすべてを利用しているわけではない。MCCも同様で、MCCを利用した製品では最上位SKUとなるXeon E5-2690 v4も14コアで、MCCの15コアすべてを利用しているわけではないのだ。
これには2つの事情が考えられる。1つは、生産の都合からそうなっている可能性だ。半導体の生産は歩留まりと呼ばれる数値が重視される。これは製造した半導体のうちいくつが出荷できるものであるかを示す数値で、これが高ければ高いほど、半導体メーカーにとっては順調に生産できていることを意味している。それを上げる手法の1つとして、マルチコアのCPUの場合には設計上やや多めのCPUコアにしておき、1つや2つが使えなくても、そこを無効化すれば、良質の製品として出荷できるようになるので、歩留まりを上げることができるのだ。
もう1つは、今回は発表されていないが、EXプロセッサ(Xeon E7)と呼ばれる、4ソケット以上のより大規模向け製品が別途用意されており、そのために24コア構成はあえて残している可能性だ。実際、前世代となるHaswell世代では、Xeon E7 v3は、Xeon E5 v3と同じHCCのダイを共有していた。従って、今後EXプロセッサが登場すれば、24コアすべてを使うという製品の登場も考えられる。ただ、現時点ではIntelはBroadwell世代のEXプロセッサに関しては何も発表していない。
なお、HCC、MCC、LCCの構造は、コア数が変わった以外は基本的にXeon E5 v3(Haswell-EP)世代と変わっていない。HCCが4つのリングバス(CPUとCPUを接続する内部バスのこと)、MCCは3つのリングバスにCPUコアと2つのホームエージェント(メモリコントローラがなど)ぶら下がる形になっている。LCCは、2つのリングバスにCPUコアと1つのホームエージェントがぶら下がる形になっている。3つ以上のリングがあるLCCとMCCに関しては、リングバス同士をバッファスイッチで接続する形状も前世代と同様の仕組みだ。
同じTICK世代のXeon E5 v2と比較しても小さなダイサイズとなっているBroadwell-EP
2012年にリリースされたXeon E5(SNB)以降のIntelのサーバー用プロセッサ(Xeon E5 v2=IVB、Xeon E5 v3=HSW、Xeon E5 v4=BDW)のダイサイズとコア数の変遷を、ダイの種類によってグラフにすると以下のようになる。
Sandy Bridge世代にはHCCがないように見えるが、これは元々Sandy Bridge-EXとして計画されていた12コアの製品がキャンセルされたためだ。こうしてみていくと、コア数は概ねリニアに増えており、3世代後(つまり2度のプロセスルールの微細化と一度の新マイクロアーキテクチャの導入で)に概ね倍になっていることが分かる。
これに対して、ダイサイズはプロセスルールの微細化で一度小さくなり、新しいマイクロアーキテクチャの導入で大きくなっている。今回のBroadwell-EPのHCCではダイサイズが456平方mmと、22nmのHaswell-EPのMCCよりも小さくなっている。つまり、IntelにはIvy Bridge-EP世代と同じように500平方mmを超えるダイサイズにして、もっとコアを増やすという選択肢もあったが、それを選択しなかったことになる。
Broadwell-EPの設計者に確認したところ「もちろんダイサイズを増やすという選択肢もあった。しかし歩留まりや消費電力、さらにはターゲットにしている性能を考えれば、24コアで十分だと決めた」という答えが返ってきた。
Intelにしてみれば、Xeon E5 v3のMCCよりも小さいダイサイズでXeon E5 v4のHCCが作れるということは、工場のラインを有効に使えているというだけでなく、ダイサイズが小さくなればなるほど歩留まりにもいい影響を与えるわけだ。
CPUのマイクロアーキテクチャ強化点はクライアント向けと同等、TSXにEPでも対応
CPUコアのマイクロアーキテクチャは、前世代となるXeon E5 v3(Haswell-EP)に比べて若干の改良が加えられている。大きい改良点は2つあり、1つは浮動小数点演算時の性能改善と、TLB(Translation Buffer)の改善が上げられる。
浮動小数点演算時の性能改善では、浮動小数点演算時のかけ算と割り算の性能向上が大きく貢献している。1つには浮動小数点の乗算を行なう時のレイテンシが、Haswell世代まで5クロックサイクルから3クロックサイクルに削減されている。また、1024 Radix Dividerが導入され、Ivy Bridge/HaswellまでのRadix-16 Dividerに比べて除算時のレイテンシが削減され、さらにはスカラー除算時の動作が分離され、2つのスカラー除算が同時に行なえるようになっている。
また、Xeon E5 v4では、Xeon E5 v3世代ではマイクロコードのレベルで無効にされていたTSX命令が有効にされている。Haswell世代ではTSXが有効にされたのはEXことXeon E7 v3だけだったが、Broadwell世代ではE5でも同様に有効になっている。
なお、これらのマイクロアーキテクチャの改良は、クライアントPC向けのBroadwell(第5世代Coreプロセッサ)でもなされたもので、基本的に共通だと言っていい。
セキュリティ関連の機能強化ではADC/SBB/PCLMULQDQ実行時のレイテンシ削減、ADCX/ADOXの新命令の導入、RDSEEDのサポート、スーパーバイザーモードアクセス制限(Supervisor Mode Access Prevention =SMAP)などの機能が追加されている。
また、ADC/SBB/PCLMULQDQ実行時のレイテンシ削減やADCX/ADOXの新命令の導入により、Xeon E5 v4は前世代に比較して、AESやRSAなどのセキュリティ関連の演算を行なう際により高速に演算することができる。
SMAPと呼ばれるスーパーバイザーモードアクセス制限の機能は、ユーザーモードのアドレススペースを保護する新しいCPUベースのメカニズムになる。同じような機能としてはSMEP(Supervisor Mode Execution Prevention)がユーザーデータページからのスーパーバイザーモードでの実行を防止するが、SMAPはユーザーモードのアドレススペースにあるデータへスーパーバイザーモードから意図せずアクセスすることを防止する。
リソースの割り当てを動的に行なうIntel RDTに対応、VM周りでも性能を強化
Xeon E5 v4ではキャッシュやメモリのモニタリング機能が拡張されている。前世代ではCMT(Cache Monitoring Technology)と呼ばれるL3キャッシュの状況をモニタリングする機能が追加されたが、Xeon E5 v4ではそれに加えてCAT(Cache Allocation Technology、前世代では通信向けのSKUでのみ有効になっていた)、CDP(Code and Data Prioritization)、MBM(Memory Bandwidth Monitoring)の機能が追加され、CMT自体も機能が拡張されている。
これらの機能はまとめて「Intel Resource Director Technology」(RDT)と呼ばれ、OSや仮想マシンがメモリやキャッシュの状況を常にモニタリングして、より効率が良い使い方ができるように管理する機能として利用される。CMTとMBMがキャッシュとメモリのモニタリングを、CATとCDPがキャッシュの割り当てを動的に行ない、ノイジーネイバーと呼ばれる、実際には必要がないのにキャッシュに居座ってしまうVMを追い出す役割などを果たす。
仮想化向けの拡張では3つの強化点がある。それがPosted Interrupts、Page Modification Logging、VM Enter/Exitレイテンシのさらなる削減だ。
Posted Interruptsは外部からの割り込みが発生した時に、従来の方式だとVM Exitと呼ばれるゲストOSからホストへの切替が多く発生してしまい性能低下の原因となっていた。そこで、Posted Interruptでは外部からの割り込みを直接ゲストOSへと渡し、VM Exitを減少させ性能向上させる。
Page Modification Loggingは、ラピッドチェックポイントと呼ばれる仕組みを利用してVMのフォルトトレランス(障害時にバックアップに切り替えて動作を続けること)のオーバーヘットを削減する機能。Haswell世代からサポートされているHaswell EPT A/D実装を利用しており、プライマリのVMのチェックポイントをバックアップに対して発行することで、素早くバックアップに切り換えることが可能になる。また、Xeon E5 v3(Haswell-EP)世代でも削減されたVM Enter/Exit時のレイテンシもさらに100サイクルほど削減されており、仮想化ソフトウェアを利用した時の性能が向上しているのだ。
そのほか、HWPM(HardWare controlled Power Management)とプロセッサトレース(プロセッサの動作状態をメモリに書き出す機能、デバッグなどに利用できる)などの機能も追加されている。HWPMはCPU省電力のプロファイルを4つ備え、それらをハードウェアベースで切り換えることで、OSベースの省電力よりもより高速に省電力モードとハイパフォーマンスモードを切り換える事ができる。
Intelが第6世代Coreプロセッサ(開発コードネーム:Skylake)で導入した、Intel SpeedShift Technologyに似たような機能とも言えるが、あちらはプロセッサに内蔵されているマイクロコントローラでよりインテリジェントに切り替えているのに対して、このHWPMは4段階をハードウェアで切り替えているだけなので、もう少し原始的な仕組みと言える。
4年前のSandy Bridge-EPと比較するとVMを3.5倍に増やし、Haswell-EPに比べて44%性能が向上
Intelが公表したXeon E5 v4の性能データによれば、4年前のシステムと比較して1つのサーバーに対して収納できる仮想マシンが3.5倍になっており、IBMのPOWER8 S824(12コア/3.5GHz)に対して価格性能比が約4倍、S&I Engineering Solutions PvtのHiFUNで前世代と比較して44%性能が高いと説明している。
また、前世代(Xeon E5-269x v3)と新製品(Xeon E5-269x v4)のSPECintなど一般的なベンチマーク結果は以下のようになる。ベンチマークによって結果は違っているが、1.07~1.64倍になっており、平準化すると1.27倍であるという。
過去の3世代(Xeon E5 v3、Xeon E5 v2、Xeon E5)との比較結果は以下のようになっている。
これによれば、Xeon E5 v3との比較では1.2~1.4倍、Xeon E5 v2との比較では1.7~2.1倍、Xeon E5との比較では2.6~2.8倍となっている。
マザーボードはXeon E5 v3と共通でBIOSアップデートで換装が可能になる
最後に、SKU構成と1,000個ロット時の価格について紹介しておきたい。Xeon E5 v4には全部で27の公式なSKUが用意されている。なお、今回は発表されていないが、この他特定の顧客向けの特別なSKUが提供される場合もある。
ターゲット市場 | プロセッサナンバー | ダイ | コア | HT対応 | ベースクロック | ターボ | TDP | LLC | QPI | メモリ | 価格(米ドル) |
---|---|---|---|---|---|---|---|---|---|---|---|
セグメント特化型 | E5-2699 v4 | HCC | 22 | ○ | 2.2GHz | ○ | 145W | 55MB | 9.6GT/s | DDR4-2400 | 4,115 |
E5-2698 v4 | HCC | 20 | ○ | 2.2GHz | ○ | 135W | 50MB | 9.6GT/s | DDR4-2400 | 3,226 | |
E5-2697A v4 | HCC | 16 | ○ | 2.6GHz | ○ | 145W | 40MB | 9.6GT/s | DDR4-2400 | 2,891 | |
E5-2697 v4 | HCC | 18 | ○ | 2.3GHz | ○ | 145W | 45MB | 9.6GT/s | DDR4-2400 | 2,702 | |
E5-2695 v4 | HCC | 18 | ○ | 2.1GHz | ○ | 120W | 45MB | 9.6GT/s | DDR4-2400 | 2,424 | |
E5-2683 v4 | HCC | 16 | ○ | 2.1GHz | ○ | 120W | 40MB | 9.6GT/s | DDR4-2400 | 1,846 | |
周波数最適化 | E5-2667 v4 | LCC | 8 | ○ | 3.2GHz | ○ | 135W | 25MB | 9.6GT/s | DDR4-2400 | 2,057 |
E5-2643 v4 | LCC | 6 | ○ | 3.4GHz | ○ | 135W | 20MB | 9.6GT/s | DDR4-2400 | 1,552 | |
E5-2637 v4 | LCC | 4 | ○ | 3.5GHz | ○ | 135W | 15MB | 9.6GT/s | DDR4-2400 | 996 | |
E5-2623 v4 | LCC | 4 | ○ | 2.6GHz | ○ | 85W | 10MB | 8GT/s | DDR4-2133 | 444 | |
アドバンスド | E5-2690 v4 | MCC | 14 | ○ | 2.6GHz | ○ | 135W | 35MB | 9.6GT/s | DDR4-2400 | 2,090 |
E5-2680 v4 | MCC | 14 | ○ | 2.4GHz | ○ | 120W | 35MB | 9.6GT/s | DDR4-2400 | 1,846 | |
E5-2660 v4 | MCC | 14 | ○ | 2GHz | ○ | 105W | 35MB | 9.6GT/s | DDR4-2400 | 1,445 | |
E5-2650 v4 | MCC | 12 | ○ | 2.2GHz | ○ | 105W | 30MB | 9.6GT/s | DDR4-2400 | 1,166 | |
スタンダード | E5-2640 v4 | LCC | 10 | ○ | 2.4GHz | ○ | 90W | 25MB | 8GT/s | DDR4-2133 | 939 |
E5-2630 v4 | LCC | 10 | ○ | 2.2GHz | ○ | 85W | 25MB | 8GT/s | DDR4-2133 | 667 | |
E5-2620 v4 | LCC | 8 | ○ | 2.1GHz | ○ | 85W | 20MB | 8GT/s | DDR4-2133 | 417 | |
ベーシック | E5-2609 v4 | LCC | 8 | - | 1.7GHz | - | 85W | 20MB | 6.4GT/s | DDR4-1866 | 306 |
E5-2603 v4 | LCC | 6 | - | 1.7GHz | - | 85W | 15MB | 6.4GT/s | DDR4-1866 | 213 | |
低消費電力 | E5-2650L v4 | MCC | 14 | ○ | 1.7GHz | ○ | 65W | 35MB | 9.6GT/s | DDR4-2400 | 1,329 |
E5-2630L v4 | LCC | 10 | ○ | 1.8GHz | ○ | 55W | 25MB | 8GT/s | DDR4-2133 | 612 | |
ワークステーション | E5-2687W v4 | MCC | 12 | ○ | 3GHz | ○ | 160W | 30MB | 9.6GT/s | DDR4-2400 | 2,141 |
ストレージ/通信向け | E5-2658 v4 | - | 14 | ○ | 2.3GHz | ○ | 105W | 35MB | 9.6GT/s | DDR4-2400 | 2,040 |
E5-2648L v4 | - | 14 | ○ | 1.8GHz | ○ | 75W | 35MB | 9.6GT/s | DDR4-2400 | 1,544 | |
E5-2628L v4 | - | 12 | ○ | 1.9GHz | ○ | 75W | 30MB | 8GT/s | DDR4-2133 | 1,364 | |
E5-2618L v4 | - | 10 | ○ | 2.2GHz | ○ | 75W | 25MB | 8GT/s | DDR4-2133 | 779 | |
E5-2608L v4 | - | 8 | ○ | 1.6GHz | - | 50W | 20MB | 6.4GT/s | DDR4-1866 | 441 |
なお、Xeon E5 v4はプラットフォーム側、つまりチップセットに関してはXeon E5 v3(Haswell-EP)と同じC610を利用する。このため、既にC610を搭載したマザーボードを利用しているユーザーは、BIOS(ファームウェア)をXeon E5 v4対応版にアップグレードすることでそのまま利用することができる。
今回発表されたXeon E5 v4は既にOEMメーカーなどへの出荷が開始されており、まもなくOEMメーカーから搭載システムが販売開始される予定だ。マザーボードはv3と共通で利用することができるので、OEMメーカーからの出荷もさほど遠くない時期に開始されることになるだろう。