ニュース
Intel、最大56コアになった第2世代Xeonスケーラブル・プロセッサ
~DL Boost搭載でDL推論性能が向上
2019年4月3日 02:00
Intelは4月2日(米国時間、日本時間4月3日)に報道発表を行ない、同社が「Cascade Lake-AP (CLX-AP)」の開発コードネームで開発してきたデータセンター向けプロセッサを、「第2世代Xeonスケーラブル・プロセッサ」(以下第2世代Xeon SP)として正式発表した。
第2世代Xeon SPは、2017年に投入された開発コードネーム“Skylake-SP”ことXeonスケーラブル・プロセッサ(以下初代Xeon SP)の後継となる製品だ。
マイクロアーキテクチャはSkylake-SPを継承、2ダイ/1パッケージのXeon Platinum 9200シリーズを導入
CPUソケットは、初代Xeon SPと同じLGA3647になっており、チップセットも同じ「Intel C620 (Lewisburg)」を利用する。このため、マザーボード側のファームウェアが新しい第2世代Xeon SPに対応していれば、初代Xeon SP用マザーボードでそのまま利用することができる。
だが、同じなのはインフラだけではない。基本的に第2世代Xeon SPは、基本的なアーキテククチャを初代Xeon SPから引き継いでおり、いわゆるマイクロアーキテクチャと呼ばれるCPUのハードウェア仕様は、初代Xeon SPとほぼ同等になっている。
CPUコア数は最大で28コアになっており、CPU 1つにつき1MBのL2キャッシュ、コアあたり最大38.5MBのLLCなどのスペックは、初代Xeon SPとまったく同等だ。
また、Intelは第2世代Xeon SPの製造プロセスルールを“14nm”とだけ説明しており、それが14nm+なのか、14nm++なのかも含めて、具体的な説明をしていない。こうしたことや、Intel自身がそう言っているとおり、後述するIntel DL Boostへの対応させるための改良を除けば、ほぼSkylake-SPと変わらないと言って良いだろう。
ブランド名 | Xeon 5600番台 | Xeon E5 | Xeon E5 v2 | Xeon E5 v3 | Xeon E5 v4 | Xeon SP | 第2世代Xeon SP |
---|---|---|---|---|---|---|---|
開発コードネーム | Westmere-EP | Sandy Bridge-EP | Ivy Bridge-EP | Haswell-EP | Broadwell-EP | Skylake-SP | Cascade Lake-SP |
リリース年 | 2010年 | 2012年 | 2013年 | 2014年 | 2016年 | 2017年 | 2019年 |
製造プロセスルール | 32nm | 32nm | 22nm | 22nm | 14nm | 14nm | 14nm |
CPUコア(最大) | 6 | 8 | 12 | 18 | 22 | 28 | 56 |
ダイ構成(HCC/MCC/LCC) | 6 | 8 | 15/10/6 | 18/12/8 | 24/15/10 | 28/18/10 | 28/18/10 |
パッケージあたりのダイ数 | 1 | 最大2 | |||||
HT対応 | 対応 | ||||||
L2キャッシュ(コアあたり) | 256KB | 1MB | |||||
LLCキャッシュ(コアあたり) | 2MB | 2.5MB | 1.375MB | ||||
LLCキャッシュ(ダイあたり最大) | 12MB | 20MB | 30MB/20MB/15MB | 45MB/30MB/20MB | 55MB/37.5MB/25MB | 38.5MB/24.75MB/13.75MB | |
コアマイクロアーキテクチャ | Nehalem世代 | Sandy Bridge世代 | Sandy Bridge世代(改良版) | Haswell世代 | Haswell世代(改良版) | Skylake世代 | |
コア間インターコネクト | - | リング | メッシュ | ||||
CPUソケット | Socket B(LGA1366) | Socket R(LGA2011) | Socket R3(LGA2011v3) | Socket P(LGA3647) | Socket P(LGA3647)/BGA(5903ball、2ダイ構成) | ||
最大ソケット | 2 | 2/4/8 | 2/4/8 | ||||
最大メモリ容量 | 288GB | 384GB | 768GB | 1.5TB | 1.5TB | 1.5TB | 4.5TB(Optane DCPM利用時) |
メモリ | DDR3-1333 | DDR3-1600 | DDR3-1866 | DDR4-2133 | DDR4-2400 | DDR4-2666 | DDR4-2933 |
Optane DC Persistent Memory対応 | 非対応 | 対応 | |||||
メモリチャネル数(CPUソケットあたり) | 3 | 4 | 6 | 6/12 | |||
命令セット | SSE4.2 | SSE4.2/AVX | SSE4.2/AVX2 | SSE4.2/AVX2/TSX | SSE4.2/AVX2/TSX/AVX512 | SSE4.2/AVX2/TSX/AVX512/Intel DL Boost | |
QPI/UPI(ダイあたり) | 2x最大6.4GT/s | 2x最大8GT/s | 2x最大8GT/s | 2x最大9.6GT/s | 3x最大10.4GT/s | 3x最大10.4GT/s | |
PCI Express | PCI Express Gen2(チップセット側) | PCI Express Gen3 | |||||
PCI Expressレーン数 | 36(チップセット側) | 40 | 64(MCC/LCCは48) | 48 | |||
DMI | - | DMI/Gen2(4レーン) | DMI/Gen3(4レーン) | ||||
チップセット | 5500(Tyrusburg) | C600(Patsburg) | C610(Wellsburg) | C620(Lewisburg) |
だが、この世代でもっとも大きな変化として、Xeon Platinum 9200シリーズが投入されることが挙げられる。
Xeon Platinum 9200シリーズでは、2つのCascade Lake-APのダイを1つのパッケージに搭載している。具体的には、3つあるUPI(XeonでCPUとCPUを接続するのに使われるインターコネクト)を、1つは内部のダイ同士を接続するのに利用し、残り2つでもう1つのソケットに搭載されるパッケージ上の2つのダイとダイレクトに接続されることになる。
これにより、パッケージ内部で接続されるダイ同士は70nsのレイテンシで、ほかのパッケージに搭載されるダイには130nsのレイテンシでアクセスすることが可能になる。
また、1つのパッケージが利用できるメモリのチャネルは倍になり、最大で12チャネルまでサポートされる。パッケージあたりのメモリ帯域は281GB/sとなり、従来の1パッケージ=1台実装での140.5GB/sに比べて倍になる。
メモリは、初代Xeon SPではDDR4-2666までの対応だったが、第2世代Xeon SPではDDR4-2933まで対応する。前述のXeon Platinum 9200シリーズは未対応だが、1パッケージ1ダイの製品の多くでは、「Intel Optane DC Persistent Memory」に対応可能で、その場合には、1パッケージあたりの最大メモリ容量は初代Xeon SPの3倍になる4.5TBまで増やすことができる(Intel Optane DC Persistent Memoryに関しては別記事参照)。
ただし、この2ダイ1パッケージのXeon Platinum 9200シリーズは、LGA3647向けには提供されず、マザーボードに直接貼り付けるかたちのBGAパッケージのみ提供される。そして最大TDPは、LGAパッケージ製品(205W)の倍にあたる400Wとなり、ユーザーによっては、28コアを4ソケットで実装した方が利便性が高いという可能性がある。
このため、Intelは従来とおり1ダイ1パッケージも同様に提供し、Xeon Platinum 9200シリーズは、2ダイ1パッケージを採用した方が有利なユーザーなどをターゲットにしていく考え方だ。
具体的には、オンプレミスのデータベースなどで、CPUソケット数でライセンス価格が決まってくるユーザーなどにとっては、CPUコア数が最大になり、パッケージあたりのメモリ帯域も上がることになるので、採用するメリットがあると言えるだろう。
VNNI/DL Boostに対応することで、INT8を利用したディープラーニングの推論性能を285倍に
今回の第2世代Xeon SPで新しく導入された機能として、「VNNI(Vector Neural Network Instructions)」と呼ばれるAVX512の拡張命令が追加されたことが挙げられる。
このVNNIは、Xeon Phiシリーズですでに導入されていたもので、vpdpbusd(8ビット)、vpdpswwd(16ビット)という2つの命令セットが導入される。Intelではこれらを総称して「Intel DL Boost」というブランド名で訴求している。
とくに注目したいのはvpdpbusdで、8ビットの整数(INT8)を、CPUのINT32アキュムレーターを利用して演算するとき、より効率よく演算する仕組みだ。
従来のAVX-512命令では、CPUが備えているINT32のアキュムレーターにINT8を入力するとき、3つの命令(vpmaddubsw、vpmaddwd、vpaddd)を実行する必要があった。つまり、3命令を3クロックサイクルをかけて実行していた。
しかし、vpdpbusdを利用することで、INT32のアキュムレーターへの格納を1クロックサイクルで済ませることができるため、理論上は処理能力が3倍になる。
IntelのXeonプロセッサは、データセンターのなかでディープラーニングの推論に利用されていることが多い。そうした推論の演算を行なうさいには、精度が学習ほどは必要ないため、FP32(単精度)やFP16(半精度)などの精度は使わずに、INT8で演算させると演算性能が大きく向上する。
このため、今回導入されたVNNIを効率よく活用することで、FP32で演算していた時と同じような消費電力のまま、より高い性能でディープラーニングの推論を実現できる。
なお、VNNIを利用するには、従来の世代で導入された新命令セットと同じように、プログラムのコードをVNNIに対応させる必要がある。
Intelは、TensorFlowやCaffeなどのフレームワークに対応したオープンソースの開発ライブラリとして「MKL-DNN」を提供しており、プログラマーはMKL-DNNの最新版を利用することで、VNNIに自分のソフトウェアを対応させることができる。
Intelによれば、2017年の7月に、ディープラーニング向けの最適化を行なっていなかった段階の初代Xeon SPで、Caffeを利用したディープラーニングの推論を行なった性能を1とすると、その後リリースされたMKL-DNNなどを利用し、最適化を行なったことで性能は50倍に、さらに今回のVNNIなどを利用した最適化を行なったこと、CPU自体の性能が上がったことで、そこから5.7倍となり、初代Xeon SPの未最適化状態から比べると、第2世代Xeon SPは285倍になるという数字を公開している。
VNNIを採用することで、ディープラーニングの推論が5.7倍高速に行なえると考えると、大きな効果があると言え、データセンター内でXeonに推論をやらせているユーザーにとっては、注目すべき数字だろう。
RDT、SSTなどのリソースをより効率よく活用する機能や、ハードウェアでのサイドチャネル攻撃対策が行なわれている
第2世代Xeon SPには、「Intel RDT(Resource Director Technology)」と呼ばれる、サーバーの使い方に応じてリソースの使い方を管理する機能が導入されている。RDTには大きく2つの機能があり、リソースをモニタリングする機能と、管理する機能がそれにあたる。
たとえば、特定のスレッドを監視していて、レイテンシへの要求が多いスレッドや、帯域幅への圧迫が多いスレッドをモニタリング機能で検出する。すると管理機能を利用して、メモリ帯域への割り当てやキャッシュへの割り当ての順序を入れ替えるなどして、キャッシュやメモリ帯域をより効果的に利用できるようになる。
そして、もう1つの新機能である「Intel SST(Speed Select Technology)」は、名前だけを見ると、クライアントPC向けのCoreプロセッサなどで導入されている「Intel Speed Step Technology」かと勘違いするかもしれないが、両者の機能はまったく異なっている。
Intel Speed Step Technologyが、CPUがP1ステート(通常動作モード)で動作しているときに、負荷に応じて動的に電圧とクロック周波数を変化させていくことで、無駄な消費電力を減らすという省電力のための技術である。それに対しIntel Speed Select Technologyは、CPUで行なわれているタスクの内容をCPUが動的に管理し、高い優先度のジョブが走っているコアの周波数を上げ、それ以外は下げることで、CPU全体が発生する電力を一定にするとともに、優先するジョブが走っているCPUコアがTurbo Boostに入りやすくなるよう調整して動作させる効果を実現する。
Speed Selectではいくつかのプロファイルが設定されており、たとえば少ないコア数で高いクロック周波数で動くことを優先する設定、より多くのコアがあるが、低い周波数で動かすなどの設定が用意される。プロファイルは、POST時にファームウェアの設定などにより動作するモードが決定することになる。
従来のXeonでは、そうした設定は購入時のSKUにより決められていた。それに対してSpeed Selectではそれらの設定を、システム管理者が設定できることが特徴となる。つまり、購入した後で、そのSKUの位置づけを変えることができる機能とも言うことができる。
なおSpeed Selectが利用できるのは、Speed Select対応に設定されているSKU(プロセッサナンバーの末尾にYがついている8260Y/6240Y/4214Y)のみとなる。
第2世代Xeonでは、昨年(2018年)1月にGoogleなどから公表されて話題になった、分岐予測による情報漏洩を狙ったサイドチャネル攻撃に対する対策も行なわれている。
Variant 1に対しては、OSと仮想化ソフトウェアですでに対策済みで、Variant 2に関しては、ハードウェア分岐命令のハンドリングとOS/仮想化ソフトウェアで対策、Variant 3は、メモリフォールトをハードウェア強化で対策、Variant 3aはハードウェアで対策、Variant 4はハードウェアとOS/仮想化ソフトないしはランタイムで対策、L1TFに関しては、Variant 3対策のハードウェア強化で解決と対策が行なわれている。
これらの対策により、ソフトウェアで対策するよりも、処理能力への影響が減っているとIntelでは説明している。
2ダイ/1パッケージのXeon Platinum 9282は、7nmの次世代EPYCよりも上回るというデモを公開
Intelは、第2世代Xeon SPのSKUと価格を以下の表のように発表している。先端性能と名付けた2ダイ/1パッケージのSKU、コアあたりの性能最適化版として従来の通常版に相当するSKU、スケーラブル性能としたソケット数を増やしていくことを前提としたSKU、Intel Speed Select対応のSKU、NFV特化型のSKU、ロングライフ/熱設計に配慮したSKU、検索アプリケーションに特化したSKUなど、標準的なSKUだけでなく、顧客のアプリケーションや目的に特化したSKUを用意している。
用途 | ブランド | プロセッサナンバー | CPUコア数 | ベースクロック | 最大クロック(TB時) | キャッシュ | TDP | Optane DCPM対応 | 価格(米ドル) |
---|---|---|---|---|---|---|---|---|---|
先端性能 | Xeon Platinum 9200シリーズ | 9282 | 56 | 2.6GHz | 3.8GHz | 77MB | 400W | - | 未定 |
9242 | 48 | 2.3GHz | 3.8GHz | 71.5MB | 350W | - | 未定 | ||
9222 | 32 | 2.3GHz | 3.7GHz | 71.5MB | 250W | - | 未定 | ||
9221 | 32 | 2.1GHz | 3.7GHz | 71.5MB | 250W | - | 未定 | ||
コアあたりの性能最適化版 | Xeon Platinum 8200シリーズ | 8280 | 28 | 2.7GHz | 4GHz | 38.5MB | 205W | ○ | 10,009ドル |
8270 | 26 | 2.7GHz | 4GHz | 35.75MB | 205W | ○ | 7,405ドル | ||
8268 | 24 | 2.9GHz | 3.9GHz | 35.75MB | 205W | ○ | 6,302ドル | ||
8256 | 24 | 3.8GHz | 3.9Ghz | 16.5MB | 105W | ○ | 7,007ドル | ||
Xeon Gold 6200/5200シリーズ | 6254 | 18 | 3.1GHz | 4GHz | 24.75MB | 200W | ○ | 3,803ドル | |
6244 | 8 | 3.6GHz | 4.4GHz | 24.75MB | 150W | ○ | 2,925ドル | ||
6242 | 16 | 2.8GHz | 3.9GHz | 22MB | 150W | ○ | 2,529ドル | ||
6234 | 8 | 3.3GHz | 4GHz | 24.75MB | 130W | ○ | 2,214ドル | ||
6226 | 12 | 2.8GHz | 3.7GHz | 19.25MB | 125W | ○ | 1,776ドル | ||
5222 | 4 | 3.8GHz | 3.9GHz | 16.5MB | 105W | ○ | 1,221ドル | ||
5217 | 8 | 3GHz | 3.7GHz | 16.5MB | 115W | ○ | 1,522ドル | ||
5215 | 10 | 2.5GHz | 3.4GHz | 16.5MB | 85W | ○ | 1,221ドル | ||
Xeon Silver 4200シリーズ | 4215 | 8 | 2.5GHz | 3.5GHz | 16.5MB | 85W | ○ | 794ドル | |
スケーラブル性能 | Xeon Platinum 8200シリーズ | 8276 | 28 | 2.2GHz | 4GHz | 38.5MB | 165W | ○ | 8,719ドル |
8260 | 24 | 2.4GHz | 3.9GHz | 35.7MB | 165W | ○ | 4,702ドル | ||
8253 | 16 | 2.2GHz | 3GHz | 35.7MB | 165W | ○ | 3,115ドル | ||
Xeon Gold 6200/5200シリーズ | 6252 | 24 | 2.1GHz | 3.7GHz | 35.75MB | 150W | ○ | 3,665ドル | |
6248 | 20 | 2.5GHz | 3.9GHz | 27.5MB | 150W | ○ | 3,072ドル | ||
6240 | 18 | 2.6GHz | 3.9GHz | 24.85MB | 150W | ○ | 2,445ドル | ||
6238 | 22 | 2.1GHz | 3.7GHz | 30.25MB | 140W | ○ | 2,612ドル | ||
6230 | 20 | 2.1GHz | 3.9GHz | 27.5MB | 125W | ○ | 1,894ドル | ||
5220 | 18 | 2.2GHz | 3.9GHz | 24.75MB | 125W | ○ | 1,555ドル | ||
5218 | 16 | 2.3GHz | 3.9GHz | 22MB | 125W | ○ | 1,273ドル | ||
Xeon Silver 4200シリーズ | 4216 | 16 | 2.1GHz | 3.2GHz | 16.5MB | 100W | - | 1,002ドル | |
4214 | 12 | 2.2GHz | 3.2GHz | 16.5MB | 85W | - | 684ドル | ||
4210 | 10 | 2.2GHz | 3.2GHz | 13.75MB | 85W | - | 501ドル | ||
4208 | 8 | 2.1GHz | 3.2GHz | 11MB | 85W | - | 417ドル | ||
Xeon Bronze 3200シリーズ | 3204 | 6 | 1.9GHz | 1.9GHz | 8.25MB | 85W | - | 213ドル | |
Intel Speed Select対応 | Xeon Platinum 8200シリーズ | 8260Y | 24 | 2.4GHz | 3.9GHz | 35.75MB | 165W | ○ | 5,320ドル |
Xeon Gold 6200/5200シリーズ | 6240Y | 18 | 2.6GHz | 3.9GHz | 24.75MB | 150W | ○ | 2,726ドル | |
Xeon Silver 4200シリーズ | 4214Y | 12 | 2.2GHz | 3.2GHz | 16.5MB | 85W | - | 768ドル | |
NFV特化 | Xeon Gold 6200/5200シリーズ | 6252N | 24 | 2.3GHz | 3.6GHz | 35.75MB | 150W | ○ | 3,984ドル |
6230N | 20 | 2.3GHz | 3.5GHz | 27.5MB | 125W | ○ | 2,046ドル | ||
5128N | 16 | 2.3GHz | 3.9GHz | 22MB | 105W | ○ | 1,375ドル | ||
VM密度特化 | Xeon Gold 6200/5200シリーズ | 6262V | 24 | 1.9GHz | 3.6GHz | 33MB | 135W | ○ | 2,900ドル |
6222V | 20 | 1.8GHz | 3.6GHz | 27.5MB | 115W | ○ | 1,600ドル | ||
ロングライフ/熱設計フレンドリー | Xeon Gold 6200/5200シリーズ | 6238T | 22 | 1.9GHz | 3.7GHz | 30.25MB | 125W | ○ | 2,742ドル |
6230T | 20 | 2.1GHz | 3.9GHz | 37.5MB | 125W | ○ | 1,988ドル | ||
5220T | 18 | 2.2GHz | 3.9GHz | 24.75MB | 105W | ○ | 1,727ドル | ||
Xeon Silver 4200シリーズ | 4209T | 8 | 2.2GHz | 3.2GHz | 11MB | 70W | - | 501ドル | |
検索アプリケーション特化 | Xeon Gold 6200/5200シリーズ | 5220S | 18 | 2.7GHz | 3.9GHz | 24.75MB | 125W | ○ | 2,000ドル |
同時にIntelは、2ダイ/1パッケージのXeon Platinum 9282、1ダイ/1パッケージの最上位SKUとなるXeon Platinum 8280と、初代Xeon SPの最上位SKUとなるXeon Platinum 8180との比較データや、直接の競合となるAMDのEPYCプロセッサとの比較ベンチマークデータを公表している。
Xeon Platinum 9282とXeon Platinum 8180の比較では、メモリ帯域幅が最大で2倍、整数演算時のスループットは最大2.7倍、浮動小数点演算時のスループットは最大で2.1倍、LINPACKは最大1.98倍、サーバー側でのJavaが2.01倍、AI/イメージ認識が最大3.5倍となっており、平均して2倍の性能を実現しているとIntelでは説明している。
言うまでもなく、Xeon Platinum 9282ではパッケージに封入されているダイが倍になっており、CPUコア数も倍になっているので、それだけの性能を発揮してもおかしくはないが、実際には、I/O関連がボトルネックになってスケーラブルに性能を発揮しないことも少なくない。それにも関わらず、2倍近い性能を発揮しているのは、CPUのダイとダイを接続するUPIが十分な帯域や低レイテンシを確保しているため、こうした結果になっていると考えられる。
一方で、同じ1ダイ/1パッケージ同士の例として、Xeon Platinum 8280とXeon Platinum 8180との比較では、メモリ帯域幅が最大で1.06倍、整数演算時のスループットは最大1.03倍、浮動小数点演算時のスループットは最大で1.05倍、LINPACKは最大1.07倍、サーバー側でのJavaが1.07倍、AI/イメージ認識が最大2.3倍となっており、VNNIへの対応という新しい要素が加えられたAI/推論時の性能を除けば、数%程度の性能向上でしかない。
かつ、実際には8280は8180に比べて、ベースクロック周波数、ターボ時の最大周波数が引き上げられており(8280はベース2.7GHz/ターボ最大4GHz、8180はベース2.5GHz/ターボ時最大3.8GHz)となっており、アーキテクチャ的な性能向上は、事実上AI周りだけとするのが正当な評価だろう。
なお、Intelは2ソケット時のAMD EPYCとの比較データも公開しており、2ダイ/1パッケージとなったXeon Platinum 9282とAMD EPYC 7601の比較では、メモリ帯域幅が最大で1.4倍、整数演算時のスループットは最大2.25倍、浮動小数点演算時のスループットは最大で1.96倍、NAMD apoa1が最大2.1倍、サーバー側でのJavaが最大2.2倍、データベースは最大2.4倍、LINPACKは最大5.8倍(ただしIntel側はAVX512を利用)、AI/イメージ認識が最大25倍(ただしIntel側はDL Boostを利用)となっている。
LGA向けの最上位SKUとなる、Xeon Platinum 8280とEPYC 7601では、メモリ帯域幅が0.75倍の性能と負けているが、整数演算時のスループットは最大1.12倍、浮動小数点演算時のスループットは同等、NAMD apoa1が1.1倍、サーバー側でのJavaが2.2倍、データベースは1.6倍、LINPACKは最大3.1倍(ただしIntel側はAVX512を利用)、AI/イメージ認識が最大16倍(ただしIntel側はDL Boostを利用)となっている。
またデモとして、AMDがCESで公開した、7nmで製造される次世代EPYC(開発コードネームRome)の1ソケットと、Xeon Platinum 8180の2ソケットとの比較デモを逆手にとって、その7nm EPYCと2ダイ/1パッケージのXeon Platinum 9282とを比較するデータを公開し、いずれも7nm EPYCの1ソケットより、Xeon Platinum 9282の1ソケットが上回るとアピールした。