ニュース

Intel、PurleyことXeonスケーラブル・プラットフォームを発表

~大幅なアーキテクチャの更新、最大28コア製品をラインナップ

Intelが発表したXeonスケーラブル・プラットフォームの新プロセッサとなるXeonスケーラブル・プロセッサ(右、開発コードネームSkylake-SP)とそのパッケージ

 Intelは7月11日(現地時間)にニューヨークで記者会見を開催し、データセンター向け新製品となるXeonスケーラブル・プラットフォームを発表した。

 開発コードネーム“Purley”で知られるこのプラットフォームは、“Skylake-SP”のコードネームで知られる新しいXeonスケーラブル・プロセッサ、コードネーム“Lewisburg”で知られる新しいIntel C620チップセットから構成されており、CPU側にも、チップセット側にも大幅にアーキテクチャ的な変更が加えられている。

 これに合わせてIntelはブランドも大幅に変更し、製品名も「Xeonスケーラブル・プラットフォーム」に、従来の製品では存在していたE7(EX、ミッションクリティカル向け)、E5(EP、主に2ソケットサーバー向け)などの区分をなくし、「Platinum」、「Gold」、「Silver」、「Bronze」と、CPUのクラスによってサブブランドをつける新しいスキームを導入しており、OEMメーカーが製品展開をより柔軟にできるように配慮した。

新しく導入されるPurleyプラットフォームは、1つのプラットフォームでデータセンターをスケーラブルにカバーする

 今回発表された開発コードネームPurleyことXeonスケーラブル・プラットフォームは、前世代(Broadwell世代)では2つに分かれていデータセンター向けプラットフォームが1つに統合される。前世代では、開発コードネーム“Brickland”(ブリックランド)が、Xeon E7(Broadwell-EX)のCPUと、C610チップセット(Wellsburg)の組み合わせでミッションクリティカル向けや大容量メモリ向けとされ、もう1つの“Grantlrey-EP”はXeon E5(Broadwell-EP)とC610チップセット(Wellsburg)の組み合わせでメインストリーム向けとされてきた。このため、マザーボードもそれぞれ別に用意する必要があるなど、プラットフォームが分断されてしまっていた。

従来は2つのプラットフォームだったものがPurley世代では1つに統合されている(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 今回のXeonスケーラブル・プラットフォームではそれが1つに統一され、CPUはXeonスケーラブル・プロセッサ、チップセットはC620の組み合わせとなった。マザーボードは1ソケット、2ソケット、4ソケット、8ソケットなど複数用意され、OEMメーカーが必要に応じてCPUのSKUと組み合わせることで、ミッションクリティカル向けとしても、メインストリームサーバー向けとしても構成できるようになる。

Purleyの概要(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 なお、発表時点ではSkylake-SPとのみの組み合わせになるが、2018年に以降に投入が予定されている次世代製品となる“Cascade Lake”にCPUを切り換えて出荷することも可能になる。つまり、今後2年間程度、Intelのデータセンター向けのプラットフォームをカバーするのがPurleyということになる。

CPU内部のインターコネクトがリングからメッシュへと変更され、UPIを新しく導入

 従来の世代(Broadwell世代)では、EXとEPに分かれていたが(実際にはダイは同じだったが、機能は若干異なっていた)、Skylake世代では両方を包含して開発コードネームもSkylake-SPと呼ばれることになった(実際にはIntelの資料にも従来の呼び方であるSkylake-EPと呼んでいる場合もあるが、今後は公式にSkylake-SPになる)。

 Skylake-SPはその開発コードネームからもわかるように、14nmプロセスルールの最初製品となるBroadwell-EX/EPの後継となる製品で、14nmプロセスルール世代での新アーキテクチャ版となる。

【表1】Xeonの世代ごとの変化、Broadwell-EX以前はEXプロセッサの例(Intelの資料をもとに筆者作成)

 表中では新機能になる部分には色で表示しているが、Skylake-EPにはほとんどの箇所で色がつ付いており、完全にアーキテクチャが一新されていることがよくわかる。Skylake-SPには3種類のダイ(HCC、MCC、LCC)が用意されており、それぞれ28コア、18コア、10コアのCPUコアが内蔵されている。

Skylake-SPのHCC(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
Skylake-SPのMCCとLCC(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 もっとも大きな変更は、CPUのインターコネクト(内部接続)が従来のリング型と呼ばれる環状から、メッシュ型と呼ばれる網の目のような形のインターコネクトに変更されていることだ。従来のリング型の場合は、インターコネクトにぶら下がることができるCPUの数には限界があり、CPUコア数が多いHCCとMCCに関しては、2つのリングバスをスイッチで接続する形になっていた。この場合、もっとも遠いコアからI/Oコントローラなどにアクセスする場合、もっとも遠いコアにあるCPU上にある共有キャッシュにあるデータにアクセスする場合などには、大きな遅延と帯域幅の消費が発生していた。

 Skylake-SPではインターコネクトをメッシュ型にし、CPU、メモリコントローラ、I/Oコントローラなどが網の目に配置されている。このため、横にも縦にもアクセスすることが可能になり、比較的低遅延で目的のデータやI/Oコントローラにアクセスし、かつ帯域幅を有効活用することが可能になる。

Skylake-SPではメッシュアーキテクチャを採用している(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 CPU同士を接続するQPI(Quick Path Interconnect)にも手が入れられており、Skylake-EPではUPI(Ultra Path Interconnect)へと進化している。基本的にUPIはQPIの改良版であり、パケットの効率が改善されているほか、データレートがQPIの9.6GT/sから10.4GT/sに引き上げられていることが大きな違いとなる。またアイドル時の消費電力もQPIに比べて引き下げられているなど消費電力の観点でも効果があるとIntelでは説明している。このUPIはHCCには3コントローラ、MCCとLCCには2コントローラ搭載されている。

QPIの発展版となるUPI(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
2ソケット、4ソケット、8ソケットでの構成例(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

キャッシュ階層を変更し、LLCを減らして、CPUコア専用のL2キャッシュを増量

 2つ目の大きな変更点は、キャッシュ階層(ヒエラルキー)の変更。従来のBroadwell-EX世代では、CPUコア専用のL2キャッシュが256KB、そしてほかのCPUコアと共有するLLC(Last Level Cache)ないしはL3キャッシュが2.5MBという構造になっていた。これに対して、Skylake-EPではCPUコア専用のL2キャッシュが1MBに増やされ、逆にLLC/L3キャッシュは1.375MBに減らされている。L2+LLCトータルではBroadwell-EPが2.756MB、Skylake-SPが2.375MBとなっており、若干Skylake-EPのほうがキャッシュ容量は減っている。

キャッシュ階層のバランスが変更されている(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 CPU全体でシェアするキャッシュは減ったが、CPUコア専用のキャッシュ容量は増えたことになる。これによりL2キャッシュがメインのキャッシュとなり、LLCはそこをフローしたデータを置くエリアとして利用される仕組みに変更されている。従来のLLCはインクルーシブキャッシュとしてL2キャッシュの内容はすべてLLCにコピーされていたが、Skylake-SPではノンインクルーシブに扱いが変更されており、L2キャッシュの内容はLLCにコピーされなくなる。これにより、LLCキャッシュの利用効率が高まるため、結果的にCPU全体の性能が向上するとIntelでは説明している。

LLCはノンインクルーシブへと変更された(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
全体的にキャッシュ性能が向上している(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 メモリコントローラにも改良が加えられている。従来のBroadwell-EPでは、2つあるメモリコントローラは、2チャネル構成となっており、CPU全体では4チャネルのメモリをサポートするようになっていた。これがSkylake-EPではメモリコントローラの数は2つで同じだが、各コントローラあたり3チャネルに強化されており、CPU全体では6チャネルのメモリが利用できるようになる。また、チャネルあたり2DIMM構成時には、最大でDDR4-2666にまで対応可能で、Broadwell-EP世代に比べるとソケットあたりのメモリ帯域幅は60%向上することになる。

メモリコントローラの強化ポイント(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

クライアントのSkylakeのCPUコアと比べ、768KBの追加L2キャッシュとAVX512演算時に2つめのFMAを追加

 CPUコアの内部アーキテクチャそのものは、クライアント向けにすでにリリースされているSkylake(第6世代Coreプロセッサ)と基本的に違いはない。ただし、2つの点で異なる部分がある。

内部アーキテクチャは基本クライアント版のSkylakeと同等(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
Skylake-SPでのCPUコアの拡張は、AVX512実行時の第2FMAの追加と768KB分のL2キャッシュの追加(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 1つはL2キャッシュだ。クライアント向けのSkylakeのL2キャッシュは256KB。Skylake-SPのCPUコアは、この256KBのL2キャッシュに768KBを追加してレイアウトすることで合計で1MBというキャッシュ構造になっている。

 もう1つは、AVX512向けの演算器が追加されていることだ。Skylake世代では、AVX512と呼ばれる512bit幅のベクター演算命令セットが追加されている。これはAVX1(128bit幅)、AVX2(256bit幅)で拡張されてきたAVX命令を512bit幅に拡張する命令セットで、ソフトウェアが対応することで科学演算などで大きな性能向上を得ることができる。Skylake-SPではこの演算を行なうさいに用意されている演算器のポート5がクライアント向けのSkylakeに比べて拡張されており、512bitで処理が可能な2つ目のFMA(Fused Multiply-Add、積和演算)が追加されている。

AVX512命令実行時のTurbo Boostの動作(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 AVX512命令が追加されたことにより、Turbo Boost時のAVXの挙動も変更されている。Haswell世代でAVX2を追加したときに、Turbo Boostが有効の場合、AVX2命令を実行するときには、CPUの発熱を抑えて効率よくAVX命令を実行するためにTurbo BoostによるCPUクロックの上昇を抑える仕組みを導入している。AVX512でも同様にクロック周波数を抑える仕組みが用意されており、AVX未使用時、AVX2利用時、AVX512利用時それぞれが異なるクロック周波数のスキームで動くように工夫されている。

従来世代に比べてI/O周りが拡張されているほか、OmniPathへの直接接続版を用意

 Skylake-SPではプロセッサのI/O周りも大幅に改良されている。最上位構成のダイとなるHCCでは、PCI Express x16のコントローラが4つ搭載されている(うち1つはDMI分のx4を含むのでx20)。つまり、PCI Expressとして利用できるレーンが合計で68レーンとなるのだが、うち1つは、後述するOmniPathのファブリック専用となっているため、実質的に利用できるのはx16が3つで48レーンとなっている(MCCとLCCは3コントローラで48レーン)。

I/O周りが強化されている(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 Skylake-SPではIntelがOmniPathと呼んでいるサーバー同士を直接接続するインターコネクトのホストインターフェイスがオンパッケージで搭載されているバージョンが用意される(別途Skylake-Fの開発コードネームで呼ばれる)。Skylake-Fはパッケージの内部にOmniPathのHFI(Host Fabric Interface)が搭載されており、CPUとは前述の専用に確保されているPCI Express x16で接続されている。CPUから直接生えているコネクタにInternal Faceplate-to-Processor (IFP)と呼ばれる専用のケーブルを介して、通信用のモジュール(QSFPモジュール)で接続する形となる。

OmniPathのHFIがオンパッケージで搭載されている(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
左側がOmniPathに対応したSkylake-F、下側に尻尾のように出ているのがOmniPath用コネクタ
OmniPath用のシリコンフォトニクスケーブル

 PurleyプラットフォームのCPUソケットであるSocket-P(LGA3647)は、Skylake-SP、Skylake-Fのどちらにも対応可能な形状になっており、1つのマザーボードでOmniPath対応と非対応どちらにも対応できる。

【お詫びと訂正】初出時にSocket-P(LGA2066)としておりましたが、Socket-P(LGA3647)の誤りです。お詫びして訂正させていただきます。

Intel Run Sure Technologyに対応(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 なお、Skylake-SPはRAS(Reliability Availability Serviceability、信頼性/可用性/保守性)機能となるIntel Run Sure Technologyに対応している。従来はEX製品(Xeon E7)のみが対応しており、EP製品(Xeon E5)のラインは対応していなかったが、この世代ではEXとEPが1つのプラットフォームに統合されているため、製品全体としてRAS機能に対応している(ただし、有効になっているかどうかはSKUによる)。従来世代に比べてAEDC(Advanced Error Detection and Correction)やLMCE(Local Machine Check)ベースのリカバリなど新機能も追加されている。

チップセットはC620に強化され、4x10GbEやQATが追加される

 Xeonスケーラブル・プラットフォームでは、CPUだけでなく、チップセットとなるPCHにも大幅に手が入っている。その新しいチップセットが開発コードネームLewisburgとなるIntel C620シリーズ・チップセットだ。

Lewisburgの概要(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
【表2】旧チップセットとの比較
Intel C600シリーズ・チップセットIntel C610シリーズ・チップセットIntel C620シリーズ・チップセット
開発コードネームPatsburgWellsburgLewisburg
対応するCPUSandy Bridge/Ivy BridgeHaswell/BroadwellSkylake/Cascade Lake
SATAポート12×SATA2(うち2つがSATA3として利用可能)10×SATA314×SATA3
USBポート14×USB 2.08×USB 2.0+6×USB 3.014×USB 2.0+10×USB 3.0
DMIx4/DMI2.0x4/DMI2.0x4/DMI3.0
追加CPUアップリンクオプション--PCIe Gen3 x8+x16
PCI Express8xPCI Express Gen28xPCI Express Gen220xPCI Express Gen3
NVM Express--対応
Intel RSTe3.04.0対応(バージョン不明)
Intel ME/IE○/×○/×○/○
統合LANGigabit EthernetGigabit Ethernet4x10Gigabit/Gigabit Ethernet
Intel QuickAssist technology--対応

 Lewisburgの大きな特徴は2つある。1つは、チップセットに内蔵されているEthernetコントローラが、従来製品のGigabit Ethernet(1Gbps)までに対応だったのに対して、Lewisburgでは10GigabitないしはGigabit Ethernetコントローラが4つ搭載されていることだ。これにより、マザーボード上にPHYを搭載したドーターカードを挿すだけで、安価に10Gigabit Ethernetを最大で4つまで実装可能になる。

 Lewisburgの10Gigabitのコントローラは、単体型の10Gigabit Ethernetソリューションとして実績がある「Intel XL710」のIPを流用しているため、ソフトウェアの互換性や信頼性の観点も安心できるのも特筆点となる。

10Gigabit Ethernetのコントローラを4つ内蔵している(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)
CPUと追加のPCI Expressレーンで接続することも可能(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 なお、チップセット側で10Gigabit Ethernetを搭載した場合には、チップセットとCPUの間がDMI(PCI Express Gen3 x4相当、双方向8GB/秒)では足りなくなる可能性がある。そこで、LewisburgにはCPUとの間で、PCI Express Gen3 x8あるいはPCI Express Gen3 x16のみ、あるいはx8+16という構成でCPUと接続する機能が用意されている。PCI Express Gen3 x16の場合は双方向32GB/sの帯域幅となるので、DMI分と加えて充分に対応することが可能だ。もちろんその場合は、CPU側のPCI Expressレーンを消費することになるので、必要に応じてOEMメーカーが構成を選ぶことになる。

Intel Quick Assist Technology(QAT)を搭載(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 2つめの大きな強化点としては、Intel Quick Assist Technology(QAT)のエンジンを内蔵していることが挙げられる。Intel QuickAssist Technologyは、Haswell-EP世代から通信業界向けのSKUに外部コントローラとして搭載されていた機能で、暗号化/複合化、圧縮エンジンとして利用することができる。従来世代ではこのQATが外部コントローラとして搭載されていたのだが、今回のLewisburgではこれがチップセットに内蔵されている。それにより性能も向上しており、たとえばデータ圧縮などでは従来の外部コントローラでは24Gbps程度の性能だったが、Lewisburgに内蔵されているQATでは100Gbpsを超えるなど性能も向上している。

QATを利用してデータ圧縮を行なうときの性能(出典:Intel Xeon Scalable Platform Architecture DeepDive、Intel)

 現在通信業界では従来は専用機器を使ってきたバックエンドを、一般的なIAサーバーに置き換える取り組みが進んでおり、そうしたところでQATは活用されている。QATがLewisburgに標準で搭載されてことにより、そうした用途へのIAサーバーの浸透がさらに進みそうだ。このほか、NVM ExpressベースのSSDへの対応、従来のManagement Engine(ME)に加えて、IE(Innovation Engine)の追加などのファームウェア周りの強化などが行なわれている。

 LewisburgのSKU構成は以下のようになっている。

【表3】LewisburgのSKU
製品名Intel C621チップセットIntel C622チップセットIntel C624チップセットIntel C625チップセットIntel C626チップセットIntel C627チップセットIntel C628チップセット
コードネームLBG-1GLBG-2LBG-4LBG-ELBG-MLBG-TLBG-L
10Gigabit Ethernet/Gigabit Ethernet0/42/44/44/44/44/44/4
QAT圧縮---20Gbps40Gbps100Gbps100Gbps
QAT暗号化---20Gbps40Gbps100Gbps100Gbps
QATRSA---20K Ops40K Ops100K Ops100K Ops
PCI Express(CPU アップリンク)最大x1x8x16x16x16x16x16
PCI Express(CPU アップリンク)奨励x1x4x8x16x16x16x16
PCI Express x8アップリンク(Muxed Link)----
TDP~15W~17W~19W~21W~23W~26W~21W

 なお、IntelによればLewisburgは14nmプロセスルールで製造される。多数のPCI Expressコントローラ、4つの10Gigabit Ethernetの内蔵、QATの内蔵などの強化点を考えれば、現時点でのIntelの最新プロセスルールで製造する必要があるということだ。

従来のBroadwell-EPと比較して、平均して約1.65倍の性能向上を実現

 Intelが公表したベンチマークデータによれば、2ソケットのXeon E5-2699 v4(Broadwell-EP)とXeon Platinum 8180との比較で平均して約1.65倍、4ソケットのXeon E7-8890 v4(Broadwell-EX)とXeon Platinum 8180の比較で平均して1.5倍の性能向上が見られるとのこと。

過去のプラットフォームとの性能向上率(出典:Intel Xeon Scalable Processor Performance Overview、Intel)
2ソケット向けで昨年型の最上位となるXeon E5-2699 v4(Broadwell-EP)とXeon Platinum 8180の比較では平均して約1.65倍(出典:Intel Xeon Scalable Processor Performance Overview、Intel)
4ソケット向けで昨年型の最上位となるXeon E7-8890 v4とXeon Platinum 8180の比較では平均して約1.5倍(出典:Intel Xeon Scalable Processor Performance Overview、Intel)

 なお、従来製品ではXeon E*-xxxxのような形で製品のブランド展開がされてきたが、この世代からはE7、E5などのブランド表記は廃止されている。これは従来製品とはことなり、Xeonスケーラブル・プラットフォームでは、1つのプラットフォームで複数の製品セグメントをサポートするためだ。

 製品名は、Xeonの後にPlatinum(8xxx)、Gold(6xxxないしは5xxx)、Silver(4xxx)、Bronze(3xxx)でファミリーをわかりやすく表記する形になる。それぞれの製品に用意されるSKUは以下のようになっている

【表4】SKU構成
ターゲット市場クラスSKUコアベースクロック(AVX未適用時、GHz)TDP(W)
コアあたり性能重視Platinum8180282.5205
Platinum8168242.7205
Platinum8158123150
Platinum815643.6105
Gold6148202.4150
Gold6154183200
Gold6150182.7165
Gold6142162.6150
Gold6132142.66140
Gold6146123.2165
Gold6136123150
Gold6126122.6125
Gold614483.5150
Gold613483.2130
Gold612863.4115
Gold512243.6105
性能・電力効率バランスPlatinum8176282.1165
Platinum8170262.1165
Platinum8164262150
Platinum8160242.1150
Gold6152222.1140
Gold6138202125
Gold6140182.3140
Gold6130162.1125
Gold5120142.2105
Gold5118122.3105
Gold5115102.485
Silver4116122.185
Silver4114102.285
Silver411242.685
Silver411082.185
Silver410881.885
Bronze310681.785
Bronze310461.785
NEBSターミナル向けPlatinum8160T242.1150
Gold6138T202125
Gold6130T162.1125
Gold6126T122.6125
Gold5120T142.2105
Gold5119T141.985
Silver4116T122.185
Silver4114T102.285
Silver4109T8270
OmniPath対応版Platinum8176F282.1173
Platinum8160F242.1160
Gold6148F202.4160
Gold6142F162.6160
Gold6138F202135
Gold6130F162.1135
Gold6126F122.6135

 価格だが最上位SKUとなるXeon Platinum 8180が13,011ドル(日本円で約1,483,000円、1ドル=114円換算)、Xeon Gold 6xxxの最上位となる6154が3,543ドル(日本円で約404,000千円)、Xeon Gold 5xxxの最上位となる5118が1,273ドル(日本円で約145,000円、同)、Xeon Silverの最上位となる4116が1,002ドル(日本円で約114,000円、同)、もっとも廉価な製品がXeon Bronze 3104で213ドル(日本円で約24,000円、同)となる。

CPUのパッケージ
CineBench R15を実行しているところ、HTオフの2ソケットで56個のCPUコアがすべてフルロードになる様子は壮観
CineBench R15の結果
2ソケットサーバー
【動画】CineBench R15を実行する様子、瞬間で処理が終わる