ニュース
Intel、PurleyことXeonスケーラブル・プラットフォームを発表
~大幅なアーキテクチャの更新、最大28コア製品をラインナップ
2017年7月12日 01:15
Intelは7月11日(現地時間)にニューヨークで記者会見を開催し、データセンター向け新製品となるXeonスケーラブル・プラットフォームを発表した。
開発コードネーム“Purley”で知られるこのプラットフォームは、“Skylake-SP”のコードネームで知られる新しいXeonスケーラブル・プロセッサ、コードネーム“Lewisburg”で知られる新しいIntel C620チップセットから構成されており、CPU側にも、チップセット側にも大幅にアーキテクチャ的な変更が加えられている。
これに合わせてIntelはブランドも大幅に変更し、製品名も「Xeonスケーラブル・プラットフォーム」に、従来の製品では存在していたE7(EX、ミッションクリティカル向け)、E5(EP、主に2ソケットサーバー向け)などの区分をなくし、「Platinum」、「Gold」、「Silver」、「Bronze」と、CPUのクラスによってサブブランドをつける新しいスキームを導入しており、OEMメーカーが製品展開をより柔軟にできるように配慮した。
新しく導入されるPurleyプラットフォームは、1つのプラットフォームでデータセンターをスケーラブルにカバーする
今回発表された開発コードネームPurleyことXeonスケーラブル・プラットフォームは、前世代(Broadwell世代)では2つに分かれていデータセンター向けプラットフォームが1つに統合される。前世代では、開発コードネーム“Brickland”(ブリックランド)が、Xeon E7(Broadwell-EX)のCPUと、C610チップセット(Wellsburg)の組み合わせでミッションクリティカル向けや大容量メモリ向けとされ、もう1つの“Grantlrey-EP”はXeon E5(Broadwell-EP)とC610チップセット(Wellsburg)の組み合わせでメインストリーム向けとされてきた。このため、マザーボードもそれぞれ別に用意する必要があるなど、プラットフォームが分断されてしまっていた。
今回のXeonスケーラブル・プラットフォームではそれが1つに統一され、CPUはXeonスケーラブル・プロセッサ、チップセットはC620の組み合わせとなった。マザーボードは1ソケット、2ソケット、4ソケット、8ソケットなど複数用意され、OEMメーカーが必要に応じてCPUのSKUと組み合わせることで、ミッションクリティカル向けとしても、メインストリームサーバー向けとしても構成できるようになる。
なお、発表時点ではSkylake-SPとのみの組み合わせになるが、2018年に以降に投入が予定されている次世代製品となる“Cascade Lake”にCPUを切り換えて出荷することも可能になる。つまり、今後2年間程度、Intelのデータセンター向けのプラットフォームをカバーするのがPurleyということになる。
CPU内部のインターコネクトがリングからメッシュへと変更され、UPIを新しく導入
従来の世代(Broadwell世代)では、EXとEPに分かれていたが(実際にはダイは同じだったが、機能は若干異なっていた)、Skylake世代では両方を包含して開発コードネームもSkylake-SPと呼ばれることになった(実際にはIntelの資料にも従来の呼び方であるSkylake-EPと呼んでいる場合もあるが、今後は公式にSkylake-SPになる)。
Skylake-SPはその開発コードネームからもわかるように、14nmプロセスルールの最初製品となるBroadwell-EX/EPの後継となる製品で、14nmプロセスルール世代での新アーキテクチャ版となる。
表中では新機能になる部分には色で表示しているが、Skylake-EPにはほとんどの箇所で色がつ付いており、完全にアーキテクチャが一新されていることがよくわかる。Skylake-SPには3種類のダイ(HCC、MCC、LCC)が用意されており、それぞれ28コア、18コア、10コアのCPUコアが内蔵されている。
もっとも大きな変更は、CPUのインターコネクト(内部接続)が従来のリング型と呼ばれる環状から、メッシュ型と呼ばれる網の目のような形のインターコネクトに変更されていることだ。従来のリング型の場合は、インターコネクトにぶら下がることができるCPUの数には限界があり、CPUコア数が多いHCCとMCCに関しては、2つのリングバスをスイッチで接続する形になっていた。この場合、もっとも遠いコアからI/Oコントローラなどにアクセスする場合、もっとも遠いコアにあるCPU上にある共有キャッシュにあるデータにアクセスする場合などには、大きな遅延と帯域幅の消費が発生していた。
Skylake-SPではインターコネクトをメッシュ型にし、CPU、メモリコントローラ、I/Oコントローラなどが網の目に配置されている。このため、横にも縦にもアクセスすることが可能になり、比較的低遅延で目的のデータやI/Oコントローラにアクセスし、かつ帯域幅を有効活用することが可能になる。
CPU同士を接続するQPI(Quick Path Interconnect)にも手が入れられており、Skylake-EPではUPI(Ultra Path Interconnect)へと進化している。基本的にUPIはQPIの改良版であり、パケットの効率が改善されているほか、データレートがQPIの9.6GT/sから10.4GT/sに引き上げられていることが大きな違いとなる。またアイドル時の消費電力もQPIに比べて引き下げられているなど消費電力の観点でも効果があるとIntelでは説明している。このUPIはHCCには3コントローラ、MCCとLCCには2コントローラ搭載されている。
キャッシュ階層を変更し、LLCを減らして、CPUコア専用のL2キャッシュを増量
2つ目の大きな変更点は、キャッシュ階層(ヒエラルキー)の変更。従来のBroadwell-EX世代では、CPUコア専用のL2キャッシュが256KB、そしてほかのCPUコアと共有するLLC(Last Level Cache)ないしはL3キャッシュが2.5MBという構造になっていた。これに対して、Skylake-EPではCPUコア専用のL2キャッシュが1MBに増やされ、逆にLLC/L3キャッシュは1.375MBに減らされている。L2+LLCトータルではBroadwell-EPが2.756MB、Skylake-SPが2.375MBとなっており、若干Skylake-EPのほうがキャッシュ容量は減っている。
CPU全体でシェアするキャッシュは減ったが、CPUコア専用のキャッシュ容量は増えたことになる。これによりL2キャッシュがメインのキャッシュとなり、LLCはそこをフローしたデータを置くエリアとして利用される仕組みに変更されている。従来のLLCはインクルーシブキャッシュとしてL2キャッシュの内容はすべてLLCにコピーされていたが、Skylake-SPではノンインクルーシブに扱いが変更されており、L2キャッシュの内容はLLCにコピーされなくなる。これにより、LLCキャッシュの利用効率が高まるため、結果的にCPU全体の性能が向上するとIntelでは説明している。
メモリコントローラにも改良が加えられている。従来のBroadwell-EPでは、2つあるメモリコントローラは、2チャネル構成となっており、CPU全体では4チャネルのメモリをサポートするようになっていた。これがSkylake-EPではメモリコントローラの数は2つで同じだが、各コントローラあたり3チャネルに強化されており、CPU全体では6チャネルのメモリが利用できるようになる。また、チャネルあたり2DIMM構成時には、最大でDDR4-2666にまで対応可能で、Broadwell-EP世代に比べるとソケットあたりのメモリ帯域幅は60%向上することになる。
クライアントのSkylakeのCPUコアと比べ、768KBの追加L2キャッシュとAVX512演算時に2つめのFMAを追加
CPUコアの内部アーキテクチャそのものは、クライアント向けにすでにリリースされているSkylake(第6世代Coreプロセッサ)と基本的に違いはない。ただし、2つの点で異なる部分がある。
1つはL2キャッシュだ。クライアント向けのSkylakeのL2キャッシュは256KB。Skylake-SPのCPUコアは、この256KBのL2キャッシュに768KBを追加してレイアウトすることで合計で1MBというキャッシュ構造になっている。
もう1つは、AVX512向けの演算器が追加されていることだ。Skylake世代では、AVX512と呼ばれる512bit幅のベクター演算命令セットが追加されている。これはAVX1(128bit幅)、AVX2(256bit幅)で拡張されてきたAVX命令を512bit幅に拡張する命令セットで、ソフトウェアが対応することで科学演算などで大きな性能向上を得ることができる。Skylake-SPではこの演算を行なうさいに用意されている演算器のポート5がクライアント向けのSkylakeに比べて拡張されており、512bitで処理が可能な2つ目のFMA(Fused Multiply-Add、積和演算)が追加されている。
AVX512命令が追加されたことにより、Turbo Boost時のAVXの挙動も変更されている。Haswell世代でAVX2を追加したときに、Turbo Boostが有効の場合、AVX2命令を実行するときには、CPUの発熱を抑えて効率よくAVX命令を実行するためにTurbo BoostによるCPUクロックの上昇を抑える仕組みを導入している。AVX512でも同様にクロック周波数を抑える仕組みが用意されており、AVX未使用時、AVX2利用時、AVX512利用時それぞれが異なるクロック周波数のスキームで動くように工夫されている。
従来世代に比べてI/O周りが拡張されているほか、OmniPathへの直接接続版を用意
Skylake-SPではプロセッサのI/O周りも大幅に改良されている。最上位構成のダイとなるHCCでは、PCI Express x16のコントローラが4つ搭載されている(うち1つはDMI分のx4を含むのでx20)。つまり、PCI Expressとして利用できるレーンが合計で68レーンとなるのだが、うち1つは、後述するOmniPathのファブリック専用となっているため、実質的に利用できるのはx16が3つで48レーンとなっている(MCCとLCCは3コントローラで48レーン)。
Skylake-SPではIntelがOmniPathと呼んでいるサーバー同士を直接接続するインターコネクトのホストインターフェイスがオンパッケージで搭載されているバージョンが用意される(別途Skylake-Fの開発コードネームで呼ばれる)。Skylake-Fはパッケージの内部にOmniPathのHFI(Host Fabric Interface)が搭載されており、CPUとは前述の専用に確保されているPCI Express x16で接続されている。CPUから直接生えているコネクタにInternal Faceplate-to-Processor (IFP)と呼ばれる専用のケーブルを介して、通信用のモジュール(QSFPモジュール)で接続する形となる。
PurleyプラットフォームのCPUソケットであるSocket-P(LGA3647)は、Skylake-SP、Skylake-Fのどちらにも対応可能な形状になっており、1つのマザーボードでOmniPath対応と非対応どちらにも対応できる。
【お詫びと訂正】初出時にSocket-P(LGA2066)としておりましたが、Socket-P(LGA3647)の誤りです。お詫びして訂正させていただきます。
なお、Skylake-SPはRAS(Reliability Availability Serviceability、信頼性/可用性/保守性)機能となるIntel Run Sure Technologyに対応している。従来はEX製品(Xeon E7)のみが対応しており、EP製品(Xeon E5)のラインは対応していなかったが、この世代ではEXとEPが1つのプラットフォームに統合されているため、製品全体としてRAS機能に対応している(ただし、有効になっているかどうかはSKUによる)。従来世代に比べてAEDC(Advanced Error Detection and Correction)やLMCE(Local Machine Check)ベースのリカバリなど新機能も追加されている。
チップセットはC620に強化され、4x10GbEやQATが追加される
Xeonスケーラブル・プラットフォームでは、CPUだけでなく、チップセットとなるPCHにも大幅に手が入っている。その新しいチップセットが開発コードネームLewisburgとなるIntel C620シリーズ・チップセットだ。
Intel C600シリーズ・チップセット | Intel C610シリーズ・チップセット | Intel C620シリーズ・チップセット | |
---|---|---|---|
開発コードネーム | Patsburg | Wellsburg | Lewisburg |
対応するCPU | Sandy Bridge/Ivy Bridge | Haswell/Broadwell | Skylake/Cascade Lake |
SATAポート | 12×SATA2(うち2つがSATA3として利用可能) | 10×SATA3 | 14×SATA3 |
USBポート | 14×USB 2.0 | 8×USB 2.0+6×USB 3.0 | 14×USB 2.0+10×USB 3.0 |
DMI | x4/DMI2.0 | x4/DMI2.0 | x4/DMI3.0 |
追加CPUアップリンクオプション | - | - | PCIe Gen3 x8+x16 |
PCI Express | 8xPCI Express Gen2 | 8xPCI Express Gen2 | 20xPCI Express Gen3 |
NVM Express | - | - | 対応 |
Intel RSTe | 3.0 | 4.0 | 対応(バージョン不明) |
Intel ME/IE | ○/× | ○/× | ○/○ |
統合LAN | Gigabit Ethernet | Gigabit Ethernet | 4x10Gigabit/Gigabit Ethernet |
Intel QuickAssist technology | - | - | 対応 |
Lewisburgの大きな特徴は2つある。1つは、チップセットに内蔵されているEthernetコントローラが、従来製品のGigabit Ethernet(1Gbps)までに対応だったのに対して、Lewisburgでは10GigabitないしはGigabit Ethernetコントローラが4つ搭載されていることだ。これにより、マザーボード上にPHYを搭載したドーターカードを挿すだけで、安価に10Gigabit Ethernetを最大で4つまで実装可能になる。
Lewisburgの10Gigabitのコントローラは、単体型の10Gigabit Ethernetソリューションとして実績がある「Intel XL710」のIPを流用しているため、ソフトウェアの互換性や信頼性の観点も安心できるのも特筆点となる。
なお、チップセット側で10Gigabit Ethernetを搭載した場合には、チップセットとCPUの間がDMI(PCI Express Gen3 x4相当、双方向8GB/秒)では足りなくなる可能性がある。そこで、LewisburgにはCPUとの間で、PCI Express Gen3 x8あるいはPCI Express Gen3 x16のみ、あるいはx8+16という構成でCPUと接続する機能が用意されている。PCI Express Gen3 x16の場合は双方向32GB/sの帯域幅となるので、DMI分と加えて充分に対応することが可能だ。もちろんその場合は、CPU側のPCI Expressレーンを消費することになるので、必要に応じてOEMメーカーが構成を選ぶことになる。
2つめの大きな強化点としては、Intel Quick Assist Technology(QAT)のエンジンを内蔵していることが挙げられる。Intel QuickAssist Technologyは、Haswell-EP世代から通信業界向けのSKUに外部コントローラとして搭載されていた機能で、暗号化/複合化、圧縮エンジンとして利用することができる。従来世代ではこのQATが外部コントローラとして搭載されていたのだが、今回のLewisburgではこれがチップセットに内蔵されている。それにより性能も向上しており、たとえばデータ圧縮などでは従来の外部コントローラでは24Gbps程度の性能だったが、Lewisburgに内蔵されているQATでは100Gbpsを超えるなど性能も向上している。
現在通信業界では従来は専用機器を使ってきたバックエンドを、一般的なIAサーバーに置き換える取り組みが進んでおり、そうしたところでQATは活用されている。QATがLewisburgに標準で搭載されてことにより、そうした用途へのIAサーバーの浸透がさらに進みそうだ。このほか、NVM ExpressベースのSSDへの対応、従来のManagement Engine(ME)に加えて、IE(Innovation Engine)の追加などのファームウェア周りの強化などが行なわれている。
LewisburgのSKU構成は以下のようになっている。
製品名 | Intel C621チップセット | Intel C622チップセット | Intel C624チップセット | Intel C625チップセット | Intel C626チップセット | Intel C627チップセット | Intel C628チップセット |
---|---|---|---|---|---|---|---|
コードネーム | LBG-1G | LBG-2 | LBG-4 | LBG-E | LBG-M | LBG-T | LBG-L |
10Gigabit Ethernet/Gigabit Ethernet | 0/4 | 2/4 | 4/4 | 4/4 | 4/4 | 4/4 | 4/4 |
QAT圧縮 | - | - | - | 20Gbps | 40Gbps | 100Gbps | 100Gbps |
QAT暗号化 | - | - | - | 20Gbps | 40Gbps | 100Gbps | 100Gbps |
QATRSA | - | - | - | 20K Ops | 40K Ops | 100K Ops | 100K Ops |
PCI Express(CPU アップリンク)最大 | x1 | x8 | x16 | x16 | x16 | x16 | x16 |
PCI Express(CPU アップリンク)奨励 | x1 | x4 | x8 | x16 | x16 | x16 | x16 |
PCI Express x8アップリンク(Muxed Link) | - | - | - | - | ○ | ○ | ○ |
TDP | ~15W | ~17W | ~19W | ~21W | ~23W | ~26W | ~21W |
なお、IntelによればLewisburgは14nmプロセスルールで製造される。多数のPCI Expressコントローラ、4つの10Gigabit Ethernetの内蔵、QATの内蔵などの強化点を考えれば、現時点でのIntelの最新プロセスルールで製造する必要があるということだ。
従来のBroadwell-EPと比較して、平均して約1.65倍の性能向上を実現
Intelが公表したベンチマークデータによれば、2ソケットのXeon E5-2699 v4(Broadwell-EP)とXeon Platinum 8180との比較で平均して約1.65倍、4ソケットのXeon E7-8890 v4(Broadwell-EX)とXeon Platinum 8180の比較で平均して1.5倍の性能向上が見られるとのこと。
なお、従来製品ではXeon E*-xxxxのような形で製品のブランド展開がされてきたが、この世代からはE7、E5などのブランド表記は廃止されている。これは従来製品とはことなり、Xeonスケーラブル・プラットフォームでは、1つのプラットフォームで複数の製品セグメントをサポートするためだ。
製品名は、Xeonの後にPlatinum(8xxx)、Gold(6xxxないしは5xxx)、Silver(4xxx)、Bronze(3xxx)でファミリーをわかりやすく表記する形になる。それぞれの製品に用意されるSKUは以下のようになっている
ターゲット市場 | クラス | SKU | コア | ベースクロック(AVX未適用時、GHz) | TDP(W) |
---|---|---|---|---|---|
コアあたり性能重視 | Platinum | 8180 | 28 | 2.5 | 205 |
Platinum | 8168 | 24 | 2.7 | 205 | |
Platinum | 8158 | 12 | 3 | 150 | |
Platinum | 8156 | 4 | 3.6 | 105 | |
Gold | 6148 | 20 | 2.4 | 150 | |
Gold | 6154 | 18 | 3 | 200 | |
Gold | 6150 | 18 | 2.7 | 165 | |
Gold | 6142 | 16 | 2.6 | 150 | |
Gold | 6132 | 14 | 2.66 | 140 | |
Gold | 6146 | 12 | 3.2 | 165 | |
Gold | 6136 | 12 | 3 | 150 | |
Gold | 6126 | 12 | 2.6 | 125 | |
Gold | 6144 | 8 | 3.5 | 150 | |
Gold | 6134 | 8 | 3.2 | 130 | |
Gold | 6128 | 6 | 3.4 | 115 | |
Gold | 5122 | 4 | 3.6 | 105 | |
性能・電力効率バランス | Platinum | 8176 | 28 | 2.1 | 165 |
Platinum | 8170 | 26 | 2.1 | 165 | |
Platinum | 8164 | 26 | 2 | 150 | |
Platinum | 8160 | 24 | 2.1 | 150 | |
Gold | 6152 | 22 | 2.1 | 140 | |
Gold | 6138 | 20 | 2 | 125 | |
Gold | 6140 | 18 | 2.3 | 140 | |
Gold | 6130 | 16 | 2.1 | 125 | |
Gold | 5120 | 14 | 2.2 | 105 | |
Gold | 5118 | 12 | 2.3 | 105 | |
Gold | 5115 | 10 | 2.4 | 85 | |
Silver | 4116 | 12 | 2.1 | 85 | |
Silver | 4114 | 10 | 2.2 | 85 | |
Silver | 4112 | 4 | 2.6 | 85 | |
Silver | 4110 | 8 | 2.1 | 85 | |
Silver | 4108 | 8 | 1.8 | 85 | |
Bronze | 3106 | 8 | 1.7 | 85 | |
Bronze | 3104 | 6 | 1.7 | 85 | |
NEBSターミナル向け | Platinum | 8160T | 24 | 2.1 | 150 |
Gold | 6138T | 20 | 2 | 125 | |
Gold | 6130T | 16 | 2.1 | 125 | |
Gold | 6126T | 12 | 2.6 | 125 | |
Gold | 5120T | 14 | 2.2 | 105 | |
Gold | 5119T | 14 | 1.9 | 85 | |
Silver | 4116T | 12 | 2.1 | 85 | |
Silver | 4114T | 10 | 2.2 | 85 | |
Silver | 4109T | 8 | 2 | 70 | |
OmniPath対応版 | Platinum | 8176F | 28 | 2.1 | 173 |
Platinum | 8160F | 24 | 2.1 | 160 | |
Gold | 6148F | 20 | 2.4 | 160 | |
Gold | 6142F | 16 | 2.6 | 160 | |
Gold | 6138F | 20 | 2 | 135 | |
Gold | 6130F | 16 | 2.1 | 135 | |
Gold | 6126F | 12 | 2.6 | 135 |
価格だが最上位SKUとなるXeon Platinum 8180が13,011ドル(日本円で約1,483,000円、1ドル=114円換算)、Xeon Gold 6xxxの最上位となる6154が3,543ドル(日本円で約404,000千円)、Xeon Gold 5xxxの最上位となる5118が1,273ドル(日本円で約145,000円、同)、Xeon Silverの最上位となる4116が1,002ドル(日本円で約114,000円、同)、もっとも廉価な製品がXeon Bronze 3104で213ドル(日本円で約24,000円、同)となる。