後藤弘茂のWeekly海外ニュース

14nmプロセス世代のサーバーCPU「Broadwell-EP」のモジュラー設計

22nmプロセス世代から物理コア数は50%増えた

 Intelは14nmプロセス世代のサーバーCPUファミリ「Xeon Processor E5-2600 v4」を発表した。コードネームは「Broadwell-EP」となる。デュアルソケット用の「Xeon E5-2系だ。Intelはこの世代でさらにCPUコア数を増やし、最大構成では22コアとした。また、メモリはDDR4をサポートし、メモリ転送レートは最大2,400Mtpsとなった。

Broadwell-EPの発表

 Intelは65nmのTulsaで2コア、45nmのNehalem-EXで8コア、32nmのWestmere-EXで10コア、22nmのHaswell-EXで18コアと、プロセス世代毎にダイ上のCPU個数を増やしてきた。コア数の増加は、2→8→10→18と変則的だ。今回は、HaswellからBroadwellへとCPUコアアーキテクチャがマイナーチェンジし、CPUコア個数は18→24と50%増えた。ただし、冗長性のため24コアのうち、現状のSKUで使われるのは22コアまでとなっている。つまり、最大構成の製品でも22コアだが、物理的には24コアがダイに乗っている。

 冗長コアが設定されているのは、大型ダイになると、ダイ上に欠陥(defect)が含まれる可能性が高くなるためだ。ロジック回路はdefectに弱く、そのため、不良による歩留まりが低下する。400平方mmを超えるチップの場合、欠陥があるダイは非常に多くなる。欠陥が含まれたダイを全て破棄するとなると、歩留まりは著しく下がってしまう。

 そのため、GPUやゲーム機向けAPUなどでは、欠陥による不良コアの発生を見越して、ロジック部分に冗長性を持たせることが一般的となっている。現在のBroadwell-EPの構成では、24コアのうち2コアが不良であっても出荷することができる。SRAM部分も代替セルで冗長性を持たせているため、歩留まりは一定に引き上げることができる。Broadwell-EPの24コアは、そうした目的と見られる。

ダイサイズを小さくとどめたBroadwell-E系列

 今回、Intelはプロセスを微細化したにも関わらず、コア数は50%の増加に留めた。CPUコア自体のエンハンスは小さいため、コア面積は縮小し、ダイサイズは前世代より縮小している。Broadwell-EPのダイサイズは、最大規模の24コアのダイについては、ウェハから逆算ができる。300mmウェハ上でのBroadwell-EPの個数から、ダイ面積は450平方mm強となる。

IntelのサーバーCPUのダイサイズ
PDF版はこちら

 過去の最大構成のIntelサーバーCPUのダイを見ると、22nmプロセスのHaswell-E系が18コアで662平方mm。Ivy Townが15コアで541平方mm。ハイコアカウントのサーバーCPUとしては、Broadwell-EPのダイサイズはTulsaの435平方mm以来の小型ダイとなる。Haswell-EP/EXと比較すると68%のダイエリアだ。Intelの14nmプロセスのトランジスタ密度は高いため、もう少しダイが縮小してもよさそうだが、I/O回りのために、そうはならない。現在のプロセス技術では、I/O部分は縮小比率が低いため、コア部分のサイズが縮小しても、I/Oはそれほど縮小しない。

Broadwell-EPのウェハ

 Intelは今世代でサーバーCPUのダイサイズを従来の70%前後に縮小した。その背景には、ダイを小さくせざるをえない経済的な事情があると思われる。現在は、プロセス世代毎にプロセス済みウェハのコストが上昇している。それも、コストの上昇率が上がっており、ダイ面積当たりのコストは世代毎にどんどん引き上げられている。これは、プロセスの複雑度が増し、ウェハのスループットが落ちているからだ。急激に増加するプロセス開発コストも、コスト増加を後押しする。プロセスを微細化すると、同程度のダイ面積のチップのコストは上昇してしまう。

 Intelはダイエリア当たりのトランジスタや配線の密度を上げることで、この問題を解決しようとしている。つまり、より稠密なチップにすることでダイを縮小し、ダイ面積当たりのコスト上昇を相殺しようとしている。そのため、Intelはプロセスの微細化を進めながら、コストを一定に抑えるためには、個々の製品のダイを縮小しなければならない。これが、Broadwell-EPに発生していることだと推測される。

左端のチャートがコスト上昇を示している

モジュラー設計のBroadwell-EP

 24コア(SKUは22コア)のBroadwell-EPの構成は下のようになっている。基本はHaswell-EPと同様で、2重のリングバスが2系統回されている。各リング毎に、CPUコアとLLキャッシュスライスがリングストップに接続されている。2つのリングペア同士は、バッファスイッチによって相互接続されている。バッファスイッチは上下の2カ所に設置されている。外部I/Oとメモリインターフェイスもリングストップに接続されている。

Broadwell-EP 24コアのダイアグラム
PDF版はこちら

 この構造は、Haswell-EP/EXと基本的には同一だ。下はHaswell-EXの構成図だ。CPUコア数は異なるものの、2ペアのリングにコアやI/Oが配置されている点は共通している。図上でQPIインターフェイスが3系統あるのは、EX系統であるためだ。実際にはBroadwell-EPも、ダイ上には3個目のQPIリンクがあり、EP系製品では無効にされていると推測される。

Haswell-EP/EXのモジュラー設計
PDF版はこちら

 IntelはCPU設計において、物理設計を流用できるモジュラー設計を採用している。論理合計ベースの設計手法とは異なり、各モジュールの物理設計を組み合わせることで、複数のCPU製品の設計を可能にする。Broadwell-EP/EX系でも、このモジュラー設計手法が活かされている。最大規模の構成から、モジュールを削除(チョップ)することで、より小規模な構成のチップを設計可能としている。下はHaswell世代での、チョップによるダイ派生だ。

Haswell-EP/EXのダイ派生
PDF版はこちら

 この構造によって、Broadwell-EPでも、基本設計から異なる3種類のダイを派生させることができる。最大のHCC(High Count Cores)の24コアのダイは、各リングペアに6コア×2の12コアが接続されている。12コアの2リングで合計24コアとなっている。MCC(Medium Core Count)の15コアのダイは、各リングペアのコア数が5コア×2の10コアに減少されている。さらに、右端の列が削減され15コアとなっている。LCC (Low Core Count)の10コアダイは、1リングペアに5コア×2の10コアの構成となっている。

Broadwell-EPファミリのリングバス構成
PDF版はこちら

 ちょっと面白いのは、Broadwell-EPもHaswell-EPも、2つのリングペアのコア配置がシンメトリになっていない点だ。左側のリングペアはCPUコアが外向きでLLキャッシュが右向き。右側のリングペアはCPUコアが右に配置されている。また、Broadwell-EPの構成はコア配置だけを見るとIvyTownと同じだが、リングバスが異なり、リングがシンプル化されている。

IvyTownのリングバス
PDF版はこちら

 CPUアーキテクチャ面では、今回LLキャッシュ制御が拡張され、バーチャルマシンのプラオリリティに応じた制御が可能となった。「Intel Resource Director Technology」で、キャッシュのアロケーションができる。これは、キャッシュのQoSモニタリングに加えて、キャッシュのタグでプライオリティビットを拡張して、Hypervisorがプライオリティ制御を行なうことができるようにした。

従来のキャッシュ制御
Broadwell-EPのキャッシュ制御

 また、電力制御では、Broadwell-EPは、CPUコア単位の電圧制御を行なっている。負荷に応じてCPUコア毎に電圧と周波数を最適に設定することができるという。

変わるデータセンターのプロセッシングリソース

 現状では、大型サーバーCPUは、Intelが支配的で、特にx86/x64では圧倒的な状況だ。しかし、IntelのサーバーCPUが戦う相手は、他社のサーバーCPUではない。現在、データセンターは構造的な変革期を迎えており、サーバーCPUの役割の変化が起きつつある。データセンターで処理するデータが変わりつつあるからだ。

 サーバーCPUに大型で性能が高いCPUコアが求められていたのは、サーバーワークロードが、スレッド負荷の重いものばかりだったからだ。ところが、ビッグデータやディープラーニングへと時代が変わり始め、サーバーの処理は、スレッド当たりの負荷は軽いけれども、データ量が膨大なものへと変わり始めた。そうなると、ワークロードによっては、プロセッサに求められる性能は、重い処理を高速にこなすことばかりではなくなる。特に、大量データ処理での電力当たりの効率を考えると、大型CPUコアは分が悪くなる。

 従来のサーバーCPUは、性能は高いものの、性能当たりの電力消費が大きいため、メモリやI/Oがボトルネックになるようなワークロードの場合は電力の効率が低い。それに対して、小さなプロセッシングコアを並列化すると、個々のCPUコアがメモリやI/Oアクセスを待っている間に、他のCPUコアが処理できるので、メモリ帯域を有効に使うことができる。

 こうした流れからスモールCPUコアのサーバーCPUが効率性から注目を浴びた。また、GPUのような、効率の高いSIMT(Single Instruction, Multiple Thread)タイプの並列プロセッサは、特にディープラーニングで盛り上がっている。また、固定回路を実現できるFPGA(Field-Programmable Gate Array)もMicrosoftのデータセンター採用以来、焦点となっている。

プロセッサの電力効率とアプリケーションに対する柔軟性
PDF版はこちら

 こうした状況で、データセンターには徐々にGPUやFPGAが入り込み始めている。サーバー向けの大型CPUで決まりだったこれまでとは明らかに流れが異なっている。

 Intelは、こうした状況にも対応しており、対GPUではXeon Phi系の(Knightsファミリ)があり、本命の「Knights Landing」が控えている。FPGAへの流れには、Intelが買収したAlteraのFPGA製品群がある。IntelはXeonとFPGAをMulti-Chip Package (MCP)に搭載した製品を計画しており、将来のデータセンターにはFPGAが有用だと訴えている。

 つまり、Intel自身のデータセンター向けのプロセッサ製品群が広がりを見せつつある。その中で、サーバーCPUはデータセンターの主役から、要素の1つにポジショニングが変わりつつある。これまでとは異なる競争相手と、これまでとは異なる製品カテゴリでの競争が求められつつある。

 もちろん、スレッド性能の高い大型CPUコアと、コヒーレンシのトラヒックを軽減する大量キャッシュのサーバーCPUは、今後も重要な位置を占める。しかし、データセンターは多様化の時代を迎えており、サーバーCPUだけ抑えればいいという状況ではなくなっている。Intelの強味は、こうした変化に合わせた対応を全てしているところで、Intelの弱味は、それがためにIntelの戦略的焦点がどこにあるのか見えにくい点だ。

(後藤 弘茂 (Hiroshige Goto)E-mail