後藤弘茂のWeekly海外ニュース

Intelがデスクトップ/eDRAM版を含めた「Broadwell」ファミリを説明

eDRAM版が投入されるハイエンドグラフィックス版Broadwell

 Intelは米サンフランシスコで開催されている同社の技術カンファレンス「Intel Developer Forum(IDF)」で、14nm世代のCPUアーキテクチャ「Broadwell(ブロードウェル)」ファミリ全体の概要について説明した。

 現在は、まだCore M(Broadwell-Y)しか発表されていないBroadwellファミリだが、従来通りサーバーまで全方位で製品が投入される。IDFでは、まだ発表されていない高性能版の例として下のクアッドコア版が示された。Haswell同様、ハイエンドグラフィックスではeDRAM版が投入される。

Broadwell-Yのダイレイアウト
PDF版はこちら
クアッドコア版Broadwellの概念図

 命令実行効率であるIPC(Instruction-per-Clock)が従来より向上。浮動小数点演算とベクタオペレーションの実行レイテンシが下がった。アイドル時電力は60%減り、アクティブ電力は30%減る。PCH(Platform Controller Hub)の電力管理はよりきめ細かくなり、統合電圧レギュレータ(IVR)の実装も変更された。CPUコア側はマイナーチェンジだが、GPUコア側はマイクロアーキテクチャも大きく変わり、サポートするAPIも拡張された。GPUでなにより大切なことは、共有仮想アドレス領域がハードウェアでサポートされ、CPUコアとGPUコアの間のデータ交換が容易になったことだ。

 Broadwellの特徴の中でも最も重要なポイントは、言うまでもなく14nmプロセスで製造されることだ。プロセス技術の利点だけで、Broadwellはキャパシタンスを65%にまで下げ、最小駆動電圧を10%引き下げ、低電圧時のトランジスタ性能を10〜15%に引き上げ、リーク電流(Leakage)を半分に減らした。電力効率の向上のほとんどは、プロセス技術に負っていることが分かる。キャパシタンスや電圧の低下率は、近年のプロセス移行の中では非常に良好で、14nmプロセスはIntelにとって強力なプロセスだ。

 ただし、Intelの14nmプロセスはシュリンク率も高く、ロジックエリアの面積は22nmプロセスの51%にまで縮小している。ダイ面積が小さくなるということは、電力も相応に減らなければ電力密度(Power Density)が上昇することを意味している。Haswellと同じ構成のBroadwellのダイがもし50%前後に縮小して、アクティブパワーが70%までしか減らないとすれば、電力密度は上がる。電力密度の上昇は冷却を難しくしてしまう。

Intelのプロセス技術のロジックエリアスケーリング
PDF版はこちら

CPUコアとLLキャッシュは22nm世代から50%に縮小

 BroadwellのダイをHaswellと比べて見ると、このことがよく分かる。下の図の上は4 CPUコア+GT2 GPUコアのHaswell、下がBroadwell-Yで2 CPUコア+GT2 GPUコアだ。同じ構成の比較ではないが、HaswellからBroadwellへのシュリンクがよく分かる。

Haswell 4+2と、Broadwell 2+2のダイ比較
PDF版はこちら

 さらに、これをパーツ毎に見ると下の図のようになる。CPUコアと2MBのLLキャッシュスライスのダイエリアは、22nm Haswellから14nm Broadwellでほぼ50%に縮小している。BroadwellのCPUコアのマイクロアーキテクチャ拡張は小さいので、ほぼロジックとSRAMが微細化の比率通りに小さくなっていることが分かる。GPUコアは、同じGT2クラスだがアーキテクチャ的に拡張されているため、ダイエリアは69%となっている。この比率からも、BroadwellがCPUよりGPUの拡張に重きを置いた世代であることが分かる。

Haswell 4+2とBroadwell 2+2のダイをパーツごとに比較
PDF版はこちら

 システムエージェントとI/Oエリアの縮小率は57%で、これは縮小率が低いI/Oエリアが含まれているためだ。DRAMインターフェイスも同様に63%と縮小率が低い。BroadwellをHaswellファミリのダイと比較すると下のようになる。Broadwell-Yの構成に当たるのはHaswell 2+2で、同構成同士の比較ではダイは62%に縮小している。

ダイのレイアウト
PDF版はこちら

 Broadwellは2+2の構成でよりTDP(Thermal Design Power:熱設計消費電力)の高いレンジもカバーするため、これ以下にダイを縮小しにくいと見られる。逆を言えば、GPUエリアを増やしたのは、熱の観点から見れば当然の流れとなる。CPUからオフロードするコアエリアを増やさなければ、ダークシリコンエリアが生じてしまうからだ。

CPUマイクロアーキテクチャは小幅な改良

 BroadwellのCPUコアのマイクロアーキテクチャ上の拡張としては、アウトオブオーダスケジューラのエントリが60から64に拡張された。同エントリはNehalem(ネハーレン)が36で、Sandy Bridge(サンディブリッジ)が54と、連綿と拡張されている。またストアフォワーディングもより速くなった。

 L2ユニファイドTLB(Translation Lookaside Buffer)は4KBと2MBページで1Kエントリだったのが1.5Kエントリに拡張された。また、新たに1GBページL2 TLBが16エントリ設けられた。分岐先アドレスの予測機能の精度も改良された。

 Intelは演算系の性能を久々に引き上げた。浮動小数点乗算はこれまで5サイクルレイテンシだったのが3サイクルレイテンシに短縮された。除算はRadix-1024除算ユニットのレイテンシが短縮され、スループットも上げられた。また、Haswellで加わったGather(ギャザー)命令も、生成するマイクロオプス(uOPs)が最大60%に減らされて向上した。このほか、暗号化とセキュリティに関しては新命令などが加わった。

 面白い機能では、プロセッサの実行トレースを自動的にメモリに書き出すIntel Processor Traceモニタリング機能が加わった。また、なかなか使えないTransactional Synchronization Extensions(Intel TSX)についても新命令が加わる。

電圧レギュレータはインダクタだけをドータボードに

 Intel CPUの省電力技術の要である統合電圧レギュレータ(IVR:Integrated Voltage Regulator)については、Broadwellで大きな変更があった。HaswellではIVRのインダクタをCPUパッケージの配線層に生成していたが、BroadwellではインダクタはCPUパッケージ下のドータボード「3DLモジュール」に移された。HaswellのCPUパッケージの背面にあった丸いトレースが消え、Broadwell-Yでは、その部分には下に突き出したドータボードが突き出すようになった。

 HaswellのIVRは、オンダイに実装されたDC-DCコンバータと高密度の「MIM(metal-insulator-metal)キャパシタ」、それにオンパッケージの「パッケージトレースインダクタ(package trace inductor)」で構成される。IVRのユニットのうち、インダクタ部分だけがオンダイではなくパッケージ側にある。オンダイとパッケージの両方を使った統合だった。

 CPU向けの電圧レギュレータをチップに統合する場合に最大の問題となるのは、大きなディスクリート部品であるインダクタの統合だ。Intelは、CPUのパッケージのサブストレートにエアコアインダクタ(Air Core Inductor:空芯インダクタ)を生成した。サブストレートのPTH(Plated Through-Hole)とトレース(Trace)を使って、エアコアインダクタを作る。PTHの回りを回り込むコイル状の形状になっているように見える。非磁性材料のトレースであるため、標準的なパッケージ技術で製造できる。

 IVRでは電圧切り替えが高速で行なわれるため、インダクタの容量も相対的に小さく済む。そのため、パッケージ内の配線を使ったインダクタでも可能になった。この技術によって、マザーボードのCPU側にもチップパッケージにもディスクリートのアレイキャパシタを配置する必要がなくなった。Broadwellでは、ダイに内蔵したバックコンバータとMIMキャパシタはそのままで、パッケージ側のインダクタを3DLに移動させた。

 IntelのSrinivas Chennupaty氏(Sr. Principal Engineer, CPU Chief Architect, Intel)は、その理由について、CPUパッケージを薄くしたいというニーズがあったためだと説明する。パッケージトレースインダクタを使うと、コイルのためにパッケージを厚くしなければならない。パッケージ厚を薄くするためにパッケージトレースインダクタを外すというのは論理的だ。

 また別なIntel関係者は、パッケージトレースインダクタはノイズが大きな問題だったとも説明する。実際、Intelの過去の論文でもパッケージトレースインダクタのEMIをどう抑えるかが論じられている。

Intelが4年前にパッケージトレースインダクタのEMI特性を説明したスライド

 Intelの研究を見ていると、同社の目指すIVRのゴールはオンダイにインダクタを含めて統合することだ。Broadwellの実装は、そうした流れからすると逆行するように見える。また、Skylakeでは電圧レギュレータの仕様が変わり、さらに後退するという噂もある。電圧レギュレータの統合については、現在も揺れている最中だ。

 こうした不安を払拭するためか、IntelはIDFではIVRの効率性の向上を強調した。低電圧時のロスを減らし、電圧下降のスピードを向上させるなどの改良を行なったという。

GPUコアの内部アーキテクチャを改良

 Intelのチックタックモデルは、実はCPUコアとGPUコアの拡張の交代モデルでもある。プロセスが微細化した最初のチック世代は、微細化だけでなくGPUコアが大きく強化される傾向が強い。そして、微細化の2世代目のタック世代はCPUコアが強化される。Broadwellはチックでるため、GPUコアがより強化されている。カスタム設計のCPUコアと、論理合成部分がほとんどのGPUコアの違いだ。

性能/電力の向上はプロセス技術と回路設計技術も寄与

 Broadwell GPUコアの拡張は多岐に渡っている。プロセス技術と回路設計技術による電力効率の向上もあるが、それ以上にマイクロアーキテクチャの拡張の比率が大きい。

 Broadwell GPUコアはHaswell GPUコアと内部マイクロアーキテクチャが変わった。Haswell GPUコアでは、演算コアの最小単位の「Sub-Slice(サブスライス)(ハーフスライスとも呼ばれる)」は、10個のEU(execution unit)を備えていた。EUは4-wayのSIMD(Single Instruction, Multiple Data)ユニットを2つ備えており、それぞれのSIMDが別なスレッドの命令を実行可能となっている。

 また、テクスチャユニット(図中では3D Samplerとなっている)、テクスチャL2キャッシュなどもサブスライスに備えている。Haswell GPUの場合は、2つのサブスライスで、「Slice Common(スライスコモン)」と呼ばれる共有ユニットを共有する。スライスコモンには、ポリゴンからピクセルに変換するラスタライザや、画面に表示するピクセルを加工するピクセルバックエンドやL3キャッシュ、レンダ/デプスキャッシュなどのユニット群が含まれる。

BroadwellのGT2
PDF版はこちら

 それに対して、Broadwellでは、サブスライスは2ユニットではなく3ユニットになり、各スライスがそれぞれ8個のEUを備える。そのため、EUに対するテクスチャユニットの比率が変わった。従来は10 EUに対して1テクスチャユニットだったのが、8 EU対1テクスチャになり、テクスチャの比率が高くなった。つまり、相対的にテクスチャ性能が高くなった。IntelはFLOPS対テクスチャ比が40対1から32対1になったと説明しているが、同じ意味だ。演算対テクスチャ比は、グラフィックスの最適化に影響する。また、通常のGPUは演算ユニット数を4の倍数にするが、Intelの場合はSIMT(Single Instruction, Multiple Thread)型の制御ではないため、4の倍数に縛られない。

HaswellのGT2のブロックダイアグラム
PDF版はこちら

 また、Broadwellでは、上のスライド中で左端にある3Dグラフィックス処理の固定機能ユニット群を強化した。ジオメトリパイプについては性能が2倍になったという。通常は、ジオメトリパイプの改良を行なう場合は、パイプを2本にして、その下のシェーダプロセッサも2分割して、2個のGPUのように制御する。しかし、Broadwellの場合は、そうした拡張は行なっていないようだ。

シェアードバーチャルメモリをサポートするBroadwell

 GPUアーキテクチャの面で、Broadwellで最も重要な拡張は、共有仮想アドレス領域(Shared Virtual Address Space)だろう。Broadwellでは、GPUコアとCPUコア群が、同じバーチャルメモリアドレススペースを共有できる。そのため、CPUコアとGPUコアの間で、アドレスポインタでのデータの受け渡しが可能だ。

 IntelはMICアーキテクチャでソフトウェア制御のシェアードバーチャルメモリ(SVM: Shared Virtual Memory)を導入しているが、Broadwellの場合はハードウェア制御だ。ソフトウェア制御の粒度の大きな(ページベース)SVMと異なり、Broadwellではキャッシュライン単位での粒度の小さなSVMをサポートし、GPUとCPUの間はアトミックオペレーションで同期を取る。

 また、Broadwellではハードウェアベースのメモリコヒーレンシシステムを備えており、CPU側とGPU側の両方からキャッシュをスヌープできるという。この点では、GPU側からのスヌープしかできないAMDより進歩した仕様となっている。ただし、Intelも膨大な更新が発生するGPUキャッシュへのスヌープトラフィックの軽減の手法などについては、まだ明らかにしていない。

 共有仮想アドレス領域は、GPUコンピューティングの必須のステップだ。この機能により、Broadwell以降は、Intel GPUコアを使った汎用アプリケーションの開発がぐっと容易になると推測される。同様の機能はAMDもAPU(Accelerated Processing Unit)のハードウェアで、NVIDIAはソフトウェアで実装している。この機能の実装は、Intelが内蔵GPUコアでのGPUコンピューティングに積極的であることを示している。

 BroadwellのGPUコアも、Haswell同様に複数のコンフィギュレーションで提供される。現在明らかになっているのはGT2の仕様だが、GT3がGT2の倍の構成だとすれば、下のような構成となる。浮動小数点演算ユニット数では384ユニット(半数の192ユニットはスーパーファンクションユニットと共有)。

BroadwellのGPUコアのバリエーション
PDF版はこちら

 Broadwell GPUコアについては、IDF 2日目に集中的なセッションが行なわれる予定で、その後でより詳細をレポートしたい。ちなみに、Intelは第2世代のeDRAMの概要については、すでに今年(2014年)6月の「VLSI Symposium(Symposium on VLSI Technology and Circuits)」で発表している。セルエリアサイズは従来と変わらないため、eDRAMの最大容量も変わらない見込みだが、スタンバイ時の電力は大幅に削減される。これは、リテンションタイムが100μsecから300μsecへと大幅に伸びた上に、温度によってリフレッシュタイミングを変える機能が加わったためだ。

HaswellのeDRAMアーキテクチャ。第2世代eDRAMも基本アーキテクチャは似ている
PDF版はこちら

(後藤 弘茂 (Hiroshige Goto) E-mail