後藤弘茂のWeekly海外ニュース

次世代CPU「Haswell」の2倍強力なGPUコア



●Ivy BridgeのGPUコアの延長線にあるHaswell GPUコア

 Intelの次世代CPUマイクロアーキテクチャ「Haswell」は、CPUコアが一新されただけでなく、内蔵するGPUコアも大幅に強化された。CPUコア側の浮動小数点演算パフォーマンスを倍増させただけでなく、GPUコア側の浮動小数点演算パフォーマンスも最大構成では倍増される。ただし、これはGPUコアが最大構成の場合で、モバイル用ハイエンド製品だけだ。Haswellのデスクトップ製品や、メインストリームのモバイル製品ラインのGPUコアはIvy Bridgeを多少強化した程度にとどまる。

 HaswellのGPUコアアーキテクチャは、Ivy Bridgeの延長にある。Ivy BridgeのCPUコア部分はSandy Bridgeとほぼ同じだが、GPUコア部分は、一新され、スケーラブルなモジュラー構成となっていた。Ivy Bridgeの時に組み上げたGPUの枠組みで、GPUコアをスケールアップしたのがHaswellのGPUコアだ。HaswellのGPUコア最大構成では、AMDのFusionにある程度匹敵する。

 HaswellのGPUコアは下のスライドのような構造となっている。Ivy Bridgeとよく似ており、DirectX 11世代だ。ただし、演算ユニットの構成が小さい「GT1」GPUコアと、中程度の「GT2」コア以外に、構成が大きな「GT3」コアがある。

Haswellのアーキテクチャ
HaswellのSKU
グラフィックス機能の比較

 Haswell GPUコアは大きく6つの部分に分かれる。下のスライド中で左端にある(1)は3Dグラフィックス処理に必要な固定機能ユニット群で、Intelは「Global Assets(グローバルアセット)」と呼んでいる。シェーダをGPUコアのプロセッサで走らせるためのセットアップは、全てここで行なう。

Haswell GPUコアのブロック

 (2)は「Slice Common(スライスコモン)」と呼ばれる。ポリゴンからピクセルに変換するラスタライザや、画面に表示するピクセルを加工するピクセルバックエンドやL3キャッシュ、レンダ/デプスキャッシュなどの共有ユニット群で構成されている。(3)は「Sub-Slice(サブスライス)」または「Half-Slice(ハーフスライス)」と呼ばれるユニットで、演算ユニットの束である「EU(Execution Unit)」とテクスチャユニット(図中では3D Samplerとなっている)、テクスチャL2キャッシュなどで成り立っている。Haswellの場合は、スライスコモンと1~2個のサブスライスで、1個のスライス(Slice)が構成されている。

 図中の(4)はビデオのデコードとエンコードを行なう「Multi-Format Video CODEC Engine (MFX)」、(5)はビデオの画質処理を行なう「Video Quality Enhancement Engine」、(6)は画面に表示するためのディスプレイエンジンだ。

 上のスライドを、GPU的なパイプラインダイアグラムに書き起こしたのが、次の図だ。図中でHalf Sliceとなっているのがサブスライス、スライスの中でサブスライスに含まれていない部分がスライスコモンだ。

Haswell GPUのアーキテクチャ概観
PDF版はこちら

●スケーラブルに拡張できるHaswellのGPUコアアーキテクチャ

 Haswell GPUコアの各ブロックのうち、フロントエンドに当たるグローバルアセットでは、GPUへの命令ストリームを制御するコマンドストリーマ(Command Streamer)が加えられた。こうしたユニットは、他社のGPUも備えている。また、GT3構成については、3D機能パイプラインの各機能が約2倍の性能へと拡張された。また、スライスの中ではテクスチャユニットがIvy Bridgeより大幅に強化された。

Haswell GPUコアのコマンドストリーマ
GT3ではパイプラインを強化

 しかし、Haswell GPUコアの最大のポイントは、Ivy Bridgeから採用したGPUコア内部のモジュラー設計を利用して、GPUコアの構成を大きくしたことだ。これまでのIntelの内蔵GPUコアは、チップセットにGPUコアを内蔵していた時代と同様に、ローエンドのGPUコア構成のままだった。しかし、Haswellでは、AMDのFusionと同様に、メインストリームクラスのGPUコアに匹敵する構成のGPUコアを内蔵したバージョンを用意する。

メインストリームのGPUコアに匹敵する構成のHaswell GPUコア
PDF版はこちら

 Intelが最初にGPUコアをCPUコアに内蔵したSandy Bridgeでは、2種類の内蔵GPUコアがあり、大規模な構成の方がGT2、小規模な構成がGT1となっていた。Intel GPUコアは4個の単精度演算ユニットを備えたEU(execution unit)が基本単位となっている。Sandy Bridgeでの最小構成GT1は、6個のEUで24個の演算ユニットの構成だった。GT1の24演算ユニットという構成は、Haswellの最小構成GPUコア GT1でも変わっていない。Ivy Bridgeでは最大構成のGT2は16個のEUで、合計64個の単精度演算ユニットを備えている。

 これがHaswellになると、6 EUで24演算ユニットのGT1と、20 EUで80演算ユニットのGT2、それに40 EUで160演算ユニットのGT3の構成になると言われている。こうした拡張が可能になったのは、Ivy Bridge以降のIntel GPUコアが、NVIDIAやAMDと同様のモジュラー構成となり、拡張が容易になったからだ。

GT3のコモンスライス
GT3のサブスライス

 HaswellのGPUコアはサブスライス2つとスライスコモンで1スライスを構成する。この中に、頂点をディスパッチされた後の全ての処理のパイプラインが入っている。そのため、スライスを増やせば、演算パフォーマンスだけでなく、ラスタライズもピクセルオペレーションもキャッシュ量も全て倍増する。言ってみればスライスがCPUコアのようになっており、コア数を比較的自由に増やすことができる構造となっている。そのため、ハイエンドのGT3を載せたHaswellは、AMDのFusionに近づく。まだ、演算ユニット数では2倍以上の差があるが、これまでのような比較にならないというレベルではない。

HaswellとTrinityのGPU比較
PDF版はこちら

 加えて、GT3では、オンパッケージでeDRAMを載せたMulti-Chip Package(MCP)構成で提供されると言われていた。これについては、詳細は、まだわからない。

●ビデオエンジンは4Kビデオをサポート

 IntelのGPUコア群の特徴は、比較的強力なビデオコーデックエンジンを搭載しており、さらに、GPUコア側にもビデオ処理に向いた機能が搭載されていることだ。ビデオエンジンとGPUコアも密接に接続されており、固定機能ユニットとGPUコアのプロセッサの組み合わせで、ビデオのエンコード/デコードを行なう仕組みとなっている。ビデオに強いGPUコアという伝統はHaswellでも継承されており、新たに、「Video Quality Engine」が加えられている。

ビデオコーデックエンジンの搭載
Haswellにおけるビデオ機能の強化
Video Quality Engineの追加
マルチメディア向けのブロック

 Intel GPUアーキテクチャの特徴は、GPUプロセッサ側に、ビデオなどのメディア処理のためのユニットが加えられている点だ。ビデオ用のピクセル処理ユニットや、ビデオ用のデータフェッチ/フィルタリングユニットが備えられている。Haswellのビデオエンジン拡張の目玉は4K解像度への対応で、3,840×2,160ドット60HzでのDisplayPort 1.2出力か、4,096×2,304ドット/24HzでのHDMI出力に対応する。

低消費電力のデコードエンジン
4K解像度への対応
4Kビデオのサポート

 ハードウェアアクセラレートを行なうビデオエンコーダもHaswellでは強化されている。さらに、消費電力を抑える仕組みも加えられている。専用ハードウェアの比率を増やして電力効率を上げるほか、GT3構成では、GPUのサブコアであるスライス単位でのパワーゲーティングを動的に行なうことができる。

ビデオエンコーダの強化
エンコーダの機能
Quick Sync Videoの比較
ビデオ品質の向上
低消費電力化への取り組み

 また、HaswellもBridgeファミリと同様に、GPUコアがリングバスでメモリコントローラから一番遠いところに配置されている。しかし、Haswellでは、CPUコアとリング、それにLL(Last Level)キャッシュのそれぞれの電圧と周波数のリージョンが分離され、細粒度で制御されるようになった。そのため、CPUコアがアイドルで、GPUコアが働いている場合も、リングバスの周波数だけを上げて、GPUコアとメモリ間を高速に繋ぐことができる。こうしたHaswellの目玉である細粒度の電力制御も、グラフィックスワークロード時の省電力に寄与している。

Haswellのアーキテクチャ
PDF版はこちら