後藤弘茂のWeekly海外ニュース
NVIDIAがコンシューマ向けの最上位GPU「GeForce GTX 1080 Ti」を発表
2017年3月1日 16:10
最高性能のグラフィックス向けGPU
NVIDIAが最上位のグラフィックス向けGPU「GeForce GTX 1080 Ti(GP102)」を発表した。単精度(FP32)浮動小数点演算性能では11.3TFLOPS(ブースト時)を叩き出す。従来のハイエンド「NVIDIA TITAN X」を上回る性能のGPUを、699ドルで投入する。NVIDIAのJen-Hsun Huang(ジェンスン・フアン)氏(Founder, President and CEO, NVIDIA)は、GeForce GTX 1080 TiがGeForce GTX 1080(GP104)を35%優れた性能だと宣言。オーバークロックでは、2GHzを達成することをデモで示した。GeForce GTX 1080 Tiの発売は来週からで、ファウンダーズエディションがまず投入される。
GeForce GTX 1080 TiのGPUダイは「GP102」。昨年(2016年)発売されたTITAN Xと同じダイだが、コンフィギュレーションが異なる。GP102のダイは、プロセッサクラスタである「SM(Streaming Multiprocessor)」が30個で構成されている。メモリのDRAMインターフェイスはx32が12個の384-bit幅だ。GeForce GTX 1080 Tiでは、GP102のダイ上のこれらの機能の一部を無効にしている。SMは30個のうち2個が無効にされており、28個が有効だ。メモリインターフェイスは1ユニットが無効にされており、11個で352-bit幅のインターフェイスとなっている。
30個のSMのうち2個が無効にされているのは歩留まりを上げるためだ。30個のSMのうち2個まで不良があっても製品として出荷できるからだ。最近のGPUを含むメニイコアプロセッサでは、物理的に搭載しているコア数よりも少ない数を有効にして製品化することが一般化している。
動作周波数を高く設定したGeForce GTX 1080 Ti
GP102のSMの構成は、グラフィックス向けのGP10Xシリーズに共通のものだ。世代的にはPascalだが、Maxwellアーキテクチャの拡張となっている。SMの内部には、32レーンのベクタユニットが4基あり、合計で128個の単精度積和演算の並列実行が可能だ。NVIDIA用語では、1個のSMに128個のCUDAユニットが搭載されている。また、個々の32個のCUDAコアに、8-wayのSpecial Function Unit(SFU)とロード/ストアユニットが付属している。SM全体で4-wayのテクスチャユニットが2基搭載されている。
GeForce GTX 1080 TiのSMは28個で、各SMが128個のCUDAコアを持つ。GPU全体では、3,584個のCUDAコアを持つ。テクスチャUnitは224個となる。GP102のダイのトランジスタ数は120億。各SM毎にジオメトリユニットを持つため、ジオメトリユニット数は28となる。ラスタライザなどを共有するGPC(Graphics Processing Cluster)は6クラスタで、各クラスタ毎に最大5個のSMを備える。基本構成は、下位のGP104と同じで、それを拡大した構成となっている。
GeForce GTX 1080 Tiの28 SMで3584 CUDAコアの演算コア構成は、同じGP102のTITAN Xと同じだ。しかし、GeForce GTX 1080 Tiでは動作周波数が高い。動作周波数はベースが1.480GHz、ブースト時が1.582GHzで、2GHzまでのオーバークロックも実証されている。TITAN X(1.417GHz/1.531GHz)に対しては3~4%速く動作する。そのため、ブースト時で11.3TFLOPS、ベースクロック時で10.6TFLOPSの性能となる。
メモリは第2世代のGDDR5Xで11Gtpsへと高速化
メモリインターフェイスはx32の12個のDRAMコントローラのうち1個が無効にされている。合計で11個のx32ユニットで、352-bit幅のインターフェイスとなっている。GeForce GTX 1080 Tiの技術を説明したJonah Alben氏(Senior Vice President, GPU Engineering, NVIDIA)は、11という数は好ましい数字だと茶化して説明した。DRAMインターフェイスでは、歩留まり向上の意味がないため、これは製品差別化のための無効だと推測される。
メモリインターフェイスは352-bitに制約されているが、GeForce GTX 1080 Tiのメモリ帯域は484GB/sとTITAN Xの480GB/sと同等だ。これは、メモリ自体が高速になっているからだ。GeForce GTX 1080 Tiのメモリ種はTITAN Xと同様にGDDR5X。ただし、TITAN Xのサポート転送レート1,000Mtps(1Gtps)だったのに対して、GeForce GTX 1080 Tiでは1,100Mtps(1.1Gtps)へと転送レートが上がっている。これは、GPU側の設計変更によるものではなく、DRAM側が新チップになったためだ。
NVIDIAでGPU開発の指揮を取るJonah Alben氏(Senior Vice President, GPU Engineering, NVIDIA)は、初代にGDDR5Xでは11Gbpsで転送すると、データアイ(データの転送で有効なデータウィンドウ)が狭く、信号品質に不安があった。しかし、新バージョンのGDDR5Xではジッタやノイズの削減などにより、11Gbpsでもデータアイが広く開き、安全な品質で伝送ができるという。
GDDR5XはMicron Technologyが1社で開発製造している。Micronは、第2世代のGDDR5Xチップを、今年(2017年)2月の半導体学会ISSCC(IEEE International Solid-State Circuits Conference)で発表している。新版のGDDR5Xの改良点の多くは、データ転送の信号品質の向上にある。ちなみに、GDDR5Xは8G-bit品なので、352-bitインターフェイスの場合、DRAMチップが11個で11GBが最大容量となる。
タイルベースレンダリングをキャッシュで実現
GeForce GTX 1080 Tiの機能では、今回、タイルベースレンダリングのサポートが明らかにされた。これは、PowerVRやMaliのようなモバイルGPUでサポートされている、タイルレンダリングの利点を取りこむ機能だ。モバイルGPUのタイルベースレンダリングでは、画面全てのジオメトリプロセッシングを行ない、頂点をメモリにストアしてからタイル毎にラスタライズを行なう。それに対して、PCグラフィックスのイミーディエイトレンダリングでは、ジオメトリとピクセルのプロセッシングを平行して行なう。
GeForce GTX 1080 Tiでは、ジオメトリを処理しながら、ピクセルをタイルで処理するハイブリッド的な手法を可能にする。ジオメトリプロセス済みの頂点はL2キャッシュにストア。タイル毎にL2から頂点を読み出してラスタライズする。NVIDIAでは、これをタイルキャッシングと呼んでいる。
この手法の場合、ピクセル処理の重複を避けてメモリ帯域とプロセッシングを削減するタイルベースの利点を活かすことができる。なおかつ、頂点をメモリから頻繁に読み出すという、従来のタイルベースの弱点もカバーすることができるという。タイルサイズは可変で、タイリング自体はハードウェアで制御、タイルベースレンダリングを行なうかどうかの制御やタイルサイズの制御などはドライバソフトウェアで行なうという。この機能は、じつはMaxwell(マクスウェル)世代から実装されていたが、これまでは明かされていなかった。
NVIDIAはコンシューマ向けのグラフィックス向けGPUでも、メモリ帯域を引き上げることに熱心だ。NVIDIAのJen-Hsun Huang(ジェンスン・フアン)氏は、ゲームでも、画面解像度やテクスチャなど全てが広メモリ帯域を必要としているためだと強調する。
電力供給も強化したGeForce GTX 1080 Ti
GeForce GTX 1080 Tiでは電力供給も強化された。7フェイズのデュアルFETを2基備えた給電によって、高効率で安定した250A給電を実現する。冷却システムも強化、低ノイズで高効率の冷却を行う。同じノイズレベルなら、GeForce GTX 1080よりも5℃温度を下げることが可能になった。
また、NVIDIAは既存のGeForce GTX 1080とGeForce GTX 1060についても、オーバークロックバージョンには高速メモリバージョンを追加する。GeForce GTX 1080(GP104)には、11GtpsのGDDR5Xバージョン、GeForce GTX 1060(GP106)には9GtpsのGDDR5バージョンを提供する。