後藤弘茂のWeekly海外ニュース

NVIDIAがPascalアーキテクチャのGeForce GTX 1080(GP104)を発表

eSport大会のDreamHackに合わせて最速GPUを発表

 NVIDIAは、新世代GPUアーキテクチャ「Pascal(パスカル)」ベースのグラフィックス向け製品「GeForce GTX 1080/1070」を発表した。GPU Technology Conference(GTC)で発表された「Tesla P100(GP100)」は、ハイエンドGPUコンピューティング向けでHBM2メモリにNVLinkインターフェイスカードの製品だった。それに対して、GeForce GTX 1080/1070はGDDR5XベースでPCI Expressカードのグラフィックス向けとなっている。また、NVIDIAは、GP104発表に合わせて、Pascalアーキテクチャのグラフィックス面の新フィーチャを一部公開。また、回路設計上の最適化や新しいライブラリなども公開した。

GeForce GTX 1080を発表するJen-Hsun Huang(ジェンスン・フアン)氏(Co-founder, President and CEO, NVIDIA)

 NVIDIAは米テキサス州オースティンで開催されているゲーム大会「DreamHack」に合わせてGeForce GTX 1080(GP104)の発表会を開催した。DreamHackはeSportイベントの1つで世界最大級の規模を誇る。世界中のゲーマーが集うDreamHackに合わせて、NVIDIAはゲーミング市場をターゲットとしたパフォーマンスGPUをリリースした。NVIDIAは、新GPUを4K/HDR時代のフラッグシップグラフィックス製品として押し出す。GeForce GTX 1080は、599ドルの希望小売価格で5月27日から発売開始。廉価版のGeForce GTX 1070は、379ドルで6月10日から発売開始だ。

 GeForce GTX 1080のポイントは、GP100同様にTSMCの16nm FinFET 3Dトランジスタプロセスによる低電力と高クロックの達成、HBM2より低コストでありながら10Gbpsの高転送レイトのGDDR5Xメモリの8GB搭載、9TFLOPS(FP32時)の演算性能、最新のPascalマイクロアーキテクチャのグラフィックス最適化実装、マルチプロジェクションに対応して拡張されたとみられるラスタライザ、パワーデリバリネットワークなど回路設計の改良など。一言で言えば、GPUマイクロアーキテクチャとプロセス技術、メモリ、回路設計、グラフィックス専用機能まで、全ての面において大幅な拡張が加えられている。

 NVIDIAを率いるJen-Hsun Huang(ジェンスン・フアン)氏(Co-founder, President and CEO)は、「GeForce GTX 1080は、従来のGeForce GTX 980(GM204)のSLIよりも速く、GeForce GTX TITAN X(GM200)よりも速い」と宣言した。演算性能では9TFLOPSと、NVIDIAのグラフィックス製品で最高性能に達する。NVIDIA GPUで超えるのは、GPUコンピューティング向けのTesla P100の10.6TFLOPSだけだ。さらに、電力当たりの性能では、Maxwell世代のTITAN Xの3倍に達するという。

Maxwell世代のどのGPUよりも高い性能を誇るGeForce GTX 1080
電力効率では、MaxwellのTITAN Xの3倍

CUDAコア数は2,560で1.7GHzのクロックで動作

 GeForce GTX 1080のCUDAコア(FP32演算ユニット)の数は2,560個。PascalアーキテクチャでのSM(Streaming Multiprocessor)は64ユニットなので、GeForce GTX 1080の搭載するSMは40個となる。GP100では、2個のSMでTexture/Processor Cluster (TPC)を構成しており、10個のSMでGPC(Graphics Processing Cluster)としていた。同じ構成なら、GeForce GTX 1080のTPCは20個、GPCは4個となる。グラフィックス機能で言い換えれば、GeForce GTX 1080のラスタライザは4ユニット、ジオメトリパイプライン/テッセレータは20ユニットと推測される。

GPUの演算ユニット数は2,560
推測されるGeForce GTX 1080の全体構成図※PDF版はこちら
GP100のGPC (Graphics Processing Cluster)構成図※PDF版はこちら

 Jen-Hsun氏のスピーチのビデオの中で、GeForce GTX 1080のスペック上の演算性能は9TFLOPSと明かされた。これはブースト周波数1.73GHz時のものだ。また、Jen-Hsun氏のスピーチ中のGeForce GTX 1080のデモでは、GPUを2.114GHzにオーバークロックしての動作も行なわれた。Jen-Hsun氏は、かつてないほどのオーバークロック耐性だと説明する。

2.1GHzを超えるオーバークロック時の動作周波数

 PascalアーキテクチャのSMは、MaxwellのSMを半分にした構成となっている。GPUコンピューティングが主眼のGP100に対して、グラフィックス向けのGeForce GTX 1080ではグラフィックス最適化が図られると見られる。おそらく、倍精度演算性能はGP100に対して大幅に減らされるだろう。GP100では、FP64倍精度演算性能は、FP32単精度演算性能の2分の1。しかし、GP104では、FP32の32分の1程度のFP64性能に抑えられることが予想される。その分、SMがコンパクトになり、FP32のダイ当たりの性能は高まることになる。Pascalで導入された、FP16の2-way SIMD(Single Instruction, Multiple Data)仕様は、GP104でも引き継がれるだろう。

PascalのSMの構成図※PDF版はこちら

最新メモリのGDDR5Xを採用して広帯域を実現

 GeForce GTX 1080は、メモリに「GDDR5X」を採用する。GDDR5Xは、GDDR5の後継メモリとして急きょ規格化されたメモリだ。メモリ業界は、当初はGDDR5からHBM系メモリへの移行を考えていた。しかし、HBM系の製造&アセンブリコストが想定より高くなったことで、ミッドレンジ以下のGPUのメモリはGDDR系で継続されることが予想されるようになった。そのため、GDDR5の延長で、GDDR5XがJEDEC(半導体の標準化団体)で規格化された。

 GDDR5Xは、ベースクロックの4倍の転送速度で動作するQuad Data Rate (QDR)モードを持つ(従来のDDRモードも備える)。転送速度のターゲットはGDDR5の2倍。現在はMicron Technologyが製造を開始しており、NVIDIAもMicronのGDDR5Xを使う。カンファレンスでは、QDR時に10Gbpsの転送レートとされていた。GeForce GTX 1080は、“04”番台のNVIDIA GPUの伝統通り256-bitのメモリインターフェイスとなる。メモリ帯域は、10Gbpsに320GB/secに達する。これは、384-bitインターフェイスで7GbpsのTITAN Xの336.5GB/secに迫る数字だ。

 GDDR5Xの利点は、HBM2と異なりThrough Silicon Via (TSV)技術やシリコンインタポーザが不要であるため、製造コストを抑えられる点。また、GPU側のメモリインターフェイスをGDDR5とGDDR5X互換にできる点だ。実際、今回発表されたGeForce GTX 1080はGDDR5Xだが、低価格版のGeForce GTX 1070はGDDR5メモリとなっている。

 利点が多いように見えるGDDR5Xだが、弱点もある。GDDR5Xの技術はGDDR5に似ており、x32/x16インターフェイスで、バンクグルーピングによってアクセス粒度を減らしている。ただし、バンクグループの数はGDDR5と同じ4グループであるため、プリフェッチアーキテクチャはGDDR5の8nから、GDDR5XのGDRモードでは16nへと倍増している。簡単に言えば、1回にアクセスするメモリの粒度が上がっている。GDDR5では256-bit(32-byte)単位でアクセスできていたのが、GDDR5XのQDRモードでは512-bit(64-byte)のアクセス単位となってしまう。そのため、GPU側は、QDR時の帯域を活かすためには、メモリアクセスの粒度を高めるように、DRAMコントローラ側で工夫する必要がある。

ラスタライズパイプを拡張か?

 GeForce GTX 1080のグラフィックスアーキテクチャでは、ラスタライズの拡張が大きく取り上げられた。現在の3Dグラフィックスは、平面のディスプレイ1枚に表示することを前提として作られている。3D空間上にマップされた3Dオブジェクトを、ディスプレイの単一の2D平面上のピクセルへと変換する仕組みを取っている。しかし、現在はマルチディスプレイや両眼視のVR(Virtual Reality)など、これまでの枠組みに当てはまらない表示装置が増えて来た。

ディスプレイ側の変化に対応
複数のビューポートを実現するサイマルテニアスマルチプロジェクション

 GeForce GTX 1080では、こうした流れに対応して、ラスタライズの機能が拡張される。NVIDIAが「サイマルテニアスマルチプロジェクション(Simultaneous Multi-Projection)」と呼ぶ機能で、複数のビューポート変換とピクセルへの生成を行うことができる。言い換えれば、従来のGPUは1つの視点からしか3D空間を2D座標にマップすることができなかったが、GTX 1080では複数の視点からマップすることができる。実際には、最大16のビューポートを持つことができる。

 3枚のマルチディスプレイの場合、従来は横長にレンダリングした画面を左右のディスプレイに表示するだけだった。ところが、サイマルテニアスマルチプロジェクションでは、チルトさせた左右のディスプレイに、チルトさせた角度に合わせた視点からのレンダリングを行なうことができる。

チルトさせた画面に合わせたプロジェクションが可能

 また、VR(Virtual Reality)では、左右の眼に対応したビューポートを生成しなければならない。従来はこれをマルチパスで行ない、さらに眼に近い表示であるために発生する視界の周囲の歪みの補正も行なっていた。しかし、サイマルテニアスマルチプロジェクションを使うと、左右の眼に対応するディスプレイそれぞれに、4つずつのビューポートからのプロジェクションを生成。それによって歪みの補正の必要がない画像を左右の眼それぞれに対して生成できるようになるという。

VRでのサイマルテニアスマルチプロジェクションの適用例

 サイマルテニアスマルチプロジェクションでは、これを性能のペナルティなくシングルパスで行なうため、VRでは大幅な性能向上が可能になるという。結果として、従来、70fps程度でしかレンダリングできなかったVR画像が、90fps以上のフレームレイトで描画可能となる。現在、VRではVR酔いを防ぐために90fps以上が必要とされるが、90fpsのターゲットレートで、より高画質なレンダリングが可能となる。

同じVR画像のフレームレートが高速になる

 発表時点では、NVIDIAはサイマルテニアスマルチプロジェクションの具体的な実装を明らかにしていない。プロセッシングコアを使ったソフトウェアソリューションなのか、実際にラスタライズパイプラインを拡張した実装なのかが明確ではない。しかし、NVIDIAが性能的な妥協がないとしていることからハードウェア実装である可能性は高い。

 このほか、回路設計では、今回のGeForce GTX 1080では、パワーデリバリネットワークの設計を大幅に改良した。実装の概要はまだ明らかになっていないが、Maxwell世代のGTX 980と比べると、どの電力帯でも、Pascal世代のGTX 1080の方がパワーデリバリ効率が高くなっている。この改良は、電力効率の向上や動作周波数の向上に大きく影響している。地味なようだが、回路設計はプロセッサの性能や電力を左右する重要な要素だ。

回路設計上の改良をスピーチでフィーチャするJen-Hsun氏

 ベールがはがれつつある、NVIDIAの新GPUアーキテクチャ Pascalのグラフィックス版。予想を超えた機能を盛り込んだGPUとなりそうだ。

(後藤 弘茂 (Hiroshige Goto)E-mail