ニュース

Maxwellの拡張ながら別方向へ進化した2つのPascal GPU

～GTC 2016 Japan、出展ブースにはTesla P100搭載機も多数

佐藤岳大

2016年10月7日 00:00

GPUロードマップ

　NVIDIAは5日、GPUを利用した開発者向け技術カンファレンス「GPU Technology Conference(GTC) Japan 2016」を開催した。

　本稿では、基調講演後のPascalアーキテクチャ採用のTelsa GPUなどについて解説が行なわれたセッションや、協賛企業による出展ブースの様子などを紹介する。米NVIDIAの共同創業者で、社長兼CEOを務めるジェンスン・ファン氏が登壇した基調講演の様子は既報を参照されたい。

　基調講演後の、「Pascal: 最新GPUアーキテクチャ」と題された、同社シニアデベロッパーテクノロジーエンジニアの成瀬彰氏によるセッションでは、Pascalアーキテクチャ採用のTesla GPUについて解説が行なわれた。

　Pascal世代のTesla P100やP40は、Kepler世代の「Tesla K80」やMaxwell世代の「Tesla M40」とは、Compute Capability(CC)のバージョンが異なるが、同じPascal世代の「Tesla P100」と「Tesla P40/P4」でもCCが異なる。成瀬氏は、「CCが異なるということは、できることも異なり、中身も違う」と解説。

　P100は「GP100」コア、Tesla P40/P4は「GP102」コアと、それぞれ搭載するコアが異なる。対応する演算も、P100がFP64(倍精度)/FP32(単精度)/FP16(半精度)に対応するのに対し、P40では単精度と、新たに追加されたINT8の2つのみとなる。

　成瀬氏は、「ともにMaxwellから拡張されたコアだが、それぞれ別の方向へ進化したもの」と述べ、CUDAコア数で比較すると、P100よりもP40の方が多いことを示し、「単精度に限って言えば、P40の方がピーク性能が高い」と明かした。

　P100のCUDAコア数が少ないのは、SM(Streaming Multiprocessor)あたりのコア数を、P40比で半分に減らしているため。しかし、SMあたりのレジスタの容量は変わっていない。成瀬氏は「CUDAコアは減らしながらレジスタ容量を維持したことで、レジスタの容量がネックになりやすいアプリでも性能を発揮できる点が(P100)のポイント」と述べていた。

　コアだけでなく、搭載するメモリもP100はHBM2、P40/P4ではGDDR5Xと異なる。P100は以前公開された情報では、最大帯域幅は720GB/sとされていたのだが、スライドでは732GB/sとなっていた。成瀬氏によれば、「動作クロックが上げられたため、製品版では最大732GB/sになっている」とのこと。

　加えて、P100はGPU間で直接通信が可能なインターコネクト「NVLink」に対応するのも特徴で、PCIe 3.0の双方向20.2GB/sに対し、NVLinkなら双方向36.9GB/sを実測値で達成したと高速性をアピール。

　成瀬氏は、「仕様を理解することで、製品をより活用して欲しい」としていた。

Kepler/Maxwell世代のTesla

Pascal世代のTesla GPU。P100はCC 6.0、P40/P4はCC 6.1

GP100

GP102

2つのPascal

SMの違い

演算能力

P100のメモリバンド幅

ECC対応

実行メモリバンド幅

NVLink対応

GPU間接続

対応CPUとも接続

GPU間転送の実測速度

　会場では、Tesla P100×8を搭載したNVIDIAの深層学習用スーパーコンピュータ「DGX-1」や、IBMがCPUにPower8を搭載し、Tesla P100とNVLinkで接続した製品、HPCシステムズがTesla P100 4基を搭載した製品を展示するなど、そのほかの企業からもTesla P100搭載製品が出展されていた。

DGX-1

8基のP100

作業をアシストするアクティブリンクのパワーローダー「MS-04」

IBMのPower8 CPU+P100のNVLink接続コンピュータ

HPCシステムズのP100×4搭載コンピュータ

ヒートシンク下にあるのがP100。DGX-1に比べると筐体が薄い

TJCがパートナーを務めるspin digital製HEVCデコーダのデモ。10bit/8K/60fpsに対応したソフトウェアデコーダで、デモ用PCにはQuadroを搭載

GeForce GTX 1080が採用されているアーケード版「電車でGo!!」の筐体も展示