イベントレポート

NVIDIAがTesla V100の32GB版を投入。AI性能10倍の16GPU搭載サーバーも

笠原一輝

2018年3月28日 02:19

NVIDIA「Tesla V100」

　NVIDIAは、AI/ディープラーニング(深層学習)関連のテクノロジイベント「GTC 2018」を、米国カリフォルニア州サンノゼ市にあるサンノゼコンベンションセンターにおいて3月26日～29日の4日間にわたり開催している。

　2日目の3月27日には同社CEOのジェンスン・フアン氏による基調講演が行なわれ、昨年(2017年)発表したAIデータセンター向けのGPUとなるTesla V100の32GB HBM2メモリ搭載版や、最大16GPUまでを相互接続可能にする「NVSwitch」、そして半精度(FP16)で2PFLOPSの性能を実現する「DGX-2」を発表した。

Tesla V100の32GB HBM2搭載版とNVSwitchで拡張性を改善

　Tesla V100は、Voltaアーキテクチャに基づく最初のダイとなるGV100をベースにしたAIデータセンター向けの製品。昨年の発表時点では16GBのHBM2を搭載した製品が投入されていたが、今回容量を32GBに倍増させた「Tesla V100 32GB GPU」として登場する。

　GPUのダイそのものには手が入っていないが、インフラ側では大きなアップデートが加えられた。

　従来GV100にはGPU間のインターコネクトとしてNVLinkが採用。それぞれのGPUに6レーン分のNVLinkが用意され、最大8基のGPUを相互接続できるようになっていた。

　今回サーバーあたりの演算効率を上げるために、NVLinkを拡張して、帯域幅を犠牲にしない専用のクロスバースイッチ(NVSwitch)が実装され、最大16基のGPUが相互接続できるようになった。

　1スイッチにつき18ポートのNVLinkをサポートしており、1つのポートあたり50GB/sの帯域幅をサポートする。複数のNVSwitch同士のカスケード接続も可能になっており、最大で16基のGPUを1つのサーバーに納めることが可能となる。

NVSwitch(中央)のダイヤグラム。周辺にあるのはGPU

NVSwitchのチップ写真

DGX-2では半精度の演算性能がDGX-1の倍の2PFLOPSに

「DGX-2」

　NVIDIAはXeonプロセッサを2つ、Tesla V100 32GB GPU、そしてNVSwitchでスケールアップした新しいAIデータセンター用サーバーとなる「DGX-2」を発表した。価格は39万9千ドル｡

　DGX-2には合計で16基のGPUが搭載されているが、これはGPU間がNVLinkを介して、NVSwitchと接続され、8基のGPU群に対して6基のNVSwitchで1クラスタ、NVSwitchのクロスバーでさらに1クラスタをつなぐことで実現している。

　DGX-2は、DGX-1のTesla V100搭載版の1PFLOPS(半精度)の倍となる2PFLOPS(同)を1サーバーで実現。GPUがTesla V100 32GB GPUにアップグレードされている。また、1つのシステム全体でシェアできるフレームバッファがDGX-1の128GBから4倍の512GBとなり、この点でも性能が強化されている。

　これにより、FAIRseq(Facebook Artificial Intelligence Research Seq)を利用した深層学習に要する時間は、DGX-1で20日間かかっていた時間が10倍高速化され、2日以下になるという。

【お詫びと訂正】初出時に精度の記述が誤っておりました。お詫びして訂正させていただきます。