ニュース

NVIDIA、Volta世代の「Tesla V100」投入。V100版のDGX/DGX Stationを第3四半期に出荷

~トヨタに自動運転向けソリューションの提供も発表

Tesla V100を手に持つジェンスン・フアン氏

 米NVIDIAは5月8日~11日(現地時間)にわたり、同社のGPUを利用した製品を開発している開発者向けのイベントGTC(GPU Technology Conference)2017を開催している。3日目となる5月10日には、同社の創始者 兼 CEO ジェンスン・フアン氏の基調講演が行なわれ、同社の新しいソリューションなどについての説明がなされた。

VR世界へユーザーが参加できる「Project Holodeck」は9月から早期アクセス

 もはやトレードマークとなりつつある革ジャン姿で登場したフアン氏は、同社の基調講演を「ムーア法則後の世界」と書かれたスライドから始めた。

 フアン氏は「トランジスタを増やして性能を上げていくというアプローチは徐々にエネルギー効率の観点から限界が近づいている。実際、CPUの性能は年率10%程度でしか伸びていない。しかし、GPUは年率50%を越えている」と述べ、GPUの性能向上が著しいため、科学演算やディープラーニングのように極端に演算性能が必要な場合にはCPUからGPUへのオフロードという流れが定着していると指摘した。

ムーアの法則後
CPUは年率10%でしか伸びていないのに、GPUは年率50%の向上
GPUコンピューティングの興隆

 そのため、GPUを利用して汎用演算を行なう同社のCUDAが普及しており、多くのユーザーがそうした恩恵を受けているとした。それに合わせてGTCの参加者も増えており、2012年に比べて参加者数は3倍になり、GPUの開発者やCUDAのダウンロードも増えているという。

 フアン氏が1番最初に紹介した「Project Holodeck」は、同社のIRAYで描画された写真品質のVR映像の中に、ユーザーの分身が入り込んで操作したりするという仕組みのもの。

Project Holodeck、ユーザーがVRの世界に入り込むイメージ

 デモでは、自動車の3D CADデータをもとに作られた自動車にユーザーの分身が乗り込んだり、周りからその自動車を見たりという様子が表示された。これが実現すると、自動車のディーラーなどで、家族3人がVR HMDを使い、同じVR自動車に乗り込んで様子を確認するといった使い方が可能になる。フアン氏によれば、Project Holodeckは9月から早期アクセスが開始される予定。

 また、レイトレーシング(光や影を実際の物理世界と同じように描画する方式)に、ディープラーニングによるAI(人工知能)を利用して、よりリアルな光や影などを表示するというデモも行なわれた。

AIの進展
AIを利用したレイトレーシング

Pascalよりもさらにディープラーニングに最適化したVoltaを採用する「Tesla V100」

 続いて、現在のNVIDIAが注力している、ディープラーニングの手法を活用したAIの話へと移っていった。フアン氏は「ディープラーニングを学ぶ学生が増えているなど、ディープラーニングに注目が集まっている。ディープラーニングはコンピューティングを民主化する。これからは誰もが自分のデータをもって、コンピュータを鍛えることができる」と述べ、ディープラーニングを活用したAIが普及することで、新しいコンピュータの形ができるとする。

ディープラーニングの普及でコンピューティングの民主化が進展

 フアン氏は「NVIDIAではハードウェアだけでなく、ソフトウェアSDKも含めて提供している。どのディープラーニングのフレームワークもサポートしており、高い性能を発揮する」と述べ、NVIDIAのGPUがディープラーニングの各種ソフトウェアを開発する上で最高のプラットフォームだとアピールした。

 その具体的な例として、ドイツの企業向け業務システムを提供しているSAPとの提携にふれ、SAPがエンタープライズ向けに提供しているAIが、同社のDGX-1で実現されていることなどを紹介した。

SAPもAIを導入
AIに必要とされる性能は年々上がっている

 そして、ディープラーニングを利用したAIを実現するにはまだまだ処理能力が足りていないとして、同社の新しい製品となる「Tesla V100」を発表した。

 Tesla V100は、同社が開発コードネーム“Volta”と呼んできた新世代アーキテクチャで、5,120基のCUDAコアを搭載している。20MBのSM RF、16MBのキャッシュ、さらには16GBのHBM2メモリをインターポーザー上に搭載しており、メモリの帯域幅は900GB/sに達する。

 さらに、第2世代のNVLinkを搭載しており、帯域幅は300GB/sを実現。TSMCの12nmプロセスルールで製造され、ダイサイズは815平方mmと、Apple Watchとほぼ同じ表面積だという。フアン氏によれば、FP64で7.5TFLOPS、FP32で15TFLOPSの演算性能を備えているという。

Tesla V100のスペック
Tesla V100

 また、フアン氏は「Tesla V100は、新しいCUDA TensorOp命令セットとデータフォーマットに対応している。それによりディープラーニングに最適化されている」と述べ、Volta世代がPascal世代よりもさらにディープラーニングに最適化したものであると述べた。そうした最適化により、Pascal世代と比較して、汎用のFLOPSでは1.5倍に、ディープラーニングの学習目的のTensor FLOPSでは12倍に、ディープラーニングの推論のためのTensor FLOPSでは6倍になっているとした。

Tensor Core
Tesla V100の性能

 その後、スクエアエニックスが作成したFinal Fantasy XVのデモや銀河のシミュレーションなどをフアン氏は公開した。

スクウェア・エニックスのFinal Fantasy XVのデモ
銀河のシミュレーション
AI画家のデモ
各種のディープラーニングフレームワークでのVoltaの性能
Amazonが同社のAIでのGPUの活用を説明

お値段据え置きで、移行期間に購入したユーザーにはフリーアップグレードも提供されるVolta版DGX-1

 その後フアン氏は、Tesla V100を利用したNVIDIAのサーバーアプライアンスの製品群に関して説明した。初めに昨年(2016年)のGTCでPascalベースのTesla P100を8つ搭載したHPCとして注目を集めた「DGX-1」が紹介され、フアン氏はそのVolta版となる「DGX-1 with Tesla V100」を紹介した。

DGX-1 with Tesla V100

 これは、DGX-1に搭載されていた8つのTesla P100を、8つのTesla V100に置き換えた製品。そのため、基本的な仕様は同じになる。「DGX-1 with Tesla V100は今日から予約を開始する。これから注文したユーザーにはPascalベースの製品をお届けし、Voltaが供給できるようになり次第Tesla V100版に無償アップグレードする」と述べた。Voltaベースの製品は第3四半期以降に供給が行なわれる見込みだ。

 NVIDIAの関係者によれば、その無償アップグレードで引き取られるPascal版のDGX-1は、NVIDIA社内で使われることになるそうで、同社内でもDGX-1のニーズはかなり高いとのことだが、顧客優先で出荷しているため、なかなか社内に行き渡っていない状況だという。このため、こうしたキャンペーンをしても問題ないとのことだった。

 なお、DGX-1 with Tesla V100の価格は149,000ドル(日本円で約1,699万円、1ドル=114円換算)と、昨年のDGX-1から据え置きになっている。

 そして、新モデルとして「DGX STATION」を発表した。DGX STATIONは廉価版DGXという位置づけで、DGX-1 with Tesla V100に8個のTesla V100が搭載されているのに対し、こちらは4個になっており、最大1,500Wの電力で動き、水冷方式で冷却されるという。

 フアン氏は「スタートアップや個人のプログラマ向けのDGXだ」と表現したが、値段は69,000ドル(日本円で約786万円、1ドル=114円換算)でDGX-1の半額以下と確かにお買い得とも言えるが、個人で買うにはかなり厳しい。こちらも第3四半期からの出荷が予定されている。また、クラウド用のHGX-1のTesla V100版となるHGX-1 with Tesla V100も同時に発表されている。

DGX STATION
HGX-1 with Tesla V100
HGXの顧客としてMicrosoftが登壇

 また、PCI Expressカード形式のボードも発表されており、「FHHL(Full Height, Half-Length、高さはフルサイズだが、カードの長さはハーフサイズ)」形式のボードとして提供される。フアン氏は「ディープラーニングの推論をTesla V100で行なえば、これからIntelがリリースするSkylake(筆者注:2S用のSkylake-EPのことを指していると思われる)と比較して15~25倍になる」と述べ、ディープラーニングの推論に最適だとした。

ディープラーニングの推論に便利なTensorRT
推論向けのTesla V100のPCI Expressカード版、FHHL
IntelのSkylake-EPの予想性能との比較を紹介

 フアン氏は「我々はソフトウェア開発者向けに各種のSDKを提供しているが、扱いが難しいという開発者も少なくない。そこで、NVDockerというコンテナ化した形にし、クリックするだけで簡単に開発に入れるようにする」と述べ、Dockerとして開発環境を提供していくことで、ディープラーニングを利用したAIソフトウェアの開発をもっと容易にしていくと説明した。

NVIDIA GPU Cloud
GPUを利用したディープラーニングの性能は毎年向上している

トヨタ自動車に自動運転のソリューションを提供する、XavierにはDLAが搭載されていることを発表

 最後のパートでフアン氏は、エッジ側(クラウドに対するクライアント側のこと)のAIについても触れた。これまで主にAIと言えば、クラウド側の学習だったり、推論だったりが主な話題だったのだが、徐々にエッジ側のAIについても注目が集まりつつある。

 そのなかでも、自動運転のソリューションに関心が高まっており、すでにアウディやメルセデスで採用が決まっているNVIDIAの自動運転ソリューションは、半導体メーカーからだけでなく自動車メーカーからもおおいに注目されている存在だ。

エッジ側のAIにも注目が集まっている
AIにより交通システムは変わりつつある

 NVIDIAのDRIVE PXは、自動運転を実現するコンピューティングボードで、開発コードネーム「Parker」というPascal世代のGPUを採用した製品がメーカーに出荷されている。NVIDIAがそのParkerの後継として計画しているのが「Xavier(エグゼビア)」で、昨年ヨーロッパで行なわれたGTCで発表された製品だ。

 今回フアン氏はそのXavierの新しい情報として、「XavierにはDLAというアクセラレータを搭載している。これは画像認識に特化したアクセラレータになる」と明らかにした。自動運転車の場合、自動車に搭載されているカメラを利用して、画像認識を行ない、周囲の物体などを常に判別しておく必要がある。

NVIDIAのDRIVE PX、今後Xavierが導入される
NVIDIAの自動運転に向けた開発
Xavierに搭載されているDLAのソフトウェアはオープンソースとして公開される

 現在は、Intelが買収したMobileye社が提供しているカメラモジュールのように、カメラと画像認識を行なう専用の半導体がセットになっているが、将来的にはそれがSoCに搭載されているCPUなりGPUなりで行なわれるようになると考えられている。

 画像認識を行なうには、ディープラーニングの推論をSoCのGPUで行なわないとならないのだが、その場合は消費電力が大きくなってしまったり、ほかのAI的な処理に性能が足りなくってしまう可能性がある。このため、DLAのような専用のアクセラレータを搭載して、ディープラーニングの推論を行なうというのは、消費電力を抑える観点でも、性能の観点でも意味がある。

 また、フアン氏はGTCで注目の発表を行なった。それが日本最大の自動車メーカーで、グローバルでもドイツのVWグループと常に1位の座を争っているトヨタ自動車との提携だ。フアン氏は「トヨタ自動車がDRIVE PXを採用し、今後数年で自動運転車を開発する」と述べ、会場からは割れんばかりの大きな拍手が起こった。

トヨタが自動運転向けのソリューションとしてNVIDIAを選択

 最後にフアン氏は、ロボットに話題を移し、「ISAAC」(アイザック)というロボットの学習シミュレータを紹介した。ロボットの学習とは、ロボットのAIが動作を覚える学習の過程をシミュレーションするもので、これを利用して学習を行ない、そのデータを物理ロボットに移せば開発時間を短縮できると紹介した。

ロボットの学習シミュレーションISAAC
最後に講演を振り返って終了