ニュース

リアルタイムレイトレーシングがゲームグラフィックスのスタンダードに

~GTC 2018 Japanレポート

NVIDIA創業者兼CEO ジェンスン・フアン氏

 NVIDIAは、9月13日、都内にて「GPU Technology Conference 2018 Japan (GTC 2018 Japan)」を開催した。

 基調講演には、NVIDIA創業者兼CEOのジェンスン・フアン氏が登壇。本稿ではその模様と、新発表の内容についてお伝えする。

ムーアの法則の終焉とコンピューティングの拡張

 フアン氏は、ムーアの法則の終わりを超えてコンピューティングを拡張するには、アプリケーションとフルスタックコンピューティングの専門知識が必要だと述べ、この課題を解決するために、同社はアクセラレーテッドコンピューティングという分野を開拓し、スタック全体の最適化によって、10年で1,000倍の性能を達成したとアピールした。

 同社の市場は、ゲーミングやプロフェッショナルビジュアライゼーション、HPCに加えて、AI、輸送、ロボティクス、ヘルスケア、AI IoTと多岐に渡る。

 製品としては、単体カードであるGTX/RTX、HPC用途のHGX、クラウド向けのHGXと複数のシステムラインがあるが、同氏は、すべてが単一のアーキテクチャであることが大きな特徴であると述べ、同社ではハードウェアとソフトウェアを同時に設計しており、最適化されたソフトはDockerコンテナとしてNVIDIA GPU Cloudで配布され、任意のNVIDIAサーバーで実行できるとアピールした。

10年ごとに1,000倍に向上したアクセラレーテッドコンピューティング
システムラインによらず共通のアーキテクチャを採用する

AIがソフトウェアを書く時代が到来する

 AIについては、コンピュータ業界を大きく変えるものと述べ、ソフトウェア開発に革新をもたらし、将来的にソフトウェアの多くはAI(コンピュータ)によって書かれるだろうとの考えを述べた。

 ソフトウェアエンジニアは、ニューラルモデルを作って学習戦略を策定し、モデルを訓練するためスパコンを使うといった存在へ変化するとともに、ソフトウェア開発企業も、エンジニアのためにスパコンを必要とする時代が到来するとした。

将来にはAIがソフトウェアを書く時代が到来し、ソフトウェア開発企業はエンジニアのためにスパコンを必要とするようになる
AIによって、白黒写真を着色したり、リアルな合成、髪色なリアルタイムな変更、2Dイメージから3Dモデルを生成するといった、驚きのソフトが実現
マイケル・ジャクソンのダンスをフアン氏に適用したデモ
AIだけではない、CUDAによるGPUコンピューティングの幅広い採用

レイトレーシングはコンピュータグラフィックスの“聖杯”

 近年では、同社はAIや自動運転などの分野で注目を浴びることが多いが、一番の柱はコンピュータグラフィックスの分野である。

 フアン氏は、光線単位で光を計算する「レイトレーシング」は、コンピュータグラフィックスにとっての“聖杯”であると述べ、10年の開発を経て、リアルタイムレイトレーシングを実現する新グラフィックスアーキテクチャ“Turing”を採用する「NVIDIA RTX」を発表したと説明。

 RTXは、フォトリアルな画像を生成するラスタライズと、リアルタイムレイトレーシング、深層学習とCUDA演算を組み合わせた、ハイブリッドなレンダリングアプローチであると述べ、「Quadro RTX」について、世界初のレイトレーシングGPUであると紹介。

 RTX登場以前から、すでに映画やTV、製品デザインやスタイリング、建築デザイン、製品カタログの製作者などは、レイトレーシングとラスタライゼーションを組み合わせたハイブリッドレンダリングで、フォトリアルなレンダリングを行なっている。そのレンダリングには、これまでは大規模なCPUレンダーファームが利用されてきたが、Quadro RTXを使ったGPUレンダリングサーバーなら、レンダリング時間を数時間から数分まで短縮でき、60倍も高速であるとした。

 結果、RTXによってインフラ費用の削減と同時に、時間短縮でアーティストがより多くの反復作業が可能になると語り、RTXはGPUサーバーの新たな市場を産むとアピールした。

レイトレーシングは“コンピュータグラフィックスの聖杯”
リアルタイムレイトレーシングを実現するQuadro RTX
Quadro RTXによってGPUレンダリングサーバーならCPUレンダーファームで数時間かかっていたフォトリアルレンダリングを数分に短縮できる
RTXによるリアルタイムレイトレーシングデモ「Project Sol」

 ゲーミング向けのGPUである「GeForce RTX」については、「過去十年で最大の飛躍」とアピール。ラスタライズとレイトレーシング、深層学習を組み合わせ、グラフィックスを再創造するとした。

 最上位のRTX 2080 Tiでは、CUDAコアで14TFLOPSの単精度浮動小数点演算、Tensorコアで114TFLOPSの機械学習演算性能を実現。新搭載されたRTコアによって、リアルタイムレイトレーシングを実現するとともに、深層学習を活用したスーパーサンプリング手法「DLSS (Deep Learning Super Sampling)」による、さらなる高画質の実現もアピール。

 Turingでは、性能とエネルギー効率を高次元で実現し、シェーダを利用した場合、Pascal比で1.5倍高速で、4K HDRでのゲームプレイを60Hzで楽しめるとした。

GeForce RTX
Turingでは4K HDRのゲームで60fps動作を実現し、シェーダ利用時ならPascal比で1.5倍高速。114TFLOPSのTensorコアで、深層学習を活用した「DLSS (Deep Learning Super Sampling)」に対応。レイトレーシングはMicrosoftのDXR(DirectX Raytracing)、Unreal Engine、OpenGL Vulcanなど主要なレンダラに対応
レイトレーシングデモ

 プレス向けの質疑応答でフアン氏は、現在のラスタライゼーションによる光処理は、コンピューティングの都合に合わせたものであり、レイトレーシングと異なり“自然な光”ではなく、ずっとレイトレーシングによる「正しい光」の実現を描いていたと回答。

 ただし、レイトレーシングは非常に計算負荷が高く、今回RTX 2080 Tiで実現した10億レイの演算をCUDAコアで行なうには、10TFLOPSが必要になると説明し、RTXに至るまではリアルタイムには実現できるものではなかったとアピールした。

 しかし、それだけの演算能力が必要となるのであれば、RTX以外にもプラットフォームが存在するゲーム業界において、マルチプラットフォーム対応が当然になりつつあるなか、レイトレーシングがスタンダードな技術となるのだろうかという疑問が生じる。

 これに対してフアン氏は、今年にもスタンダードになると回答した。レイトレーシング対応は拡張機能のようなもので、ゲームの対応も容易だとの回答で、レイトレーシングと現行のラスタライゼーションは排他的な関係ではなく、(ゲームをレイトレーシングに対応させた上で、)レイトレーシングが使えないプラットフォームなら、従来どおりラスタライゼーションで描画すれば良いだけ、というわけだ。

 同氏の言うように、ゲームへの実装が容易であるならば、ゲーム開発者もよりリアルな映像を実現できるレイトレーシング対応に対して、さらなる意欲を示していくだろう。まさにRTXは文字通りゲームチェンジャーとなる可能性を秘めており、目を離せない分野になりそうだ。

世界最大のGPU、DGX-2

 つづいて基調講演では、AIやHPC、ビッグデータ解析向けに設計されたシステム「DGX-2」を紹介。

 フアン氏は、DGX-2について「世界最大のGPU」と紹介し、16基のTesla V100をNVLinkで相互接続することで、2PFLOPSの処理性能と、512GBという広大な仮想メモリ空間を持った単一ノードであるとアピール。

 このHBM2の512GBのメモリは、計16TB/sという超広帯域を持ち、通常のサーバーの40倍に相当するとした。筐体内には、内部には8基のTesla V100を搭載したシステムが2枚組み込まれ、相互に接続されている。

 DGX-2は、富士フイルムがヘルスケアや高機能材料開発などの研究開発目的に国内初導入し、複数台でコンピューティングクラスタを構築するという。

 そのほか、国内パートナーとしては、NTTの人工知能イニシアティブ「corevo」の共通プラットフォームとして、Tesla V100ベースで開発基盤を構築する予定であることが明かされた。

DGX-2
左がDGX-2
搭載するボード
世界をリードするAIプラットフォーム
HPCやAI関連の国内パートナー

RTコア搭載のTesla T4と推論処理のハイパースケール化

 フアン氏は、ニューラルネットワークのトレーニング結果は、モデルという形で出力されるが、それは大量の数式とアルゴリズムからなる、人間には解読できないほど複雑で巨大なプログラムであると述べ、AI開発が活発な現在、モデルを低遅延に高スループットで実行できる環境が求められていると述べ、そのための推論処理アクセラレータ「Tesla T4」を発表した。

 CUDAコア2,560基と、Tensorコア320基を搭載。Tensorコアは多精度の演算に対応し、1クロックで4×4行列の積和演算を行ない、FP16の掛け算はFP32に積算、INT8およびINT4の掛け算はINT32に積算される。これによって最適な精度と性能が得られるという。

 消費電力は75Wで、FP16で65TFLOPSと、Pascal世代比で最大12倍の性能向上を果たしているという。すでに量産体制に入っていることも明らかにされた。

 Tesla T4は、推論処理のハイパースケール化を目標としており、ライブラリとコンパイラの高速化に加えて求められる、強力なプロセッサとして設計されている。

 同氏は、学習ネットワークアーキテクチャのサイズや複雑さ、多様さから、推論処理にハイパースケーラビリティを持たせるには、洗練された最適化コンパイラが必要になると説明。

 TensorRTでは、CNNやRNN、MLP、NCFなどカスタマイズモデルを最適化。TensorFlowやCaffe 2、ONNXをサポートし、あらゆるCUDA GPUとTensorコアGPUを最適化するとアピールし、Tesla T4に対応したTensorRT 5を発表した。

Tesla T4
複数精度での演算に対応
Pascal比で最大12倍高速
TensorコアをサポートしたTensorRT 5

 16基のTeslaT4を搭載した「QuantaGRID」では、世界初の1PFLOPSの推論処理を持った4Uサーバーになると紹介した。

QuantaGRID
CPUを200個搭載した60kWのデータセンター
同じ処理をQuantaGRIDなら5ラックかつ2kWで処理できる

 ハイパースケールの実現のため、同社では「TensorRTハイパースケール」も提供する。

 NVIDIA GPUが、ワークロードをオーケストレーションしてサービス品質を最適化し、利用率を最大化する「Kubernotes」に対応しているが、TensorRT 4とTesla P4では、GPUあたり1つのモデルしか実行できないという問題があり、実際のサービス利用では、ワークロードは常に変動するため、複数のモデルが実行できる環境が求められていた。

 フアン氏は、TensorRTハイパースケールでは、Kubernotesスタックに最適化され、推論サーバーは1つのGPUノードで異なるフレームワークの複数タイプを並列に実行できるようになっていると説明し、大きなブレークスルーであるとアピールした。

TensorRTハイパースケール
1つのGPUノードで異なるフレームワークの複数タイプを並列に実行できる
Tensorコア搭載のTesla T4とTensorRT 5、TensorRTハイパースケールからなる推論プラットフォーム

XavierとAGXプラットフォーム

 つづいて、フアン氏は自律動作マシン向けのプロセッサ「Xavier」を紹介。

 これは自律AIシステム向けに設計された初のSoCで、30Wの消費電力で秒間100兆回以上のオペレーションを実行できるとした。

 同氏は、Xavierは新たなラインのシステム「NVIDIA AGX」で提供されることを発表し、乗用車やトラック/タクシー、配達ロボットのほか、医療機器業界向けの次世代イメージングコンピュータ、スマート都市などを補助するAI IoTシステムなどの多くの大規模産業に向けて、特定アプリケーションのフルスタックプラットフォームを構築するとした。

 「NVIDIA DRIVE」は、運輸交通産業に自律運転車を提供する、フルスタックオープンプラットフォームで、最高レベルの機能安全技術や方法論が組み込まれるという。AGXのスケーラビリティによって、複数の深層学習モデルとアルゴリズムを並列実行できるとした。

 DRIVEの開発チームは、DGXで約20の深層学習モデルを、15PBに達する巨大な収集データで学習させており、2019年には100PBに達する予定だという。

 シミューレーションシステム「DRIVE Sim」とインフラストラクチャ「Constellation」は、3Dシミュレーションをハードウェアインザループを用いて行ない、DRIVE Simもオープンプラットフォームであり、センサーやワールドモデル、シナリオ、車両挙動などのプラグイン機能を備える。

 国内でも大型プロジェクトにパートナーと取り組んでいると説明し、トヨタはAGX Xavier採用の自動車を2020年に生産開始するほか、いすゞではトラック運転支援のためDrive AGXを採用することを発表した。

 同社は、DRIVEソフトウェア2.0、CUDAとTensorRTのフルサポート、OTAに対応した「Drive AGX Xavier」の開発者キットを10月1日より発売する。

Xavier
NVIDIA AGX
NVIDIA DRIVE
シミュレータ
DRIVE AV
国内パートナー
世界のパートナー
Drive AGX Xavier
実物

 自律動作マシン開発環境「ISAAC」と汎用AGXである「Jetson AGX Xavier」についても紹介。詳細は別記事(@@linkhttps://pc.watch.impress.co.jp/docs/news/1142755.html|ヤマハ、NVIDIAと協業し自律動作の農作業車/ヘリ/ボートなどを開発へ@@)を参照されたい。

NVIDIA ISAAC
デモ
ISAAC GEMS
ヤマハ発動機がJetson AGX Xavierを採用
ロボティクスやAI IoT分野の国内パートナー
Jetson AGX Xavierの開発キットは今日からオーダー可能に
実物

 医療画像機器分野では、「Clara AGX」を提供。

 医用画像業界は全世界で1,000億ドルの市場規模があり、従来はGPUとGPU、FPGAを組み合わせて作っていた医用画像機器を、Clara AGXなら1つのチップで構成可能で、コストとサイズ、消費電力を削減するとアピール。

 医用画像機器は、高速センサーI/O、センサー信号処理、画像再構成、可視化という処理パイプラインで構成されるが、Clara AGXで可視化の前にAIのパワーを組み込めるとした。

CPUとGPUとFPGAの組み合わせだった
Clara AGXで1チップに
発表されたNVIDIAの新プラットフォーム群
基調講演最後はブルース・リーのヌンチャク捌きをトレースしたフアン氏が上映