ニュース
リアルタイムレイトレーシングがゲームグラフィックスのスタンダードに
~GTC 2018 Japanレポート
2018年9月13日 23:06
NVIDIAは、9月13日、都内にて「GPU Technology Conference 2018 Japan (GTC 2018 Japan)」を開催した。
基調講演には、NVIDIA創業者兼CEOのジェンスン・フアン氏が登壇。本稿ではその模様と、新発表の内容についてお伝えする。
ムーアの法則の終焉とコンピューティングの拡張
フアン氏は、ムーアの法則の終わりを超えてコンピューティングを拡張するには、アプリケーションとフルスタックコンピューティングの専門知識が必要だと述べ、この課題を解決するために、同社はアクセラレーテッドコンピューティングという分野を開拓し、スタック全体の最適化によって、10年で1,000倍の性能を達成したとアピールした。
同社の市場は、ゲーミングやプロフェッショナルビジュアライゼーション、HPCに加えて、AI、輸送、ロボティクス、ヘルスケア、AI IoTと多岐に渡る。
製品としては、単体カードであるGTX/RTX、HPC用途のHGX、クラウド向けのHGXと複数のシステムラインがあるが、同氏は、すべてが単一のアーキテクチャであることが大きな特徴であると述べ、同社ではハードウェアとソフトウェアを同時に設計しており、最適化されたソフトはDockerコンテナとしてNVIDIA GPU Cloudで配布され、任意のNVIDIAサーバーで実行できるとアピールした。
AIがソフトウェアを書く時代が到来する
AIについては、コンピュータ業界を大きく変えるものと述べ、ソフトウェア開発に革新をもたらし、将来的にソフトウェアの多くはAI(コンピュータ)によって書かれるだろうとの考えを述べた。
ソフトウェアエンジニアは、ニューラルモデルを作って学習戦略を策定し、モデルを訓練するためスパコンを使うといった存在へ変化するとともに、ソフトウェア開発企業も、エンジニアのためにスパコンを必要とする時代が到来するとした。
レイトレーシングはコンピュータグラフィックスの“聖杯”
近年では、同社はAIや自動運転などの分野で注目を浴びることが多いが、一番の柱はコンピュータグラフィックスの分野である。
フアン氏は、光線単位で光を計算する「レイトレーシング」は、コンピュータグラフィックスにとっての“聖杯”であると述べ、10年の開発を経て、リアルタイムレイトレーシングを実現する新グラフィックスアーキテクチャ“Turing”を採用する「NVIDIA RTX」を発表したと説明。
RTXは、フォトリアルな画像を生成するラスタライズと、リアルタイムレイトレーシング、深層学習とCUDA演算を組み合わせた、ハイブリッドなレンダリングアプローチであると述べ、「Quadro RTX」について、世界初のレイトレーシングGPUであると紹介。
RTX登場以前から、すでに映画やTV、製品デザインやスタイリング、建築デザイン、製品カタログの製作者などは、レイトレーシングとラスタライゼーションを組み合わせたハイブリッドレンダリングで、フォトリアルなレンダリングを行なっている。そのレンダリングには、これまでは大規模なCPUレンダーファームが利用されてきたが、Quadro RTXを使ったGPUレンダリングサーバーなら、レンダリング時間を数時間から数分まで短縮でき、60倍も高速であるとした。
結果、RTXによってインフラ費用の削減と同時に、時間短縮でアーティストがより多くの反復作業が可能になると語り、RTXはGPUサーバーの新たな市場を産むとアピールした。
ゲーミング向けのGPUである「GeForce RTX」については、「過去十年で最大の飛躍」とアピール。ラスタライズとレイトレーシング、深層学習を組み合わせ、グラフィックスを再創造するとした。
最上位のRTX 2080 Tiでは、CUDAコアで14TFLOPSの単精度浮動小数点演算、Tensorコアで114TFLOPSの機械学習演算性能を実現。新搭載されたRTコアによって、リアルタイムレイトレーシングを実現するとともに、深層学習を活用したスーパーサンプリング手法「DLSS (Deep Learning Super Sampling)」による、さらなる高画質の実現もアピール。
Turingでは、性能とエネルギー効率を高次元で実現し、シェーダを利用した場合、Pascal比で1.5倍高速で、4K HDRでのゲームプレイを60Hzで楽しめるとした。
プレス向けの質疑応答でフアン氏は、現在のラスタライゼーションによる光処理は、コンピューティングの都合に合わせたものであり、レイトレーシングと異なり“自然な光”ではなく、ずっとレイトレーシングによる「正しい光」の実現を描いていたと回答。
ただし、レイトレーシングは非常に計算負荷が高く、今回RTX 2080 Tiで実現した10億レイの演算をCUDAコアで行なうには、10TFLOPSが必要になると説明し、RTXに至るまではリアルタイムには実現できるものではなかったとアピールした。
しかし、それだけの演算能力が必要となるのであれば、RTX以外にもプラットフォームが存在するゲーム業界において、マルチプラットフォーム対応が当然になりつつあるなか、レイトレーシングがスタンダードな技術となるのだろうかという疑問が生じる。
これに対してフアン氏は、今年にもスタンダードになると回答した。レイトレーシング対応は拡張機能のようなもので、ゲームの対応も容易だとの回答で、レイトレーシングと現行のラスタライゼーションは排他的な関係ではなく、(ゲームをレイトレーシングに対応させた上で、)レイトレーシングが使えないプラットフォームなら、従来どおりラスタライゼーションで描画すれば良いだけ、というわけだ。
同氏の言うように、ゲームへの実装が容易であるならば、ゲーム開発者もよりリアルな映像を実現できるレイトレーシング対応に対して、さらなる意欲を示していくだろう。まさにRTXは文字通りゲームチェンジャーとなる可能性を秘めており、目を離せない分野になりそうだ。
世界最大のGPU、DGX-2
つづいて基調講演では、AIやHPC、ビッグデータ解析向けに設計されたシステム「DGX-2」を紹介。
フアン氏は、DGX-2について「世界最大のGPU」と紹介し、16基のTesla V100をNVLinkで相互接続することで、2PFLOPSの処理性能と、512GBという広大な仮想メモリ空間を持った単一ノードであるとアピール。
このHBM2の512GBのメモリは、計16TB/sという超広帯域を持ち、通常のサーバーの40倍に相当するとした。筐体内には、内部には8基のTesla V100を搭載したシステムが2枚組み込まれ、相互に接続されている。
DGX-2は、富士フイルムがヘルスケアや高機能材料開発などの研究開発目的に国内初導入し、複数台でコンピューティングクラスタを構築するという。
そのほか、国内パートナーとしては、NTTの人工知能イニシアティブ「corevo」の共通プラットフォームとして、Tesla V100ベースで開発基盤を構築する予定であることが明かされた。
RTコア搭載のTesla T4と推論処理のハイパースケール化
フアン氏は、ニューラルネットワークのトレーニング結果は、モデルという形で出力されるが、それは大量の数式とアルゴリズムからなる、人間には解読できないほど複雑で巨大なプログラムであると述べ、AI開発が活発な現在、モデルを低遅延に高スループットで実行できる環境が求められていると述べ、そのための推論処理アクセラレータ「Tesla T4」を発表した。
CUDAコア2,560基と、Tensorコア320基を搭載。Tensorコアは多精度の演算に対応し、1クロックで4×4行列の積和演算を行ない、FP16の掛け算はFP32に積算、INT8およびINT4の掛け算はINT32に積算される。これによって最適な精度と性能が得られるという。
消費電力は75Wで、FP16で65TFLOPSと、Pascal世代比で最大12倍の性能向上を果たしているという。すでに量産体制に入っていることも明らかにされた。
Tesla T4は、推論処理のハイパースケール化を目標としており、ライブラリとコンパイラの高速化に加えて求められる、強力なプロセッサとして設計されている。
同氏は、学習ネットワークアーキテクチャのサイズや複雑さ、多様さから、推論処理にハイパースケーラビリティを持たせるには、洗練された最適化コンパイラが必要になると説明。
TensorRTでは、CNNやRNN、MLP、NCFなどカスタマイズモデルを最適化。TensorFlowやCaffe 2、ONNXをサポートし、あらゆるCUDA GPUとTensorコアGPUを最適化するとアピールし、Tesla T4に対応したTensorRT 5を発表した。
16基のTeslaT4を搭載した「QuantaGRID」では、世界初の1PFLOPSの推論処理を持った4Uサーバーになると紹介した。
ハイパースケールの実現のため、同社では「TensorRTハイパースケール」も提供する。
NVIDIA GPUが、ワークロードをオーケストレーションしてサービス品質を最適化し、利用率を最大化する「Kubernotes」に対応しているが、TensorRT 4とTesla P4では、GPUあたり1つのモデルしか実行できないという問題があり、実際のサービス利用では、ワークロードは常に変動するため、複数のモデルが実行できる環境が求められていた。
フアン氏は、TensorRTハイパースケールでは、Kubernotesスタックに最適化され、推論サーバーは1つのGPUノードで異なるフレームワークの複数タイプを並列に実行できるようになっていると説明し、大きなブレークスルーであるとアピールした。
XavierとAGXプラットフォーム
つづいて、フアン氏は自律動作マシン向けのプロセッサ「Xavier」を紹介。
これは自律AIシステム向けに設計された初のSoCで、30Wの消費電力で秒間100兆回以上のオペレーションを実行できるとした。
同氏は、Xavierは新たなラインのシステム「NVIDIA AGX」で提供されることを発表し、乗用車やトラック/タクシー、配達ロボットのほか、医療機器業界向けの次世代イメージングコンピュータ、スマート都市などを補助するAI IoTシステムなどの多くの大規模産業に向けて、特定アプリケーションのフルスタックプラットフォームを構築するとした。
「NVIDIA DRIVE」は、運輸交通産業に自律運転車を提供する、フルスタックオープンプラットフォームで、最高レベルの機能安全技術や方法論が組み込まれるという。AGXのスケーラビリティによって、複数の深層学習モデルとアルゴリズムを並列実行できるとした。
DRIVEの開発チームは、DGXで約20の深層学習モデルを、15PBに達する巨大な収集データで学習させており、2019年には100PBに達する予定だという。
シミューレーションシステム「DRIVE Sim」とインフラストラクチャ「Constellation」は、3Dシミュレーションをハードウェアインザループを用いて行ない、DRIVE Simもオープンプラットフォームであり、センサーやワールドモデル、シナリオ、車両挙動などのプラグイン機能を備える。
国内でも大型プロジェクトにパートナーと取り組んでいると説明し、トヨタはAGX Xavier採用の自動車を2020年に生産開始するほか、いすゞではトラック運転支援のためDrive AGXを採用することを発表した。
同社は、DRIVEソフトウェア2.0、CUDAとTensorRTのフルサポート、OTAに対応した「Drive AGX Xavier」の開発者キットを10月1日より発売する。
自律動作マシン開発環境「ISAAC」と汎用AGXである「Jetson AGX Xavier」についても紹介。詳細は別記事(@@linkhttps://pc.watch.impress.co.jp/docs/news/1142755.html|ヤマハ、NVIDIAと協業し自律動作の農作業車/ヘリ/ボートなどを開発へ@@)を参照されたい。
医療画像機器分野では、「Clara AGX」を提供。
医用画像業界は全世界で1,000億ドルの市場規模があり、従来はGPUとGPU、FPGAを組み合わせて作っていた医用画像機器を、Clara AGXなら1つのチップで構成可能で、コストとサイズ、消費電力を削減するとアピール。
医用画像機器は、高速センサーI/O、センサー信号処理、画像再構成、可視化という処理パイプラインで構成されるが、Clara AGXで可視化の前にAIのパワーを組み込めるとした。