ニュース

NVIDIA曰く、「たくさんGPUを買う=その分だけお金が節約できる」

~自動運転車はスマホ化へ。GTC Japan 2017基調講演レポート

米NVIDIA 創業者兼CEO ジェンスン・フアン氏

 NVIDIAは、東京・お台場にて「GTC (GPU Technology Conference) Japan 2017」を開催した。

 開催2日目となる13日に行なわれた基調講演には、同社の創業者兼CEOであるJensen Huang氏(ジェンスン・フアン氏)が登壇。同社の今後のビジョンなどについて語った。

 フアン氏は、5年前の2012年から、GTC参加者は10倍の22,000人に増加し、GPUコンピューティング開発者の数も15倍の約65万人、2016年のCUDAダウンロード数は5倍の200万まで増加し、大きな躍進を遂げたとアピール。

 GPUコンピューティングのためのCUDAは、10年を経て新たなコンピューティングプラットフォームとして確立されたとした。

GPUコンピューティングの躍進

 そもそも、GPUにとっての原動力は、コンピュータグラフィックス(CG)であると述べたフアン氏は、CGにとっての長年の夢は仮想現実(バーチャルリアリティ: VR)を作り出すことだったと語り、何かが創造される世界を、物理法則に従いながら、フォトリアリスティックに実現し、どこにいても共有できるという世界を実現する技術が、同社の「Holodeck」であると述べた。

 Holodeckはフォトリアルな3Dモデル表示と、物理シミュレーションに基づいたインタラクション、仮想空間でのチームコラボレーション、GPUで動作するAIアシスタントを提供するデザインラボで、アーリーアクセスの提供が開始されている。

Holodeck
質感まで再現
制作とコラボレーション

 デモでは、レクサスの自動車モデルを読み込み、実際に乗り込んで運転席からの視点を体感したり、エンジンを抜き出して、エンジン内部のパーツを取り出した後、大きさを自由に変更して眺めるといった動きが披露された。

 フォトリアリルな表示を謳っているとおり、金属なら金属の、布なら布特有の質感が表現されている。Holodeckでは、CATIAやSiemens NX、Creo、Aliasといった設計ツールから、Maya、3dsMAXといった3Dモデリングツールでモデルを作成し、そのデータを読み込むことで仮想空間上にフォトリアルな3Dモデルを投影する。

Holodeckデモの様子
アバター
ガレージを読み込み
レクサスの3Dモデルを読み込み
乗り込んで内装まで確認できる
透過表示も
エンジンを抜き出して表示
パーツ単位で表示
パーツの1つを取り出す
大きさを自在に変更して確認

 フアン氏は、フォトリアルなグラフィックスのために要求される高い計算能力と、CUDAの発明の結果、NVIDIAのGPUはディープラーニング(深層学習)に理想的な、優れた並列演算プロセッサになっていったと語り、2012年にAlex Krizhevsky氏がNVIDIA製GPUでAlexNetをトレーニングし、従来手法より高い精度を達成したことで、深層学習の有効性が広く知らしめられたと述べ、今では以前なら解決できなかった問題を解決できるようにまでなっているとし、AI革命が始まったとした。

 同社の最新アーキテクチャである「Volta」についても言及し、最大125TFLOPSの半精度演算性能を実現するTensorコアを搭載した「Tesla V100」は、世界でもっとも集積率の高いプロセッサになっているとアピール。「DGX」はそのVolta GPUを搭載し、1ラックで1PFLOPS(ペタフロップス)の性能を達成した、初のAIスーパーコンピュータであると説明した。

 先日(米国時間7日)発表された「TITAN V」については、開発者のために作られた世界最速のビデオカードであるとアピールし、Tesla V100と同様にTensorコアを搭載することで、カード1枚で110TFLOPSを実現しているという。

 Voltaのほか、2017年にNVIDIAが投入したものとしては、NVIDIA GPU Cloud (NGC)を挙げ、これはPytorchやCaffe2、Mxnet、TensorFlow、Theanoなどさまざまな深層学習フレームワークに対応しており、VoltaはAWSやGoogle、Microsoftといったクラウドのほか、IBMやHP、Dell、Lenovoなどのサーバーベンダーにも採用されていると説明。

2017年

 「TensorRT」は、深層学習の学習ではなく、推論処理の高速化を行なうもので、世界初のプロラマブルな推論アクセラレータを謳っており、TensorRT 3では、画像分類でCPU(CPU+TensorFlow)比で40倍(V100+TensorRT)、翻訳処理で同(CPU+Torch)150倍(同)高速に処理できるとした。

TensorRT 3
CPUより高速に推論を実行

 TensorRTを使うことで、CPUなら秒間45,000枚の画像処理を行なうために4つのラック(160基のデュアルCPUサーバー)と65kWの消費電力が必要なところ、Tesla V100なら、CPUの40倍高速なため、8基のTesla V100搭載サーバーであるHGX 1台で済むとした。

 比較すると、コストは6分の1で約50万ドルを節約でき、電力も3kWと20分の1に抑えられ、4ラックを1ボックスに集約し接地面積も削減できると述べ、データセンターのTCOを10倍改善できるとした。

 フアン氏は、「The more GPUs you buy, the more money you save. A very simple equation.(より多くのGPUを購入すれば、(その分だけ)よりお金を節約できる。とても簡単な方程式だ)」とアピールし、会場の笑いを誘った。

TensorRTでデータセンターのTCOを10倍改善

 実際のTensorRTの効率性を示したデモでは、写真から花の種類を識別するというモデルの推論処理で、Skylake世代のIntel CPUでTensorFlowを実行した場合、秒間5枚弱という処理速度なのに対し、Tesla V100上のTensorRTで同じ処理を実行した場合には、秒間914枚と約20倍高速であるとした。

 加えて、Tesla V100を8基搭載した「DGX-1V」を使えば、秒間7,000枚以上を処理することが可能であると示した。

Skylake CPUとTensorFlowでは秒間5枚の処理速度
Tesla V100とTensorRTなら秒間914枚を処理
Tesla V100×8なら秒間7,000枚以上を処理
DGX-1Vには8基のTesla V100が搭載されている

 NVIDIAでは、AIを使ってこれまで解決不可能だった問題を解決してきたと述べ、実際の事例も紹介した。

 音声から自然な顔のアニメーションを生成するというものでは、セリフの音声データを投げれば、3Dモデルの顔がそれに合わせてAIが生成したアニメーションで動いており、こちらのNVIDIA公式ブログで紹介されているが、ゲーム分野での応用が期待される。

 音楽の生成では、AIにオーケストラの著名作曲家たちの譜面を学習させることで、実際に曲を作らせるというプロジェクトの成果が披露された。こちらで実際に聴くことができる。

解決不可能だった問題を解決
AIオートエンコーダ。レイトレーシングによるピクセル生成の前に、AIが予測してピクセルを配置
音声から自然な顔のアニメーションを生成
GANによるセマンティックマニピュレーション。コンピュータレンガリングの画像をフォトリアルなスタイルへ変換する
プログレッシブGANを用いて実在しないセレブの顔写真を生成
AIが作曲

 フアン氏は、深層学習はソフトウェア開発の手法として画期的なものだが、強力なHPC(高性能コンピューティング)インフラを必要とするものでもあると述べ、NVIDIAでは1つのアーキテクチャで学習と推論、あらゆるフレームワーク、オンプレミスからクラウド、PCからスーパーコンピュータまでと、エンドツーエンドでAIコンピューティングプラットフォームを開発し、その進化に全力を尽くしているとした。

 また、日本におけるAIは機械と切り離せないものと述べ、自動運転車のほかにも産業用ロボットや建設機械、ヘルスケアでもAIが活用されていくだろうと述べた。

 国内での事例では、富士通やNTTコミュニケーションズなど大手のクラウド/サーバーのほか、産総研のスーパーコンピュータもVoltaを採用。ファナックとの協業や、PFNが学習速度の世界記録を達成するなど、多くのものがあると紹介した。

NVIDIA AIプラットフォーム
日本におけるAI

NVIDIA DRIVEもアピール

 自動運転車については、まず同氏は「将来の車はソフトウェアで定義されるようになる」と述べ、多くのセンサーや高性能なコンピューティング、AIを組み合わせることで、自動運転車が実現され、新たなユーザーエクスペリエンス(UX)を作り出せるとした。レベル5の完全な自律運転車になれば、車での移動時間はエンターテイメントを楽しむようなリラックスした時間を過ごすためのものに変わるだろうと語った。

 結果として、スマートフォンのように、車には何百という単位でAIとアプリケーションが搭載されることになり、ソフトウェアは世界中の車をサポートし、使われる限り維持管理され続ける必要があると説明。

 そのためには、生産性の高い開発ツールの揃った、スケーラブルなアーキテクチャを検討することが重要であるとし、NVIDIA DRIVEプラットフォームをアピールした

 同社では自動運転車用アプリケーションの開発のため、SDKとして「DRIVE IX」も提供するという。これは車載のセンサーなどを活用して、ドライバーの視線追跡などの機能を提供することで、よそ見運転や居眠り運転、ドアを開けるさいに死角から自転車が迫っていないかなどを警告するといった機能を実装できるという。

自動運転車はソフトウェア定義に
NVIDIA Drive
ドライバーを認識して自動でトランクを開ける
視線追跡
脇見運転警告
居眠り運転警告
自転車警告

 「Xavier」は世界初という自律動作マシン用のプロセッサで、Volta GPUなどを搭載したSoC。スーパーコンピューティング性能と高いエネルギー効率で、推論処理を実行し、完全自動運転車も実現するとした。

 フアン氏は、NVIDIA DRIVEはスーパーL2からL4、ロボタクシーまでカバーするスケーラブルでオープンな自動運転プラットフォームであるとアピールした。

Xavier
オープンかつスケーラブルな自動運転プラットフォーム
自動運転車開発インフラ

 次いで同氏は、これらの自動運転車で使われる技術は、自動車だけのものではないと述べ、産業機械など自律動作マシンは4,000億ドルの市場があるとした。

 建設分野では、将来的にはAI搭載の建築機械が、現場で半自動稼働し、オペレータは遠隔地からVRで制御するようになると述べ、コマツとの提携を発表した。

自律動作マシンの時代
市場
未来の建設現場
コマツと協業

 フアン氏は日本はロボティクス分野で世界トップで、「自律動作マシンの国」だと語り、AIによってそれらが制御されるようになる時代が到来し、ロボットの未来は明るいと語った。

 現実世界でそういったロボットを使うため、AIを仮想空間で学習させるという「Isaac」もアピールした。これはロボットを動かす現実世界のシミュレータを仮想空間に作り、そこで学習を行わせることで、効率的なAIの作成を行おうというものだ。

 フアン氏は、まさにAIの革命が始まっているとして基調講演を終えた。

日本は自律動作マシンの国
Isaac
AI革命がはじまった