イベントレポート

【基調講演レポート】次世代GPUのPascal、次期TegraのEristaなどを発表

～“CUDA Everywhere”がテーマ。GPUの演算能力をあらゆるものに

（2014/3/26 16:39）

会期:3月24日～27日(現地時間)
会場:米国サンノゼ McEnery Convention Center

　米NVIDIAは、同社のGPU技術を中核とするテクノロジーカンファレンスの「GPU Technology Conference」(GTC)を米国サンノゼ市内のMcEnery Convention Centerで開催している。会期は2014年3月24日から27日(現地時間)まで。初日にあたる24日は昨年(2013年)までの復習を兼ねた事前カンファレンスという位置づけで、新しいトピックスは25日午前に行なわれた基調講演から紹介されている。

　25日に行なわれた実質的なオープニング基調講演のスピーカーは、例年どおりに米NVIDIAの創業者で現在も社長兼CEOのジェン・スン・フアン(Jen-Hsun Huang)氏が務めた。2時間弱の講演の中に、GPUアークテクチャとモバイル向けSoCのロードマップ更新を含む6つのトピックスが盛り込まれている。

　2014年のGTCでは会期中に729の技術セッションが行なわれる。2010年のGTCでは397セッション、2012年は429セッションで、カンファレンスの規模は大きくジャンプアップした。CUDAの導入で、グラフィックス技術だけでなく東工大のスパコンであるTSUBAMEなどに代表されるような汎用演算にGPUを用いることが可能になり、GPU活用の幅を拡げている。また以前より車載の組み込み技術などを事業展開しているが、昨今のSoCにデスクトップ同等のGPUアーキテクチャを投入することなどを背景に、自動車搭載技術においても注目を集めている。

　GTC2014ではこうした自動車技術のセッションが大幅に増加しているのも特徴の1つだ。そこで基調講演のテーマは“CUDA Everywhere”(すべてのカテゴリにCUDAを)となっている。同社の発表によるとエンジニアを中心としてGTC2014への参加者は3,500人を超えたという。

拡大と成長を続ける「GTC」(GPU Technology Conference)。2014年は3,500人を超える参加者となった

基調講演のテーマは“CUDA Everywhere”(あらゆるものにCUDAを)

GTC2014の会場となった米国サンノゼ市内のMcEnery Convention Center

PCI ExpressからNVLinkへ。2016年に登場する新アーキテクチャ「Pascal」

Pascalを搭載したモジュール。ジェン・スン氏が手にした様子やボールペンとの比較などからも現行のグラフィックカードに比べて3分の1程度のサイズ

　2016年に導入予定となる次世代のGPUアーキテクチャは「Pascal」(開発コードネーム)としてアナウンスされた。Blaise Pascalは17世紀のフランス人で哲学者や数学者として知られている。ドイツの数学者、天文学者のKepler、スコットランドの数学者、物理学者のMaxwell、そしてPascalへと、歴史的な数学者、物理学者のコードネームが続く。2013年のGTCにおけるロードマップでは2015年の計画として「Volta」(※Alessandro Volta、Voltの単位となった人名)が紹介されたが、今回更新されたロードマップからVoltaは消え、「Stacked DRAM」が「3D Memory」としてPascalの主要技術に統合された格好となっている。

　今回発表されたPascalアーキテクチャでは、GPUとCPUを接続するバスを「NVIDIA NVLink」と命名した新しいインターコネクトでGPUに統合する。これまでのPCI Express接続に比べてCPUとGPU間のデータ共有速度を5倍から12倍に向上させて、ボトルネックを解消することを目指している。NVLinkはx86系のCPUだけでなく、IBMのPower系プロセッサに向けても導入される見通し。もとより帯域幅の大きいPower系プロセッサでは、よりメリットがあるものとしている。

　ただし、既存のマザーボードに標準的に搭載されているPCI Expressに対してまったく新しいバスとなるため、エコシステムの構築も含めて2016年のPascalローンチまでにはいわゆる“NVLink Ready”の環境をある程度整備する必要があるのも事実である。NVIDIAによるとPascalアーキテクチャ世代においても、引き続きPCI Expressのサポートは続けるとしている。

　「Stacked DRAM」は「3D Memory」に置き換えられ、DRAMがウェハ上に積層状態で実装される。メモリバスは帯域が大きくなり、かつ省電力化が期待できる。講演では、従来の実装に比べて(同一面積で)2.5倍の容量を搭載し、電力効率が最大4倍に向上するとしている。

　フアンCEOはステージ上でPascalのモジュールを披露。現行のハイエンドグラフィックボードと比べても、3分の1程度の大きさに納まっている。PCI ExpressではなくNVLinkを採用する点とメモリ実装面積の省スペース化などにより、このサイズの実現を目指すものと見られる。提示されたスライドでは、長辺がおおよそボールペンサイズであることが示唆された。前述のとおりCPUとの接続はNVLinkを前提にしているため、PCI Expressスロット用のコネクタ等は今回紹介されたモジュールにおいては存在しない。

現状のボトルネックになっているのは、GPUとCPUおよびGPUとメモリの帯域幅

「NVIDIA NVLink」をアナウンス。現行のPCI Express 3.0に対し5倍から12倍の速度でCPUとCPUと接続することでボトルネックを解消する

Unified MemoryでCPUとGPUから同一のメモリ空間を参照できることになっても、PCI Express接続ではそこがボトルネックになる

HPCなどのマルチGPU環境下でもNVLinkは利用される

Pascalの概要。PCI Express接続に比べて5～12倍の帯域幅を実現。メモリ帯域幅も2～4倍で面積あたりの実装量も4倍に。PCI Express接続のグラフィックカードに比べて3分の1程度の大きさ

DRAMがウェハ上に積層状態で実装される「3D Memory」。昨年までは「Stacked DRAM」として紹介されていた。積層化により単位面積当たりの実装量も増え、帯域幅も増える

コードネーム由来のBlaise Pascal。パスカルの定理などで知られる17世紀のフランス人で、数学者や哲学者として知られる

更新されたGPUアーキテクチャのロードマップ

Maxwellアーキテクチャでは、DirectX 12をサポートし、PascalではUnified Memory、3D Memory、NVLinkなどにフォーカスされる

　Keplerアーキテクチャ世代のハイエンドとなるGK110のコアをデュアルで搭載するグラフィックカード「GeForce GTX TITAN Z」も披露された。CUDAコアは全部で5,760基(2,880×2基)。12GBのメモリを搭載し、8TFLOPSの性能を実現する。市場の想定価格は2,999ドル。例えばゲーミングにおいてターゲットとするディスプレイ解像度はマルチディスプレイ環境や5K解像度などだ。

「GeForce GTX TITAN Z」。なんと2,999ドルで登場するハイエンドグラフィックカード

CUDAコアは全部で5,760基(2,880×2基)。12GBのメモリを搭載し、8TFLOPSの性能を実現する

3基の「GeForce GTX TITAN Z」を用いたサーバーのコストは12,000ドル(約120万円)。消費電力も2キロワットで、特定用途においてはGoogle Brainにも匹敵する

Unreal Engine 4を用いたデモンストレーション

【動画】NVIDIA公式「GeForce GTX TITAN Z」レンダリングデモ

Machine Learning(機械学習)にCUDAのパワーを。DENSOとも協力

　コンピュータが自律して学習を行ない、認識力や判断力を人間の脳により近づける研究開発がMachine Learning(機械学習)と呼ばれる。ニューロンと呼ぶ生物の神経細胞をコンピュータの汎用演算においてシミュレーションするものだ。

　例としてフアンCEOが挙げたのは、米スタンフォード大学とGoogleが共同研究している「Google Brain」。16,000個のコアを要するサーバーPC群の環境でシミュレーションを行なうが、システムにかかるコストは500万ドル(約5億円)に達するほか、電力も600kWが必要だ。

　こうした演算をCPUからGPU+CUDAという仕組みに変えることで、電力効率は大きく改善され、より高性能かつ低コストで行なえるというのがフアンCEOの説明だ。もちろん、CPUでやることとGPUでやることは必ずしも同一ではなく、それぞれに長短が存在するのだが、大量のデータを一気に処理するという部分において優れているGPUの能力を活用しようというものである。実際、前述のGoogle Brainと同等の性能をもつシステムが、33,000ドル(約330万円)で構築でき、消費電力も4kWまで減らすことができると説明した。

　このMachine LearningをCUDAで行なう取り組みは、Adobe、百度、Flickr、IBMなどと進めてきたが、今後さらにパートナーを拡大する。今回アナウンスされたのは、Facebook、ニューヨーク州立大学、スタンフォード大学、カリフォルニア州立大学バークレー校、そして日本のDENSOなどが参加する。DENSO(デンソー)は国内の自動車部品メーカーとしては最大手。GTCの会期内にはDENSOによるセッションも予定されており、こうした機械学習における認識、判断へのデンソーの取り組みなどが明らかになるものと思われる。

Machine Learning(機械学習)。コンピュータは膨大なデータから認識、判断して学習する

生物のニューロン(神経細胞)と同じような知覚を得るために、ひたすら演算を繰り返して結果を得る

人間なら簡単に違いがわかるヒトの顔と猫の顔も、機械がそれを正しく認識するためには膨大な汎用演算と学習を行なう必要がある

生物におけるニューロンの数と構造。ちなみに海綿動物(Sponge)にはニューロンがない。さりげなく載っているスポンジボブの姿は、それを知らないと笑えない難しいギャグ

CUDAによるMachine Learning(機械学習)には、日本の自動車部品メーカー最大手のDENSO(デンソー)もNVIDIAと協力して取り組みを行なう

肥大化してインターネットに流入する膨大なデータを処理するために、演算能力をさらに高めていく必要があると説明した

Google Brainにかかる500万ドル(約5億円)のコストに対し、同等の性能をもつシステムが、33,000ドル(約330万円)で構築できると説明

基調講演に際しては、「nvdogs」のハッシュタグを付けて犬の写真をツイートすることで、Twitterのタイムラインからリアルタイムで犬種を判断するデモも披露

【動画】NVIDIA公式　Machine Learning(機械学習)デモ

　ハードウェアとしては、クラウドサーバーのIRAY VCAも発表された。KeplerアーキテクチャのTesla 8基を4Uのラックマウントサーバーに内蔵する。レイトレーシングファームとしてクラウド上で運用することで、グラフィックスワークステーションに搭載されるQuadroのK5000などと比べても10倍近いレイトレーシング性能が5万ドル(約500万円)で実現できるという。このリアルタイムレイトレーシングのデモは、本田技研によって行なわれた。

　GPUのクラウド化技術に関連しては、仮想化技術大手のVMWareとの提携を発表してVMWareが提供するHorizon DaaSプラットフォームで、NVIDIAのGPU仮想化技術であるNVIDIA GRIDがサポートされることをアナウンスしている。

一方が写真、一方がレイトレーシングで描かれた部屋の様子。左側が写真

「IRAY VCA」。4Uサイズのラックマウントサーバーで、KeplerアーキテクチャのTeslaを最大8枚までスケーラブルに拡張できるクラウド対応のレンダリングファーム

GPUあたり12GBのメモリを搭載。CUDAコアは最大で23,040基。ネットワークインターフェイスとして、10Gigabit EthernetとInfinibandを搭載する

Quadro K5000を搭載するグラフィックワークステーションに比べても10倍に近い性能を得ることができる

本田技研によるアコードのモデリングデータを使ったデモンストレーション。レイトレーシングで描画された画像をリアルタイムで回転させる、車体の色を変える、任意のポイントでカットモデルを作るといった様子が紹介された

クラウドGPU技術のNVIDIA GRID。仮想化技術大手のVMWareと提携してVMWareが提供するHorizon DaaSプラットフォームでNVIDIA GRIDをサポートする

次期Tegraのコードネームは「Erista」。Maxwellアーキテクチャを導入へ

Tegra K1からGPUアーキテクチャがデスクトップと同等になりCUDA対応が実現した。これはInternational CESで発表されている

　モバイル向けのCUDA技術としては自動車向けのソリューションが中心となった。1月に開催されたCESではモバイル向けのSoC「Tegra K1」がアナウンスされ、2014年内には搭載製品が出荷予定だ。繰り返しになるがTegra K1では4+1コアの32bit製品と、Denverコアをデュアルで搭載する64bitの製品が存在する。この世代からGPUアーキテクチャをデスクトップGPUと同一にして、Tegra K1ではKeplerアーキテクチャが採用されている。これによりTegra4まで続いていた命名規則が変わって、開発コードネームではLoganと呼ばれていたSoCがTegra5ではなく、Tegra K1となっている。

　これまで車載の組み込みモジュールとして提供していた「Jetson Pro」を更新する形で、Tegra K1を搭載する「Jetson TK1」をアナウンスした。前述のとおり、Tegra K1からはデスクトップGPU同等のアーキテクチャが導入されたことでCUDA対応が実現し、モバイルプラットホームでの汎用演算が可能になる。同時に提供されるSDKなどを用いて「開発者は状況認識、物体認識、3Dカメラなどさまざまなアプリケーションに対応したソフトウェアを以前より容易に開発することができる」としている。従来のJetsonの主に車載向けに特化した形から、ARやロボティクス技術なども含め、汎用性の高い開発キットになっているのも特徴の1つだ。米国ではSDKも含めて192ドルで販売される。日本国内でも販売予定がある。

　とは言え、主力が車載であることは間違いない。基調講演の最終盤では独Audiの先端技術開発責任者とともに、NVIDIAとAudiが共同開発している自動運転が可能なコンセプトカーをステージへと無人運転で呼び込んだ。このコンセプトカーの頭脳となっているのが、「Jetson TK1」を搭載してAudiのインターフェイスに組み合わせたモジュールである。

「Jetson TK1」。スーパーコンピューターに採用されるCUDAが利用できることで、NVIDIAは世界初の組み込みシステム用モバイルスーパーコンピュータと説明している

米国では192ドルで提供される開発キットの概要。VisionWorksをミドルウェアとして、画像分析や認識などを実現する。開発者はそのAPIを利用して自分のアプリケーションを実装する

CUDAを使ったコンピュータ技術による認識技術と、その実現に必要な計算力。

車載カメラによって、クルマが自動的に駐車場の空きスペースを認識するデモ。

無人の自動運転により、Audiがステージへと登場した。

従来はトランク一杯の機材が必要だったが、「Jetson TK1」をモジュール化してAudiのインターフェイスに導入することで、トランクが空になった

【動画】NVIDIA公式　Audi自動運転デモ

　今回のGTC2014では、Tegra K1の後継となるロードマップも更新された。GTC2013では「Parker」として発表されていたが「Erista」に改められている。以前の計画では、DenverコアとMaxwellアーキテクチャの組み合わせで提供されるということになっていたが、Denverコアは前倒しの格好でKeplerアーキテクチャと合わせて64bit版のTegra K1になった。EristaにMaxwellアーキテクチャが採用されるのは、Parkerの計画時と変わらず、2015年の出荷を目指している。

　ちなみにTegraの開発コードネームと言えば、アメリカンスーパーヒーローの幼名というのが定番。例えばTegra3のコードネームである「Kal-El」はスーパーマンであり、Tegra K1の「Logan」はX-MENに登場するウルヴァリン。そして「Erista」は、そのウルヴァリンの息子にあたる。

更新されたTegraのロードマップ。2015年にはGPUアーキテクチャをMaxwellにした「Erista」が登場する見通し

　最後は盛りだくさんだったこの日の発表をまとめたあとに、ジェン・スンCEOから来場者全員に「SHIELD」をプレゼントすることが発表されて、大きな盛り上がりのまま基調講演は幕を閉じた。

この日の基調講演のまとめ。4つのカテゴリ、6つのトピックスにフォーカスされた

締めはジェン・スン・フアンCEOからGTC2014参加者全員への「SHEILD」のプレゼント

（矢作晃）