【GTC 2010レポート】
【ジェン・スン・フアン氏基調講演】
2011年に「Kepler」2013年には「Maxwell」というGPUを投入
~MaxwellはTeslaの16倍の電力性能を実現

基調講演会場

会期:9月20日~23日(現地時間)
会場:米国カリフォルニア州サンノゼコンベンションセンター



 GTC 2010の2日目は、NVIDIA社長兼最高経営責任者のジェン・スン・フアン氏による基調講演で幕を開けた。この中で、フアン氏は、採用に拍車がかかるCUDAの現状について説明するとともに、2011年と2013年にそれぞれ「Kepler」、「Maxwell」という新GPUを投入する予定であることを明らかにした。

●NVIDIAの注力分野
ジェン・スン・フアン氏

 フアン氏は、1) NVIDIAの注力分野、2) CUDAの採用事例、3) いくつかの発表案件、4) 今後の予定という4つの区切りに分けて説明を行なった。

 まずは、同社の注力分野。これは、可視化、パラレルコンピューティング、パーソナルコンピューティングの3つがあり、それぞれ「Quadro」、「Tesla」、「GeForceとTegra」という製品による棲み分けがなされている。

 中でもフアン氏が特に強調したのが、Tegraを使うモバイルコンピューティング。今、スマートフォンを代表とするモバイルコンピューティングデバイスは、カメラを始め、マイクやGPS、加速度センサーなど、これまでの端末にはないほどの各種のセンサーを搭載しつつある。そこからストリームとして流れてくるデータをTegraで処理することで、デバイスがそれ自身やユーザーの状況を認識するようになり、今までには考えもつかなかったような、サービスや使い方が可能になるという。

 もう1つこの業界で大きな話題となっているクラウドについても、Teslaの採用が始まっている。これについては、後ほど具体例が紹介された。

 続いて、フアン氏は、コンピュータグラフィックス業界における最新技術であるテッセレーションに話題を移した。既報の通り、Fermi世代のGPUは、ハードウェアによるテッセレーションに対応した。これにより、これまで長い間あまり成長してこなかったジオメトリの性能/精度は前世代に比べ6倍に向上し、複雑、つまりよりリアルなモデリングが可能になった。

 その実例として、Ubisoftが開発中であるドッグファイトゲーム「H.A.W.X.2」のPC版のデモを紹介した。同作品では、1ステージのマップの広さが128平方kmに相当する。そのジオメトリは最小で2m区切りのポリゴンで表現され、一度にシーンを丸ごとレンダリングすると40億トライアングルの描写になる。もちろん、ゲーム内でそのようなレンダリングは行なわれないが、テッセレーションにより、遠方にある物体/地形に近づいていくと、ジオメトリの複雑さがリニアに上がっていく。

NVIDIAの注力分野とそれに対応する製品群PC版H.A.W.X.2のデモ。立体視のデモだったため、写真では画像がぶれているが、高精細な地形/戦闘機が表現されている

●CUDAの現状

 CUDAの採用事例についてだが、まずフアン氏は、同社がCUDAに対して行なった2つの戦略的決定が今の成功を導いたと説明した。1つ目は、GPUをCPUに取って代わらせるのではなく、付加要素としたこと。つまり、CPUにまつわる部分はそのままに、従来のプログラムにおいて並列化できる部分だけを並列化し、その処理をGPUに肩代わりさせる。これにより、CUDA対応させたアプリケーションは、非対応バージョンと比べて決して性能が落ちることがない。

 もう1つが、コンシューマ向けGPUであるGeForceもCUDA対応させた点。GeForceは、Tesla、Quadroよりも圧倒的に多く出荷されている。そのため、同社はCUDAに多額の投資を行なうことができたし、同時に非常に多数のユーザーにCUDA対応GPUを提供することができた。こういったことから、CUDAは市場から大いに歓迎され、学術的分野や企業向け分野を中心に、さまざまな分野で活用されるに至った。

 また、フアン氏は、CUDAがもたらしたパラレルコンピューティングによる演算能力が、近年コンピュータ業界がさしかかっていた性能向上の問題も解決していることに言及した。

 プロセスルールの縮小はトランジスタの増加を可能にしたが、ある時期から半導体の物理的特性による漏れ電流の問題から、消費電力が下がりづらくなった。また、CPUとメモリとの速度の乖離が激しくなってきた。こういった理由から、それまで年50%の勢いで成長してきたコンピューティング性能は、2002年頃から年20%へと落ち込んだ。これがそのまま続くと、2021年には、年50%で伸びた場合と比べ、成長率が100分の1に鈍化する計算になる。

 しかしフアン氏は、CUDAでGPUによる大規模な並列処理を行なうことで、この問題に対する1つの解が示されることになったとした。例えばタンパク質の解析などに使われる「AMBER 11」というソフトは、CUDA対応とさせ、8基のFermiを使うことで、192基のクアッドコアCPUと同等の処理能力を実現した。

CPUの性能向上率は2002年あたりで一気に鈍化しかしGPUをパラレルコンピューティングに使うことで、この写真にあるように巨大なスパコンと同じ性能を数基のGPUラックで実現できるようになったCUDAは研究者、開発者を中心に広く受け入れられたが、この1年の実績はさらに目覚ましい

3Ds MAXがiRayを組み込み、忠実なレイトレーシングが高速に実現できるようになった

 続いてフアン氏は、最新のCUDA応用事例をいくつか取り上げた。その1つがAutodeskの3Ds MAXによるiRayの実装。iRayは、NVIDIAの子会社であるMental Rayが開発した、物理的に忠実なレイトレーシングエンジン。iRayでは、シーン内のすべての光子の挙動を追跡/再現することで、実写と同じレベルのレンダリングを実現する。特筆すべきは、環境設定の容易さと、GPU活用による高速さ。

 ユーザーは、それまで多岐に渡って設定する必要があったパラメータを全くといって良いほど入力する必要がない。加えて、CPUのみでは数時間から数日かかるレンダリングが、数秒でシーンの概要が分かるほど高速にレンダリングできる。

 また、クラウドサービスも予定されており、非力なノートPCから、32基のFermiが搭載されたクラウドにアクセスすることで、ワークステーションでローカル処理するのと同等の性能を実現するデモが行なわれた。これにより例えば、デザイナーが顧客先へノートPCを持って行って、その場でリアルタイムにシーンをいろんな角度から見たり、変更を加えたりといったことができるとした。

【動画】クラウド版のデモ。普通のノートPCからブラウザを通じて操作。レンダリングはクラウドにある32基のFermiで行なわれ、その出力結果がストリーミングで帰ってくる。リアルタイムでレンダリング結果の実態が分かる程度高速に動作する

 Adobeが紹介したデモは、日々増加するデジタルカメラの画素数と、Plenopticレンズという特殊なレンズを組み合わせることで、これまでできなかった写真処理を実現するというもの。

 Plenopticレンズは、通常1つのレンズで写真を撮影するところを、縦横に小さなレンズを多数配置したもの。デモに使われた画像から判断すると、縦横に数十個ずつのレンズが配置されていた。個々のレンズは、お互いに少しずつ違った角度からの映像を捉える。具体的数値は不明だが、この1つ1つの小さなレンズが、従来のデジタルカメラと同程度の解像度(数百万から1千万前後)で画像を記録する。

 撮影された画像は、そのままでは磨りガラス越しに見たようなものになる。ここから解析を行なって、1枚のなめらかな画像へと変換を行なう。デモの骨頂は、パラメータを変更することで、撮影後の写真の焦点を自由に調整するシーン。

 今でもPhotoshopなどは、写真に対してさまざまな加工を行なうことができるが、この技術を使うと、言うならば奥行きに対する編集までもが可能となる。また、疑似ではなく、立体カメラで撮影したのと同じような立体画像を作り出すこともできる。まだ、研究段階の技術だが、GPUを使うことで、CPUより500倍も速く処理できるという。

 このほか、フアン氏は、PGIが開発した、GPUなしでもx86プロセッサだけでCUDAアプリケーションを動作させる「CUDA-x86」コンパイラなどの発表案件について紹介した。

Plenopticレンズはこのように多数のレンズを上下左右に配置するPlenopticレンズで撮影した画像拡大すると分かるとおり、1つ1つのレンズが微妙に異なる画角で画像を捕らえている
これを1枚の写真にレンダリングした結果ここでは少女の奥の方に焦点が行っているので、パラメータを変更するとこのように少女に焦点が合う

【動画】Plenopticレンズで撮影した写真の焦点を調整するデモ

●今後のGPUロードマップ
GPUのロードマップ。縦軸はワットあたりの倍精度GFLOPS

 最後にフアン氏は「我が社が設立以来、このようなことは今回が初めて」と前置きした上で、現在開発中の次期GPUのコードネームを2つ発表した。

 1つが、2011年の後半に投入が予定されている「Kepler」(ケプラー)、もう1つが2013年予定の「Maxwell」(マクスウェル)だ。

 フアン氏は製品の詳細については言及しなかったが、電力あたりの性能(倍精度FLOPS/ワット)が、前世代のTeslaを1とした時、現行のFermiが1.5程度となるのに対し、Keplerは5程度、そしてMaxwellは16程度に達するという。また、フアン氏はKeplerで業界に先駆けTSMC 28nmプロセスを利用することも明らかにした。

 また、半導体技術を洗練させるだけではなく、Fermiで初めてECCを取り入れたように、プリエンプション、仮想メモリといったアーキテクチャレベルの新たな革新も盛り込んでいくとした。

(2010年 9月 22日)

[Reported by 若杉 紀彦]