米NVIDIAは、中国北京市にあるオリンピック会場にほど近い国家会議中心で、GPU開発者会議「GPU Technology Conference ASIA 2011」(GTC ASIA 2011)を12月14日~15日の会期で開催した。
GTCは、これまで本誌でもレポートしているように、NVIDIAのお膝元であるカリフォルニア州サンノゼで過去数回に渡って開催されてきた。その縮小版といった形で、日本や中国を含む諸外国でも同様のイベントはローカルなものとして行なわれたことはある。しかし今年は、米国でのGTCがキャンセルされたこともあって、世界各地で順繰りにGTCが開催される中、今回の北京でのGTC ASIA 2011が、欧米の報道陣も招いたワールドワイドなイベントに格上げされた格好だ。ただし、基調講演などの一部の内容は、11月に米国で開催されたSuperComputing 2011(SC11)でのものをなぞっている。
GTCは、基本的にGPGPUをテーマとした開発者会議で、平行して多数開かれる技術説明会や、論文発表、ワークショップの内容はかなり専門的、学術的であり、コンシューマ製品からはやや縁遠い雰囲気がある。
基調講演会場 | ジェン・スン・フアン氏 |
しかし、初日の最初に行なわれた基調講演でNVIDIA社長兼最高経営責任者ジェン・スン・フアン氏は、ゲームなどの卑近な例を取り上げながら、GPUおよびその用途が今後どのように発展していくのか、また、GPUコンピューティングにはどのような課題があるのかなどを説明した。
最初のテーマは、「ゲームの進化」。GPUの元々の生い立ちであり、かつとても分かりやすい用途はゲームだ。1994年に登場し、その後1996年にはPCに移植され、NVIDIA初のGPUであるNV1上で動いていた「バーチャファイター」では、キャラ1体あたりたった数百のポリゴンしか使っていなかった。しかし、それから十数年が経った現在、最新タイトルBattlefield 3では、単にポリゴン数が増えただけでなく、さまざまな最新技術を集約し、映画レベルのクオリティを実現するに至った。
表現力が増すと、それだけ迫力や楽しさも増す。しかし、近年のゲームの大衆への浸透ぶりは、前述したGPUの性能向上ぶりとは比較にならないほどだ。現在のゲームには、小説や映画などと同じく、多種多様なジャンルがあり、加えて最近のゲームは複数のプレーヤーで同時に楽しむこともできるなど、他に類を見ない特製も持つ。もはや、ゲーマーとは一部の限られた人を指す言葉ではない。世界中で数億人という人がゲームをプレイしている。その売上を見ても、アバター、アイアンマン、ハリーポッターといった映画作品の封切り後5日感の興行収入が1億~2億ドル程度なのに対し、Call of Dutyシリーズは、それぞれ5億から7億ドルを稼ぎ出しているという。作品全体で見ると、ゲームはまだ映画の半分程度の市場規模しかないが、成長のペースは各種娯楽産業の中で抜きんでている。
バーチャファイター | DOOM3 |
Battlefield 3 | ゲームと映画のヒット作における最初の5日間の売上 |
ここ中国においても、ゲーム市場は著しく伸びている。実際、中国は世界で2番目のゲーム市場である。中国ゲーム市場で特徴的なのは、iCafeと呼ばれるネットカフェに行って、PCゲームをプレイするというスタイルが定着してる点だ。日本ではどちらかというとゲームというと、ゲームコンソールを指すが、iCafeには延べ数千万台のPCが設置されており、PCでゲームをプレイする。ちなみに、その内9割はNVIDIAのGPUを搭載しているという。
そういった中国ゲーム市場において現在、フアン氏はある1つの変化が起きつつあると述べる。これまで、中国でプレイされるのは、海外で作られた作品が中心で、中国はゲームを「消費」する一方だった。しかし最近は、中国発のコンテンツが台頭し始めるようになった。中でも「全球使命」というゲームは、物理演算まで取り入れた、海外作品に勝るとも劣らないレベルの画質を実現している。つまり、中国のゲーム市場にも「創造」が始まりつつあるという。
中国のゲーム「全球使命」 | 石像に弾丸を撃ち込むと、1発1発穴が開き、砕け散るほど細かな判定と物理処理を行なっている |
ここでフアン氏は、ゲームの画質に関して、再度Battlefield 3を例に取り上げて説明を行なった。この作品で取り入れられている技術は、HDR、ラジオシティライティング、ボリューメトリックスモーク、テッセレーション、被写界深度など、その要素名を列挙するだけでも紙幅をとるほどで、今あるハードウェアとソフトウェアの全てを結集して、圧倒的な画質を実現している。
Battlefield 3。テッセレーションを使って、複雑な山肌を描画 | ラジオシティライティングで反射光も忠実に表現 | 被写界深度に応じたボケも表現 |
では、この先ゲームのグラフィックはどのように進化するのか? その1つの答えが物理演算との融合だ。もちろん、すでにNVIDIAはPhysXによってGPUによる物理演算機能をサポートしているが、ここでフアン氏が言うのは、液体や気体などのより複雑な物理シミュレーションのことだ。詳しくは、動画を見てもらった方が早いだろうが、流体の物理シミュレーションを写実的レベルにまで引き上げると、その説得力は新しい次元に達する。もちろん、その実現に当たっては、GPUの能力をさらに伸ばす必要があるわけだが、フアン氏によるとこの動画で示したレベルは、そう遠くない将来に実現可能だという。
【動画】高度な物理演算の例 |
次のテーマは「デザイン(設計)の進化」についてだったが、ここでは今後ではなく、現在の最新の成果について紹介された。その大部分はSC11で発表済みのため、かいつまんで説明すると、NVIDIAは11月にQuadroとTeslaを搭載するワークステーション向けソリューション「Maximus」を発表した。これら2つのGPUは、SLIのように強調して動作し、アプリケーションの要求に応じて、3DグラフィックやGPGPUの演算を行なう。これによって、デザイナーはデザインとシミュレーションを1つのマシンでこなすことができるようになる。Maximus対応ワークステーションはLenovoのほか、DellやHP、富士通などが出荷を表明している。
次のテーマは「GPUコンピューティングの進化」だ。最初にフアン氏は、長崎大学の濱田剛教授が2009年に開発した「手作りスパコン」を紹介した。このシステムは、市販のパーツで組んだPCをむき出しのままラックに並べ、冷却は家電の扇風機を使うという、文字通り手作り感満載のもの。当然、かけた予算も一般のスパコンより何桁も低いが、GPUを活用したこのシステムは、当時日本一の性能を実現し、スパコン界のノーベル賞と言われる、ゴードンベル賞も受賞したことで大きな話題となった。その翌年の2010年11月には、中国のCPU/GPU混載スパコン「天河一号」が世界一の性能を達成した。
【編集部注】 「手作りスパコン」は、Top500で日本一になったことはありません。記事は講演内容に従っておりますが、「日本一」という表記の意味づけにおいてご指摘がありましたので、注記させていただきます。
濱田教授の「手作りスパコン」 | 中国の天河一号 |
このように、今ではGPUはスパコンにとって、なくてはならない存在となった。しかし、GPUが受け持つ並列処理のプログラミングというのは、これまでのシングルスレッドでの手法とは大きく異なる。GPUは容易に入手できるが、それを活かすコードの開発に時間がかかってしまうのだ。
そこでNVIDIAがSC11で発表したのが「OpenACC」だ。これは並列プログラミングのためのオープンな規格で、並列処理を行なうべき場所を指し示す程度の極極簡単なコード(ディレクティブ)を1~2行書くだけで、コンパイラが自動的に並列化を行なうというもの。その簡単さと効率の良さを示すのに、同社は「2x in 4 weeks」という無償トライアルキャンペーンを行なっている。これは、既存のコードにOpenACCを用いることで、誰でも4週間以内に2倍以上の性能向上を実現できることを保証すべく打ち出されたもので、PGIコンパイラの30日無償利用権限を提供する。実際、2日で65倍の性能向上を実現した例もあるという。
なお、今回の新しいニュースとしては、中国の200の大学でCUDAに関する課程が持たれることになった。これにより、年に2万人以上の学生がCUDAを学習するようになる。フアン氏は、これまで中国ではソフト開発はあまり発達しなかったが、これによって返って、シングルスレッドプログラムによる先入観なしに並列プログラミングを学べることになり、中国には今後並列プログラミングが花咲く下地が整っていると述べた。
最後のテーマが「エクサスケールに向けた課題」である。エクサスケールというのは、1EFLOPS(Exa FLOPS)規模を表わし、現在世界最高性能のスパコンである富士通の「京」の100倍高い性能となる。
過去Crayは、1988年のY-MP8(2.7GFLOPS、0.15MW)、1998年のT3W-1200(0.9TFLOPS)、2009年のXT-5(1.8PFLOPS、7MW)というように、約20年で性能を100万倍引き上げた。一方で、消費電力の増加は40倍に留まっている。これは換算すると1年ごとにワットあたりの性能が1.5倍向上していることになる。
これは、CPUのプロセスルールと駆動電圧を世代毎に順調に小さくできたから実現できた。しかし、もはやCPUの駆動電圧はこれ以下に下げられないレベルになってしまっている。つまり、CPUは過去20年と同じペースで、ワットあたりの性能を上げられなくなったということだ。具体的には、ワットあたり性能の年成長率は1.19倍に落ち込むことになる。
過去20年順調に伸びてきたCPUの性能は | 物理的な限界に達し、今後伸びが弱まる |
なぜ、ここでワットあたりの性能を問題にするのか。それは、データセンターが電力の壁にぶち当たりつつあるからである。例えば、約2PFLOPSあるXT-5を、そのまま500倍に規模に拡大すると、性能は1EFLOPSになるが、同時にその床面積は北京オリンピックスタジアムの鳥の巣に匹敵する。だが、これは問題ではない。実際にこれくらいの大きさのデータセンターは存在している。しかし、XT-5を500倍にすると、消費電力が3.5GWに達するのだ。これは世界最大の水力発電所であるフーバーダムが2つ要る計算になる。そのコストを考えても、これは不可能と言わないまでも、現実的とは言えない。
XT-5をそのまま1EFLOPSに拡大すると | 床面積は鳥の巣と同じになる | 最大の問題は電力で、フーバーダム1つを丸々使ってもまかないきれない |
この状況に対する切り札がGPUだ。CPUの電力効率が良くないのは、もともとシングルスレッド向けに開発されたからである。現在のCPUはマルチコアになっているが、1つのコアに命令を1つ実行させるために必要なスケジューリングを行なうのにかかる電力は、その命令の実行の50倍に及ぶほど並列処理の効率が悪い。そこで、シンプルだが並列性に優れるGPUを組み合わせることで、スパコンの電力効率を引き上げることができるようになる。
フアン氏は、20MWが電力の限界として、米国の最新スパコンである「Titan」をCPUだけで拡張した場合、1EFLOPSを実現できるのは2035年になるが、GPUを組み合わせた場合は、2019年に実現可能だと試算する。つまり、GPUを使うことで、これまでの10年で1,000倍のペースを維持できるわけだ。
さて、こういったエクサスケールの話は、個人には無縁のように感じられるかも知れないが、そうでもないのだという例を紹介してフアン氏は講演を締めくくった。
その例とは、Ubisoftが製作した「Assassin's Creed Revelations」の予告編映像。この映像は、現在のスパコンを使って1フレームあたり1時間をかけてレンダリングしたもので、そのクオリティは実写と見まがうばかりだ。先に紹介したワットあたりの性能の向上当てはめると、2019年には100W、すなわちPlayStation 3クラスのシステムに数十TFLOPSの処理能力が備わる。つまりフアン氏は、「2019年のPlayStation」ではこれがリアルタイムでゲーム画面として動かせるようになると述べ、聴衆から大きな拍手をうけた。
CPU+GPUの構成とすることで、エクサスケールの実現をCPUだけよりも16年前倒しできる | そしてその時期には、PlayStationのようなゲーム機にスパコンの性能が備わる |
(2011年 12月 15日)
[Reported by 若杉 紀彦]