スマートフォンでも使える“クラウド型GeForce”を発表
5月15日(現地時間)に行なわれたGTC 2012のジェン・スン・フアン氏による基調講演のテーマはKepler 1色だった。フアン氏は、現行のKeplerである「GK104」コアの強化版である「GK110」コアを採用するTesla製品や、その新機能、そして“クラウド型GeForce”とでも呼ぶべき新しいプラットフォームについて発表を行なった。
GeForce GTX 690 |
講演でフアン氏はまず、4月末に中国上海でのイベントで発表されたKeplerベースのデュアルGPU「GeForce GTX 690」について紹介した。同製品は、同社史上もっとも効率的というGeForce GTX 680のチップを1枚のボード上に2基搭載しつつ、専用に設計された空冷機構の組み合わせで、6TFLOPSという性能と静音性を両立させた。
その性能を見せるため、フアン氏は2つのデモを紹介した。1つは透明なシリンダーに弾を当てて破壊するというもの。これは、GeForce GTX 680でデモされた石柱破壊の発展版。従来のゲームでは、性能上の制約から、物体を破壊する際は、あらかじめ決められた形に分裂するようになっていたが、GeForce GTX 680では、リアルタイムで計算を行ない、毎回違う形状にばらばらになるというデモが披露された。これに対しGeForce GTX 690を使った今回のデモでは、石柱が透明なシリンダーに置き換えられ、内部/外部が複雑な反射をしながら、ばらばらになるといものになっていた。
もう1つのデモは、リアルタイムレイトレーシング。レイトレーシングでは、GPUでグラフィックス処理ではなく計算処理を行なう。数百~数千基という演算器を搭載したGPUで並列処理しても、レイトレーシングは重い作業なのだが、フアン氏はGeForce GTX 690によってリアルタイム処理ができることを示した。さらに、フアン氏は、画面上の容器の中に液体を注入するデモを付け加えた。液体の挙動のシミュレーションも非常に重い作業なのだが、GeForce GTX 690はこの2つの重い作業を難なくこなしていた。
シリンダー破壊のデモ | 複雑な反射をしながらランダムな形に壊れる |
リアルタイムレイトレーシングのデモ | 後半は液体の表現も交えた |
【動画】シリンダー破壊のデモ |
【動画】リアルタイムレイトレーシングのデモ |
ここからフアン氏は、話題をTeslaに転じた。Teslaは、GPGPU演算に特化したGPUでスーパーコンピュータなどに採用される。Keplerにおいては、「K10」と「K20」という2つの製品が投入される。
K10は、GeForce GTX 690と同じくGK104ベースのコアを2基搭載する。SP数が1,536×2基というのはGeForce GTX 690と同じだが、メモリ容量は4GB×2に増え、メモリバンド幅は1GPUあたり160GB/secに下がっている。演算性能は倍精度が95GFLOPS×2、単精度が2,288GFLOPS×2。これらは、Fermi世代と比較して、単精度は3倍に引き上げられているが、倍精度は3分の1以下に落ちている。
一方のK20は、第4四半期に投入予定ということで、まだ詳細情報が明らかにされていないが、こちらはGK104コアではなく、GK110という新しいコアを1基搭載する。GK104という型番は、従来のNVIDIAのコードネームの法則に従うとミドルレンジクラスであるため、その強化版であるGK110の存在はかねてから噂されていた。GK110についてフアン氏が明かした情報は、「倍精度性能がFermi世代の3倍」ということで、GK104がゲームなどのグラフィックス向けに振られているのに対し、GK110はGPGPU向けの仕様となっているようだ。
また、フアン氏はGK110に、「Hyper-Q」および「Dynamic Parallelism」という2つの新機能が搭載されることを明らかにした。
Hyper-Qは、従来1つのGPUに対して1つのCPUしか1度にアクセスできなかったものを、最大32CPUから同時アクセス可能にする技術。Dynamic Parallelismは、CPUを介さずにGPU側で新しいスレッドを動的に生み出す技術。これらにより、GK110ではCPU-GPU間の転送に伴うボトルネックを大幅に減らすことができる。
KeplerベースのTeslaはK10とK20。それぞれコアはGK104、GK110となる | Hyper-Qにより、最大32CPUからのワークキューを並列実行可能 | Dynamic Parallelismにより、GPUで動的にスレッドを生成できる |
その性能の証としてフアン氏は、Fermi世代ではN-Bodyのリアルタイムシミュレーションが最大2万体程度だったものが、Keplerを使って28万体でリアルタイム処理するデモを紹介した。28万体ともなると、銀河系同士の衝突の様子を再現することができる。
【動画】FermiでのN-Bodyデモ。N=2万 |
【動画】KeplerでのN-Bodyデモ。N=28万 |
このデモに次いでフアン氏は、「Something new」と前置きした上で、GK104を含むKeplerが世界で初めて仮想化に対応するGPUであることを明かし、その機能を利用した2つの新プラットフォームを発表した。
その1つは「VGX Technology」。これはエンタープライズ向けのソリューションで、Keplerを搭載するVGXボード、仮想化を実現するソフトウェアレイヤーのVGX Hypervisor、そしてVGXの設定を行なうUser-Selectable-Machines(USMS)で構成される。
VGXボードは192SPを内蔵したKeplerベースのチップを4基と16GBのメモリを搭載したPCI Expressカードで、これ1枚で最大100ユーザーを処理できる。
VGX Hypervisorは現在Citrix用が用意されている。壇上にはCitrixのGroup VM and GMであるSumit Dhawan氏が招かれ、同社の仮想デスクトップソフトをインストールしたiPadでWindowsの画面を開き、仮想GPUをローカルGPUのように扱える様子が紹介された。現在、米国などでは、「Bring Your Own Device」(BYOD)と呼ばれる、社員の自前の端末を企業で利用する取り組みが広がっている。BYODにより、社員は慣れ親しんだ端末を社内外で使え、企業としては業務端末にかかるコストを削減できるメリットがある。VGXにより、そういった環境で各端末がKeplerの性能の恩恵を受けることができるようになり、さらに生産性を向上できる。
USMSというのは、管理者が端末毎に標準、NVS、Quadroという構成を割り当てを実現できるようにするもので、Quadro USMを使うと、シンクライアントやタブレットなどでも、Quadro相当の機能や性能を利用できるようになる。
その実例のデモには、映画で有名な映像スタジオであるIndustrial Light & Magic(ILM)のGrady Cofer氏が招かれた。Cofer氏は、スタートレックやアベンジャー、バトルシップといった作品を手がけており、壇上のMacBookからILM社内のVGXシステムにアクセスし、仮想環境でもストレスなく映画レベルの映像制作が行なえることを示した。
なお、VGXについてはMicrosoft、VMware、Xenも対応を表明している。
もう1つ、本日の目玉として最後に紹介されたKeplerの仮想化を利用したソリューションが「GeForce GRID」と呼ばれるものだ。これは、クラウドにあるK10内蔵のサーバー側でゲームを実行し、その映像をストリーミングで端末に配信することで、GPUが貧弱な端末でもハイエンドなゲームを楽しめるというもの。また、端末に依存しない(たとえばAndroidでWindowsの)ゲームプレイができる、月額課金制度などにより、ゲームの購入コストを抑えられるといったメリットがある。
類似のサービスはすでに存在しているが、GeForce GRIDでは、Keplerの仮想化によってサービスプロバイダがサーバーを集約できるというメリットと、Keplerの動画エンコーダによって配信遅延を減らせるというメリットがある。
具体的にはGeForce GRIDでは、1枚のK10カードで最大8本のゲームを実行、配信できる。遅延については、ローカルでゲーム機を使っているのと同等の遅延を実現できるという。
フアン氏の説明によると、既存のゲーム機では画面を1フレームレンダリングするのに100msecかかり、ディスプレイ側での表示に66msecがかかる。これを従来のクラウドベースで実行した場合、さらに画像をCPUでエンコードするのに30msec、ネットワークの配信に75msec、端末でのデコードに15msecかかり、合計286msecとなり、ゲームをプレイするのに満足な反応が得られない。しかし、GeForce GRIDでは、ローカルでプレイするのより短い遅延を実現できるという。
そのからくりは、K10がゲーム機に比べ非常に高性能であるため、レンダリングが半分の50msで完了できるのと、K10が内蔵するハードウェアエンコーダが10msecで処理を終えられることにある。
また、GeForce GRIDを用いたサービスを提供するパートナーとしてGaikaiが引き合いに出されたのだが、おそらくGaikaiの独自技術によって、ネットワーク遅延は30msに短縮される。このほか、端末側の進化によるものと思われるが、デコード処理も5msに短縮される。これで、ディスプレイ側での表示の66msecを入れても、計161msecに収まるという計算だ。
GeForce GRIDは、Gaikaiのほか、G-cluster、Playcast、Otoy、Ubitusといった企業が採用を表明している。
このほか、基調講演後の質疑応答では、K20がGeForce GTX 680の約2倍にあたる71億トランジスタを搭載し、メモリバンド幅は384bit以上になることが明らかにされた。
【動画】GaikaiによるHawkenのライブデモ |
(2012年 5月 16日)
[Reported by 若杉 紀彦]