【GTCレポート】
NVIDIAの次世代GPUアーキテクチャ「Fermi」搭載Teslaを公開

FermiアーキテクチャGPU搭載版のTeslaを手にする、NVIDIA CEOのJen-Hsun Hang氏

会期:9月30日~10月2日(現地時間)

会場:米カリフォルニア州サンノゼ The Fairmont San Jose



●FermiアーキテクチャのGPUを発表

 NVIDIAが9月30~10月2日の会期で、GPUコンピューティングの技術会議である「GPU Technologies Conference」を開催。初日に行なわれた同社CEO Jen-Hsun Hang氏の基調講演で、次世代GPUアーキテクチャとなる「Fermi」を発表。そのGPUを搭載した、HPC向けのTeslaボードを披露した。

 公開されたボードを見ると、ディスプレイインターフェイスのDVI×1、SLIコネクタ×2、6ピン+8ピンのPCI Express電源端子を備える点などが目にとまる。ボードサイズは9インチと見られる。

FermiアーキテクチャのGPUを搭載するTeslaボード。Tesla C1060の後継に相当する製品と見られるボード裏面、SLI端子を2個備える点や、コーナーに配置された6ピン+8ピンの電源端子を確認できる
【10月3日付記】このボードは全くのサンプルで、製品版では基板設計は変更されるようだ
Tesla製品ながらブラケット部にはDVI端子を搭載。FermiはGT200世代よりもコンテキストスイッチを高速化していることから、Tesla製品にもディスプレイ端子が備わるのかも知れない
Fermiのチップ。「0935A1」という記号が気になるところで、製造週とリビジョンを示している可能性がありそうだチップ裏面FermiアーキテクチャGPUのダイ写真。トランジスタ数は30億に達する

 ちなみに、Fermiの詳細については後藤氏のレポートに詳しいが、基調講演で取り上げられた話題を中心に簡単にまとめておきたい。

 Fermiは40nmプロセス製造で30億トランジスタのGPUとなる。従来SP(Streaming Processor)と呼ばれた各コアはCUDA Coreに名称が変更され、これを512基搭載。GT200世代のGPUが240基であったので、2倍以上の増量となる。

 ただCoreの内部やCoreの構成はGT200までとは大きく異なる。複数Coreの管理単位であるSM(Streaming Multi-processor)については、Core32基単位のSMを16ユニット搭載。SMにおける実行単位となるWarpのスケジューラやディスパッチユニットを1つのSMに2基ずつ搭載。従来のローカルメモリに加えて、L1キャッシュの機能も搭載しており、ローカルメモリ/L1キャッシュの兼用で合計64KBとなる。このメモリはローカルメモリ16KB+L1キャッシュ48KB、L1キャッシュ16KB+ローカルメモリ48KBに切り替えて使うことができる。

 ちなみに、これまでのCUDAのアーキテクチャではメモリが3階層に分かれており、いずれのメモリ領域を使うかはプログラム側で指定する必要があった。例えば、各SMが備えていた16KBのローカルメモリを使う場合は「__shared__」、グローバルメモリ(いわゆるビデオメモリ)を使う場合は「__global__」という修飾子を付けて変数を宣言する。明示的にメモリを扱える一方で、宣言なしには高速なローカルメモリが使われないわけである。もちろん、これをうまく使うことがCUDAアプリケーションの1つのチューニングポイントでもあった。

 Fermiではさらに、すべてのSMからアクセス可能な共有型のL2キャッシュを768KB備えるのも特徴となる。ハードウェア側が自動的にキャッシュをする書き込み可能なキャッシュで、昨今のマルチコアCPUが持っている共有型のL2/L3キャッシュに近いものと考えていい。

 グローバルメモリのインターフェイスは384bit。NVIDIAのGPUとしては初めてGDDR5に対応するほか、ECCメモリをサポートするのも大きな特徴だ。データの正当性を高めるエラー訂正が求められるHPC分野向けの対応となる。逆にいえば、コンシューマ向けであるGeForce製品の場合は、ECCなしメモリが採用されるのが一般的となるはずで、このあたりで製品としての機能の差別化、コスト差が発生することになる。

 ちなみに、このFermiというのはアーキテクチャのコードネームである。このアーキテクチャは、HPC向けのTeslaブランド、業務用途向けのQuadroブランド、コンシューマ向けのGeForceブランドのすべてに展開されることになる。

Fermiアーキテクチャと従来製品の比較表(NVIDIA WhitePaperより)Fermiアーキテクチャのブロックダイヤグラム(NVIDIA WhitePaperより)Streaming Multi-processorとCUDA Coreの内部構造(NVIDIA WhitePaperより)

●倍精度浮動小数点演算の処理性能をアピール

 Fermiの性能については動作クロックが公開されていないため、最終的な製品を待つ必要がある。このアーキテクチャにおける具体的な性能としては、倍精度浮動小数点演算の性能が、GT200世代に比べて最大8倍の性能を持つという点がアピールされた。基調講演においても、倍精度浮動小数点演算を用いて描画されるイメージのフレームレートを、GT200とFermiで比較。前者が3.5fps前後で約14億6,000万命令/秒の処理速度であるのに対し、Fermiでは18fps弱、75億3,000万命令/秒の処理速度であることを示した。

 なお、GTC 2009の初日基調講演およびプレスカンファレンスにおいても、このFermiのグラフィックス利用の具体的な話はなかった。今回の基調講演で正式にDirectX 11への対応が打ち出されたのが目新しい程度で、固定シェーダ機能やラスタライザ、ROPの構造などはいまだ不明だ。FermiはデータセンターやHPC向けの機能が多いアーキテクチャだが、Jen-Hsun Hang氏はグラフィックスも依然としてコアビジネスであると表明しており、GeForce製品の性能にも期待がかかるところ。

 気になるスケジュールだが、現在はシリコンがあがってきた段階で、通常、このままのペースで進めば数カ月のうちに市場に登場するHang氏は語っている。まずはTesla製品がリリースされ、その後にGeForceやQuadroといったグラフィックス製品が登場する見込みだ。

基調講演で行なわれた倍精度浮動小数点演算の性能差を示すデモ。左がGT200世代、右がFermiで、このデモではピークの8倍とはいかないものの、5倍程度の向上が見られるGeForce製品のアピール。Direct X11対応が公式の場で示された。レイトレーシングなども性能面で現実味が出てくる

(2009年 10月 1日)

[Reported by 多和田 新也]