NVIDIA、前世代からワット当たり性能を2倍に高めたGeForce 600シリーズ
〜GeForce GTX 580が3枚必要なデモをGTX 680 1枚で実行可能に

ロゴも新しくなった

3月22(現地時間) 発表



 米NVIDIAは、これまで「Kepler」のコードネームで呼ばれてきた新アーキテクチャ採用のGPU「GeForce 600」シリーズを発表した。搭載製品は即日出荷開始される。

 基本的なアーキテクチャは前世代の「Fermi」を踏襲しながらも、徹底的に効率を見直し再設計を行なった。これにより、ワットあたりの性能はGeForce 500シリーズの2倍に向上したとしている。

 効率改善の手法として、制御ロジックの数を半減させた。500シリーズでは、32基のSPを1SM(Streaming Processor)という単位にまとめ、1SMにつき1基の制御ロジックが割り当てられていた。GTX 580では16SM、すなわち16基の制御ロジックが搭載されていたが、GTX 680では8基に半減させることで、消費電力を抑えた。減少した分については、スケジューリング処理をソフトウェア(CPU)に肩代わりさせることで、性能の低下を防いでいる。また、制御ロジックとともに、ジオメトリエンジンの数も半減しているが、クロックを2倍にし、その他の改善を施したPolyMorph 2.0にすることで、前世代よりも性能を2倍に引き上げている。ちなみに、600シリーズでは、192SPをひとまとめにした構成になっており、これをSMXと呼称している。

 また、プロセスルールが40nmから28nmへと微細化したことの寄与も大きく、GTX 680のSPクロックは、GTX 580の1,544MHzから1,006MHzへと、7割程度に下がっているものの、SP数はGTX 580の512基に対し、GTX 680は1,536SPと3倍になっており、クロックの低下をSP数の増分で補い、絶対性能も向上させている。その一方で、TDPはGTX 580の244Wから、195Wへと大きく削減し、ダイサイズも520平方mmから294平方mmにするなど、チップの規模は従来のハイミドルクラスにとどまっている。なお、GTX 580では、SPクロックがグラフィックスクロックの2倍になっていたが、GTX 680では、そういった仕組みはなくなり、同じクロックで動作する。

GeForce GTX 580では32SPと1制御ロジックで1SMを構成 GeForce GTX 680では192コアと1制御ロジックで1SMXを構成 8SMXで1,536SPを搭載する
SMのブロックダイヤグラム GPU全体のブロックダイヤグラム ダイ写真

 メモリについては、インターフェイスが384bitから256bitになったが、クロックが4GHzら6GHzに上がっているため、バンド幅は192GB/secと同じ性能になっている。ただし、キャッシュは倍速化されている。

 これらにより、理論性能値はGTX 580の1,581GFLOPSから3,090GFLOPSになった。また、EPIC GAMESが開発した「SAMARITAN」というデモにおいて、GTX 580では3枚が必要だったものが、GTX 680では1枚で動作させられるようになったという。

 ただしこれは、いわゆるGPU性能が同条件で3倍になったというのではなく、アンチエリアスに関わる部分が大きい。2011年にGTX 580でデモを行なった際はMSAA(Multi Sample Anti Aliasing)を用いたが、GTX 680では、MSAAよりも6割高速な処理が可能なFXAA(Fast Approximate Anti Aliasing)を利用している。一般的なゲームにおける性能は、Radeon HD 7970に対して1〜4割程度高いとしている。

SAMARITANのデモにGTX 580が3枚必要だったところ、GTX 680は1枚で動作させられる GTX 580とのワット当たり性能の比較
Radeon HD 7970との性能比較 Radeon HD 7970とのワット当たり性能の比較

 機能面では、昨今のCPUと同じブースト機能を取り入れた。消費電力、GPUの温度/負荷、メモリ負荷などを監視し、TDPに余裕がある場合は、GPUのクロックをリアルタイムで最大限引き上げる。具体的には、GTX 680のベースクロックは1,006MHzだが、Boostクロックは1,058MHzになっている。ただしこれは、1,058MHzで頭打ちではなく、負荷次第では1,100MHz程度まで上がる。また、オーバークロックモデルも用意される。

消費電力が低い場合、TDPの範囲でGPUクロックを引き上げる オーバークロックモデルなら最大1,200MHzも可能

 アンチエイリアスについては、FXAAだけでなく、新たに独自開発したTXAAにも対応する。TXAAの技術詳細は公開されていないが、TXAA 1というモードでは、8x MSAA以上の画質を2x MSAA程度の負荷で実現できるという。さらに、前後のフレームを参照するTXAA 2では、8〜16x MSAA相当の画質を4x MASSの負荷で実現可能としている。TXAAについては、すでに大手ゲームデベロッパが対応を表明している。

MSAAとTXAAの負荷と画質の関係 AAなし
8x MSAA TXAA

 動的VSyncという機能も実装された。従来、VSyncを有効にすると、画面を横方向にパンさせたとき発生する、画面上下での描画のずれがなくなるが、フレームレートが60fpsを維持できないと、30fps、15fpsへと一気に落ちるという問題があった。これに対して、動的VSyncを利用すると、60fpsを切った瞬間にVSyncがオフになるため、フレームレートの落ち込みがなだらかになり、60fpsに戻ると、VSyncも自動的にオンに戻る。

従来のVSyncオン状態では、フレームレートが60fpsを切ると、30fpsまで一気に落ちていた 動的VSyncでは、60fpsを切るとVSyncを一時的に切ることで、なだらかにフレームレートが下がる

 GTX 680の主な仕様は下表の通り。厚さは2スロットだが、ファンの素材や、ヒートパイプ、ヒートシンクの形状を改良することで、騒音レベルは46dBAと、同社製ハイエンドGPUとしてもっとも低騒音になっているという。電源は6ピン×2。インターフェイスは、新たにPCI Express 3.0に対応した。米国での実売価格は499ドル。

【表1】GeForce GTX 680の仕様
  GeForce GTX 680 GeForce GTX 580
SP数 1,536基 512基
SPクロック 1,006MHz 1,544MHz
テクスチャユニット数 128基 64基
ROP数 32基 48基
メモリ 2GB GDDR5 1.5GB GDDR5
メモリクロック 6,008MHz 4,008MHz
メモリインターフェイス 256bit 384bit
メモリバンド幅 192.26GB/sec 192.4GB/sec
プロセスルール 28nm 40nm
TDP 195W 244W
トランジスタ数 35億4千万 30億

GeForce GTX 680 カバーを外したところ。冷却周りも改善させた
ヒートシンク類を外したところ ブラケット

 ディスプレイインターフェイスはデュアルリンクDVI×2、HDMI 1.4a、DisplayPort 1.2の4系統。これまで3画面立体視の「3D Vision Surround」には2枚のビデオカードが必要だったが、DVI×2とHDMI(アダプタでDVIに変換)の3つを使って、1枚で3画面立体視が可能になった。さらに、この状態からDisplayPort経由の2D表示も可能で、3画面で立体視しながら、もう1画面でゲームの情報を得たり、チャットしたりといった使い方が可能になった。また、HDMI経由で3,840×2,160ドットの4K出力にも対応する。

3D Vision Surround+1ディスプレイが可能 4K出力にも対応

 ノートPC用には複数のモデルが用意されるが、一部は従来のFermiコアのものや、Fermiでありつつもプロセスルールが28nmというものも含まれている。詳細は下表の通り。

【表2】GeForce 600Mシリーズの仕様
  GeForce GTX 675M 670M 660M
プロセスルール 40nm 40nm 28nm
アーキテクチャ Fermi Fermi Kepler
SP数 最大384基 最大336基 最大384基
SPクロック 最大620MHz 最大598MHz 最大835MHz
メモリ 最大2GB GDDR5 最大3GB GDDR5 最大3GB GDDR5
メモリクロック 最大1,500MHz 最大1,500MHz 最大2,000MHz
メモリインターフェイス 最大256bit 最大192bit 最大128bit

  650M 640M 640M LE 635M
プロセスルール 28nm 28nm 28nm 40nm 40nm
アーキテクチャ Kepler Kepler Kepler Fermi Fermi
SP数 最大384基 最大384基 最大384基 最大96基 最大144基
SPクロック 最大850MHz 最大625MHz 最大500MHz 最大762MHz 最大675MHz
メモリ 最大2GB GDDR5/GDDR3 最大2GB GDDR5/GDDR3 最大2GB GDDR3 最大2GB GDDR5/GDDR3 最大2GB GDDR5
メモリクロック 最大4,000MHz 最大4,000MHz 最大1,800MHz 最大3,138MHz 最大1,800MHz
メモリインターフェイス 最大128bit 最大128bit 最大128bit 最大128bit 最大192bit

  630M 620M
プロセスルール 28/40nm 28nm
アーキテクチャ Fermi Fermi
SP数 最大96基 最大96基
SPクロック 最大800MHz 最大625MHz
メモリ 最大2GB GDDR3 最大1GB GDDR3
メモリクロック 最大2,000MHz 最大1,800MHz
メモリインターフェイス 最大128bit 最大128bit

(2012年 3月 22日)

[Reported by 若杉 紀彦]