NVIDIA、前世代からワット当たり性能を2倍に高めたGeForce 600シリーズ～GeForce GTX 580が3枚必要なデモをGTX 680 1枚で実行可能に

NVIDIA、前世代からワット当たり性能を2倍に高めたGeForce 600シリーズ

～GeForce GTX 580が3枚必要なデモをGTX 680 1枚で実行可能に

ロゴも新しくなった

3月22(現地時間) 発表

　米NVIDIAは、これまで「Kepler」のコードネームで呼ばれてきた新アーキテクチャ採用のGPU「GeForce 600」シリーズを発表した。搭載製品は即日出荷開始される。

　基本的なアーキテクチャは前世代の「Fermi」を踏襲しながらも、徹底的に効率を見直し再設計を行なった。これにより、ワットあたりの性能はGeForce 500シリーズの2倍に向上したとしている。

　効率改善の手法として、制御ロジックの数を半減させた。500シリーズでは、32基のSPを1SM(Streaming Processor)という単位にまとめ、1SMにつき1基の制御ロジックが割り当てられていた。GTX 580では16SM、すなわち16基の制御ロジックが搭載されていたが、GTX 680では8基に半減させることで、消費電力を抑えた。減少した分については、スケジューリング処理をソフトウェア(CPU)に肩代わりさせることで、性能の低下を防いでいる。また、制御ロジックとともに、ジオメトリエンジンの数も半減しているが、クロックを2倍にし、その他の改善を施したPolyMorph 2.0にすることで、前世代よりも性能を2倍に引き上げている。ちなみに、600シリーズでは、192SPをひとまとめにした構成になっており、これをSMXと呼称している。

　また、プロセスルールが40nmから28nmへと微細化したことの寄与も大きく、GTX 680のSPクロックは、GTX 580の1,544MHzから1,006MHzへと、7割程度に下がっているものの、SP数はGTX 580の512基に対し、GTX 680は1,536SPと3倍になっており、クロックの低下をSP数の増分で補い、絶対性能も向上させている。その一方で、TDPはGTX 580の244Wから、195Wへと大きく削減し、ダイサイズも520平方mmから294平方mmにするなど、チップの規模は従来のハイミドルクラスにとどまっている。なお、GTX 580では、SPクロックがグラフィックスクロックの2倍になっていたが、GTX 680では、そういった仕組みはなくなり、同じクロックで動作する。


GeForce GTX 580では32SPと1制御ロジックで1SMを構成	GeForce GTX 680では192コアと1制御ロジックで1SMXを構成	8SMXで1,536SPを搭載する

SMのブロックダイヤグラム	GPU全体のブロックダイヤグラム	ダイ写真

　メモリについては、インターフェイスが384bitから256bitになったが、クロックが4GHzら6GHzに上がっているため、バンド幅は192GB/secと同じ性能になっている。ただし、キャッシュは倍速化されている。

　これらにより、理論性能値はGTX 580の1,581GFLOPSから3,090GFLOPSになった。また、EPIC GAMESが開発した「SAMARITAN」というデモにおいて、GTX 580では3枚が必要だったものが、GTX 680では1枚で動作させられるようになったという。

　ただしこれは、いわゆるGPU性能が同条件で3倍になったというのではなく、アンチエリアスに関わる部分が大きい。2011年にGTX 580でデモを行なった際はMSAA(Multi Sample Anti Aliasing)を用いたが、GTX 680では、MSAAよりも6割高速な処理が可能なFXAA(Fast Approximate Anti Aliasing)を利用している。一般的なゲームにおける性能は、Radeon HD 7970に対して1～4割程度高いとしている。


SAMARITANのデモにGTX 580が3枚必要だったところ、GTX 680は1枚で動作させられる	GTX 580とのワット当たり性能の比較

Radeon HD 7970との性能比較	Radeon HD 7970とのワット当たり性能の比較

　機能面では、昨今のCPUと同じブースト機能を取り入れた。消費電力、GPUの温度/負荷、メモリ負荷などを監視し、TDPに余裕がある場合は、GPUのクロックをリアルタイムで最大限引き上げる。具体的には、GTX 680のベースクロックは1,006MHzだが、Boostクロックは1,058MHzになっている。ただしこれは、1,058MHzで頭打ちではなく、負荷次第では1,100MHz程度まで上がる。また、オーバークロックモデルも用意される。


消費電力が低い場合、TDPの範囲でGPUクロックを引き上げる	オーバークロックモデルなら最大1,200MHzも可能

　アンチエイリアスについては、FXAAだけでなく、新たに独自開発したTXAAにも対応する。TXAAの技術詳細は公開されていないが、TXAA 1というモードでは、8x MSAA以上の画質を2x MSAA程度の負荷で実現できるという。さらに、前後のフレームを参照するTXAA 2では、8～16x MSAA相当の画質を4x MASSの負荷で実現可能としている。TXAAについては、すでに大手ゲームデベロッパが対応を表明している。


MSAAとTXAAの負荷と画質の関係	AAなし

8x MSAA	TXAA

　動的VSyncという機能も実装された。従来、VSyncを有効にすると、画面を横方向にパンさせたとき発生する、画面上下での描画のずれがなくなるが、フレームレートが60fpsを維持できないと、30fps、15fpsへと一気に落ちるという問題があった。これに対して、動的VSyncを利用すると、60fpsを切った瞬間にVSyncがオフになるため、フレームレートの落ち込みがなだらかになり、60fpsに戻ると、VSyncも自動的にオンに戻る。


従来のVSyncオン状態では、フレームレートが60fpsを切ると、30fpsまで一気に落ちていた	動的VSyncでは、60fpsを切るとVSyncを一時的に切ることで、なだらかにフレームレートが下がる

　GTX 680の主な仕様は下表の通り。厚さは2スロットだが、ファンの素材や、ヒートパイプ、ヒートシンクの形状を改良することで、騒音レベルは46dBAと、同社製ハイエンドGPUとしてもっとも低騒音になっているという。電源は6ピン×2。インターフェイスは、新たにPCI Express 3.0に対応した。米国での実売価格は499ドル。

【表1】GeForce GTX 680の仕様

	GeForce GTX 680	GeForce GTX 580
SP数	1,536基	512基
SPクロック	1,006MHz	1,544MHz
テクスチャユニット数	128基	64基
ROP数	32基	48基
メモリ	2GB GDDR5	1.5GB GDDR5
メモリクロック	6,008MHz	4,008MHz
メモリインターフェイス	256bit	384bit
メモリバンド幅	192.26GB/sec	192.4GB/sec
プロセスルール	28nm	40nm
TDP	195W	244W
トランジスタ数	35億4千万	30億


GeForce GTX 680	カバーを外したところ。冷却周りも改善させた

ヒートシンク類を外したところ	ブラケット

　ディスプレイインターフェイスはデュアルリンクDVI×2、HDMI 1.4a、DisplayPort 1.2の4系統。これまで3画面立体視の「3D Vision Surround」には2枚のビデオカードが必要だったが、DVI×2とHDMI(アダプタでDVIに変換)の3つを使って、1枚で3画面立体視が可能になった。さらに、この状態からDisplayPort経由の2D表示も可能で、3画面で立体視しながら、もう1画面でゲームの情報を得たり、チャットしたりといった使い方が可能になった。また、HDMI経由で3,840×2,160ドットの4K出力にも対応する。


3D Vision Surround+1ディスプレイが可能	4K出力にも対応

　ノートPC用には複数のモデルが用意されるが、一部は従来のFermiコアのものや、Fermiでありつつもプロセスルールが28nmというものも含まれている。詳細は下表の通り。

【表2】GeForce 600Mシリーズの仕様

	GeForce GTX 675M	670M	660M
プロセスルール	40nm	40nm	28nm
アーキテクチャ	Fermi	Fermi	Kepler
SP数	最大384基	最大336基	最大384基
SPクロック	最大620MHz	最大598MHz	最大835MHz
メモリ	最大2GB GDDR5	最大3GB GDDR5	最大3GB GDDR5
メモリクロック	最大1,500MHz	最大1,500MHz	最大2,000MHz
メモリインターフェイス	最大256bit	最大192bit	最大128bit

	650M	640M	640M LE		635M
プロセスルール	28nm	28nm	28nm	40nm	40nm
アーキテクチャ	Kepler	Kepler	Kepler	Fermi	Fermi
SP数	最大384基	最大384基	最大384基	最大96基	最大144基
SPクロック	最大850MHz	最大625MHz	最大500MHz	最大762MHz	最大675MHz
メモリ	最大2GB GDDR5/GDDR3	最大2GB GDDR5/GDDR3	最大2GB GDDR3	最大2GB GDDR5/GDDR3	最大2GB GDDR5
メモリクロック	最大4,000MHz	最大4,000MHz	最大1,800MHz	最大3,138MHz	最大1,800MHz
メモリインターフェイス	最大128bit	最大128bit	最大128bit	最大128bit	最大192bit

	630M	620M
プロセスルール	28/40nm	28nm
アーキテクチャ	Fermi	Fermi
SP数	最大96基	最大96基
SPクロック	最大800MHz	最大625MHz
メモリ	最大2GB GDDR3	最大1GB GDDR3
メモリクロック	最大2,000MHz	最大1,800MHz
メモリインターフェイス	最大128bit	最大128bit