【後藤弘茂のWeekly海外ニュース】NVIDIAが40nmプロセスのGPUを一気に3ファミリ投入

■後藤弘茂のWeekly海外ニュース■

NVIDIAが40nmプロセスのGPUを一気に3ファミリ投入

●40nmプロセスのGPUダイを3種類一気に投入するNVIDIA

　NVIDIAが、同社初の40nmプロセス世代のGPUを発表した。いずれもノートPC向けで、ハイパフォーマンスセグメントの「GeForce GTS 250M/260M」、パフォーマンスセグメントの「GeForce GT 230M/240M」、メインストリームセグメントの「GeForce G210M」の3系統。3系統それぞれで、GPUのダイ(半導体本体)が異なる。つまり、NVIDIAは一気に3種類の40nmプロセスのダイを発表したことになる。NVIDIAが巻き返しに本気になっていることが、このラインナップからもわかる。

　NVIDIAは、今夏の後半からチャネル向けのデスクトップ向け製品でも40nmプロセスの製品を導入することを、すでに明らかにしている。今回のノートPC向け40nmは、その前哨戦となる。GPUベンダーは、現在はデスクトップPC向けとノートPC向けを同ダイ(半導体本体)で製造することが一般的であるため、ノートPC向けGPUからデスクトップPC向けのスペックも推し量ることができる。

　NVIDIAの新しい200Mシリーズのスペックはニュースで既報の通り。単精度浮動小数点プロセッサであるStreaming Processor(SP)がGeForce GTS 250M/260Mは96個、GT 230M/240Mが半分の48個、G210Mは16個。3月に発表したハイエンドのエンスージアスト向けノートPC GPU「GeForce GTX 260M/280M」はSPが128個(GTX 280M)と112個(GTX 260M)なので、GTS 250M/260Mはそのすぐ下につけるイメージだ。従来、同じ市場レンジの製品のSPは64個だったので、プロセッサ個数だけを見れば50%増えたことになる。55nmプロセスのGTX 260M/280Mも、当面は継続して販売される。つまり、モバイルGPUで4階層のダイ構成となる。

　プロセッサ数の増量はGT 230M/240Mも同様で、従来がSP 32個だったセグメントでSP 48個と50%のプロセッサ増量。ローエンドのG210Mだけは、SP 16個と従来の製品と同レンジとなる。つまり、パフォーマンスセグメントから上は、プロセッサ数を1.5倍に増やした。

GeForce GTX 280、280M、260Mのダイ比較


GeForce 200Mシリーズの概要

●テクスチャプロセッサクラスタの構成がファミリで異なる

　NVIDIAアーキテクチャでは、SP 8個がSIMD(Single Instruction, Multiple Data)実行の単位で、Streaming Multiprocessor(SM)としてクラスタ化されている。ダイ写真が公開されているGeForce GTS 250M/260Mは、GeForce GTX 200(GT200)系と同様に3個のSMとテクスチャユニットがペアの構成を取る。G210MはSPが16個なので、必然的にGeForce 8800(G80)世代と同様の2個のSMとテクスチャユニットがペアになった構成と推定される。つまり、40nm世代の3種類のダイで、テクスチャとプロセッサの統合クラスタである「TPC(Texture/Processor Cluster)」の構成自体が異なっている。

　メモリインターフェイスは、GeForce GTS 250M/260Mがハイパフォーマンスセグメントとしては珍しく128-bit幅と狭い。その代わりGDDR5でメモリクロック1.8GHz(260M)/1.6GHz(250M)で回して、メモリ帯域を稼いでいる。スペックでは最大2GHzまで可能となっている。1.8GHz時で転送レートは3.6Gtps、メモリ帯域は57.6GB/secとなる。256-bit幅のGDDR3と充分に匹敵する帯域となる。

　実際、ハイエンドのはずのGeForce GTX 260M/280Mは、256-bitメモリインターフェイスでGDDR3 950MHz(1.9Gtps)なのでメモリ帯域は45.6GB/sec。メモリ帯域では順位が逆転する。ただし、GDDR5はGDDR3よりメモリのPrefetch幅が2倍に増えているため、メモリアクセス粒度が倍増している。そのため、DRAMコントローラのチャネル幅を狭めていると見られる。

　GeForce GT 230M/240Mは128-bit幅でGDDR3、GeForce G210Mは64-bit幅でGDDR3だ。

NVIDIA GPUの製品とダイサイズ

●いやいやながらのDirectX 10.1サポート

　NVIDIAは、今回の200M系から、“いやいやながら”DirectX 10.1をサポートした。なぜ、いやいやながらと形容したかというと、NVIDIAの発表姿勢が積極的ではないからだ。例えば、今回の製品を説明するプレス向けの発表プレゼンテーションでもDirectX 10.1サポートを謳わず、資料の片隅に控え目に記載してあるだけ。いつもなら、新APIのサポートで得られるより進んだグラフィックス表現の例を積極的に示すのに、今回はそれもない。

　もちろん、その理由は簡単で、DirectX 10.1がAMD(旧ATI)の拡張仕様だからだ。状況は、DirectX 8世代で、ATI TechnologiesがDirectX 8.1へと拡張したのと似ている。NVIDIAとしては、サポートしないで放っておけば、アプリケーションの対応が進まず意義を失ってしまうため、DirectX 8.1の時は無視した。しかし、今回の10.1ではNVIDIAは、いやいやながらでも対応してきた。

　おそらく、その理由は、次のDirectX 11が下位互換性を求めているからだ。NVIDIAとしては、いずれにせよDirectX 11の世代ではDirectX 10.1に対応せざるを得ない。それなら、その1つ手前のGPUでサポートして、技術的に枯らせておいた方がいいという考え方もできる。

　また、DirectX 10.1の「0.1」の部分は、それほど実装が重そうではない。新たに大きなユニットを加えたり、シェーダプロセッサの構造を変えたりする必要がそれほどない。とはいえ、ソフトウェアで実装できるものでもない。ハードウェア上で、小さな改良を多くの部分に加える必要があるタイプの拡張だ。

　例えば、MSAA(Multi Sampled Anti Aliasing)がピクセルシェーダから使えるようにするためには、従来ピクセルシェーダがアクセスできなかったZバッファへのデータパスが必要になる。実際には、Zバッファ領域はビデオメモリ上にあるため、Zバッファメモリへのアクセス自体はメモリコントローラの制御を変更すればいいが、Zはキャッシュもされているためちょっと複雑な話になる。Zキャッシュのポートは従来シェーダプロセッサアレイに直結はしていないはずなので、その部分の物理的なポートの変更が必要だったかもしれない。

　DirectX 10.1のサポートでは、こうした細かな改良が山ほどある。トランジスタ数はそれほど食わないかもしれないが、設計はやっかいであるため、検証のためDirectX 11の1世代前に実装して置く方がいいと判断したとしてもおかしくはない。今回の製品は最下位のG210Mも含めてDirectX 10.1サポートとなっている。

●小さなダイサイズで製造コストを抑える

GeForce 200Mのパッケージ比較

　NVIDIAによると、今回の40nm世代のGeForce 200Mシリーズには3種類のダイがあるという。パッケージ写真を見てもそれが裏付けられる。今回は上位のGeForce GTS 250/260Mも128-bitメモリインターフェイスであるため、パッケージはNVIDIAのノートPC向けGPUの小さい方のパッケージサイズである29mm角。同じ128-bit幅のGeForce GT 230/240Mも同様に29mm角で、64-bit幅のGeForce G210Mだけは29mm角と23mm角の2種類のパッケージの写真が存在する。

　パッケージから逆算されるダイサイズ(半導体本体の面積)は以下の通り。

・GeForce GTS 250/260Mが130平方mm台後半
・GeForce GT 230/240Mが100平方mm程度
・GeForce G210Mが60平方mmを切る程度

　いずれも、それぞれのセグメントのGPUとしては、ダイが小さく、製造コストが低い。つまり、それだけマージンが大きく、利幅が取れる。過去数世代のNVIDIAのGPUは、相対的にダイサイズが大きく、コスト高なケースが多かった。しかし、40nm世代では、その問題は解消できそうだ。もちろん、パフォーマンスレンジ的に、NVIDIAが狙ったマーケットセグメントで充分に戦えて、価格のディスカウントをしないで済めばの話だが。

　200Mシリーズのダイサイズを、GPUのダイサイズマップに割り当ててみる。GeForce GTS 250/260MがちょうどAMDのATI Radeon HD 4770 (RV740)の136平方mmと並ぶレンジだ。つまり、このダイのGPUは、性能でRV740のダイと競らなければならない。