後藤弘茂のWeekly海外ニュース

■後藤弘茂のWeekly海外ニュース■

NV40は8ピクセル出力/16バーチャルパイプで来年頭に登場

●NV4x世代で性能を大きく伸ばすNVIDIA

NVIDIA社長兼CEO
Jen-Hsun Huang氏

　NVIDIAの次々世代GPU「NV40」の姿が、先週開催されたCOMPUTEXで明らかになり始めた。

　NVIDIAはGeForce 2GTSの説明時に、新アーキテクチャGPUがコードネーム「NVx0」となり、中間のアーキテクチャ拡張世代が「NVx5」になることを明らかにしている。そのため、GeForce FX 5900(NV35)の次のメジャー世代は、NV40になることは明らかだ。そして、「半年毎に新GPUを出す」(NVIDIA, David B. Kirk氏, Chief Scientist)ことから、NV40が迫っていることは予想されていた。

　複数の業界関係者によると、NV40は8ピクセル/クロックの出力で、16バーチャルパイプラインの構成になるという。製造プロセス技術は0.11μmで、Shaderアーキテクチャは2.0+。ホストインターフェイスはAGP 8Xで、PCI Express x16ブリッジチップを使うことで、PCI Expressカードを可能にする。また、メモリにはDDR/GDDR2だけでなく、GDDR3も使えるようにするという。ただし、実際のボードがGDDR3を使うかどうかはわからない。

　NV40のリリースは来年頭前後の予定だが、まだNVIDIA以外のベンダーは誰も実際のチップを見たことはないという。ボード設計のデザインガイドは、年末までに提供される予定で、そこから設計に入るため搭載ボードの正確な登場時期はまだわからない。

　また、NVIDIAはNV40に続いて「NV45」も準備しているという。NV45は2004年第2四半期の予定で、パイプライン構成はほぼNV40と同等だという。そのため、同クロック/同メモリ構成時には、NV40とNV45の間に性能差はほぼ出ないようだ。最大の違いは、PCI Express x16インターフェイスをオンチップで内蔵することだ。NV45のShaderの世代は、今のところまだわかっていない。

　さらに、NVIDIAはNV4x系アーキテクチャのメインストリーム版GPUとバリュー版GPUも計画している。メインストリーム版が「NV41」で、バリュー版が「NV42」だと言われている。どちらもPCI Express版だが、NVIDIAはさらに両GPUのAGP版も提供する。AGP版はPCI Express版とはコードネームが異なる。おそらく、来年のCebitの時期には、これらの製品またはサンプルが多数見られるだろう。

　また、NVIDIAはIntelプラットフォーム向けチップセットにも進出するというウワサも立っている。これは、NVIDIAがIBMとファウンドリ契約を結んだためだ。IntelはNVIDIAを警戒しているため、NVIDIAにIntel CPUのFSB(フロントサイドバス)ライセンスを与えてない。しかし、IBMはIntelとのクロスライセンスを持つため、IBMで製造すればIntelから訴えられずに済む可能性がある。この話は複数のソースから聞いたが、いずれも「NVIDIAから聞いたのではない」という。そのため、真偽はまったくわからない。

●パイプライン構造を2倍に広げるNV40

　NVIDIAのNV40世代のアウトラインが明らかになったことで、次世代GPUの性能やアーキテクチャも多少は想定できるようになり始めた。

　まず、NV40が8パイプ/16仮想パイプであることで、ピクセル側のパイプラインの構造はある程度想定できる。NVIDIAのKirk氏は、GeForce FX 5800(NV30)とGeForce FX 5900(NV35)では、ノーマルピクセル(Color＋Z)のレンダリングは4ピクセル/クロックだが、処理内容によってSIMD演算ユニットを分割することでバーチャルに8パイプラインを構成できるアーキテクチャを採用したと説明していた。具体的にはステンシルや16bit精度の処理などでは仮想パイプを取ることができる。

　NV40のピクセル部が8パイプ/16仮想パイプということは、おそらくこうしたNV30/35系のアーキテクチャを2倍に拡大したものと推定される。つまり、Pixel Shaderとして搭載している32bit×4の128bit幅のSIMD演算ユニットの数を、NV30/35系の4個から8個に倍増したと考えるのが自然だ。Pixel Shaderには、他にもテクスチャユニットやテクスチャフェッチなど様々なユニットが付随するが、少なくとも演算ユニットは2倍になった可能性が高い。

　また、バーチャルパイプ構成を取れる(演算ユニットを分割できる)ということは、Pixel Shaderの内部演算精度は、引き続き32bitであると思われる。NVIDIAは32bit演算ユニットを2個の16bit演算ユニットに分割することで、2倍の数のバーチャルパイプラインを可能にしているからだ。

　現在のDirectX9時のGeForce FX系GPUの性能の問題の多くは、32bit精度を採用したことでノーマルピクセル出力がATIのRADEON 9700(R300)や9800(R350)の半分になってしまったことに起因している。ATIは24bitの内部精度で、ノーマルピクセルを8ピクセル/クロックでコンスタントにレンダリングできるからだ。しかし、8ピクセル/クロックのNV40世代では、アーキテクチャ的にはDirectX9のフル精度時にも、NVIDIAはATIと同等のパフォーマンスレベルに達することになる。もちろん、Shader内部の処理の並列度によって、実際のShader処理効率は異なるため、これはあくまでも原理的な話だ。しかし、NVIDIAが現行世代より性能を大きく伸ばすことだけは間違いない。

●さらに製造コストが上がるNV40

　もちろん、これにはトレードオフもある。大きなトレードオフが……それはコストだ。

　NV30/35系アーキテクチャから、ピクセル側のShaderの演算ユニット数を増やすと、当然それだけトランジスタ数が必要となる。GPU内部でもっとも大きな面積を占めるのはPixel Shaderなので、インパクトは大きい。NVIDIAのGPUは、NV30で1億2,500万トランジスタ、NV35で1億3,000万トランジスタを搭載しているが、NV40世代では2億トランジスタに近づくか、超えると推定される。実際、以前、NVIDIAのKirk氏は次世代アーキテクチャでは2億トランジスタに達する可能性があることを示唆している。

　トランジスタ数が増えると、必然的に、ダイサイズも大きくなる。NV30/35のダイサイズはいずれも約200平方mmで、GeForce 3/4世代の約150平方mmより大きく増えた。NV40ではさらに増えると推定される。

　もちろん、0.13μmのNV30/35に対して、NV40は中間プロセス世代の0.11μmを使うため、微細化でダイサイズ増加はある程度抑えられる。しかし、それでもダイサイズは数十%増えるはずだ。「NV30でさえ最初は30%程度と低い歩留まりでNVIDIAは苦しんだ。NV40はさらに厳しい歩留まりになるかもしれない」とある業界関係者は語る。歩留まりが低ければ製造コストが上がる。NV40はNVIDIAにとって高くつく製品かもしれない。

　もっとも、NVIDIAはそれでも戦略的な価格をつけてくる可能性はある。「NV40はコストパフォーマンスはいい製品になるかもしれない。NVIDIAはNV40を300～350ドルのレンジに位置づけているからだ」とある業界関係者は語る。つまり、NVIDIAはNV40ではマージンを削っても低価格に持ってくる可能性があるわけだ。ただし、こうした価格戦略は、流動的であるため、実際にどの価格帯になるかは、今のところわからない。

●Shaderアーキテクチャは2.x世代のまま

　NV40のShaderアーキテクチャはShader 3.0世代ではないらしい。Shader 2.0をNVIDIAが拡張したShader 2.0+に留まると業界関係者は口を揃える。

　これは、周辺の情報からも明らかだ。例えば、MicrosoftのChas. Boyd氏(Graphics Architect, Windows Gaming & Graphics)は、今年9月に東京で開催されたゲーム開発カンファレンス「CEDEC」で、Shader 3.0サポートのハードウェアについて「一番早いものは来年3月に登場する。残りは秋頃に出てくる。ベンダによる」と説明していた。また、ATIのJason L. Mitchell氏(Project Team Leader, 3D Application Research Group)は、3月に開催されたGDC(Game Developers Conference)で、Shader 3.0については来年のGDCでもっと実際の(製品にもとづいた)話ができると示唆していた。そのため、来春と目されるATIのR420/423が最初のShader 3.0チップになる可能性が高い。

　NV40がShader 3.0ではないとすると、それは先行開発していたため間に合わなかった可能性が高い。実際、ATIの来春という計画は「かなりがんばったスケジュール」とある業界関係者は言う。それは、NVIDIAなどでは、開発に18カ月、量産に4カ月の合計22カ月が必要だからだ。通常、アーキテクチャ定義までに4カ月、RTLまでに7カ月、ネットリストまでに12カ月、物理設計完了/テープアウトまでに18カ月かかる。そうすると、Shader3.0の仕様が固まりかけた2002年後半の段階でスタートしたとしても、来春はぎりぎりのタイミングだ。

　NVIDIAがShader 3.0を待たずにNV40の開発を急いだとすれば、それは同社のアーキテクチャで性能を上げたチップをできるだけ早く投入することを優先したからだろう。もし、NV45もShader 3.0でないとすれば、NVIDIAのShader 3.0 GPUは来年秋までずれ込むことになる。

●PCI Expressにはブリッジチップで対応

　NVIDIAは、NV40世代ではブリッジチップでPCI Expressに対応するアーキテクチャを採る。GPU自体はAGP 8Xインターフェイスを内蔵し、AGP 8XにPCI Expressブリッジを接続することで、PCI Expressチップセットに対応できるようにする。同社は、メインストリーム製品でも同様の形でPCI Express対応を実現するつもりだ。

　この方法にはトレードオフがある。まず、利点としてはPCI Expressのサポートを迅速かつ容易に実現できる。同じGPUでAGP 8XとPCI Expressの両方に対応できるため、GPUベンダーは製品ラインナップを絞り、開発/製造/管理を容易にすることができる。

　難点は、この方式ではPCI Express x16の広帯域の利点が活かせないこと。AGP 8Xはピーク2.1GB/sec、それに対してPCI Express x16は片方向4GB/sec、双方向で8GB/secに達する。しかし、PCI Express x16-AGP 8Xブリッジを使った場合には帯域はAGP 8X相当に制約されてしまう。

　だが、実際には最初の世代のPCI Express GPUは、PCI Express x16の帯域をフルに必要とするだけの内部処理性能を持っていない。そのため、AGP 8Xがボトルネックになることは少ないと見られる。また、オンボードでGPUとブリッジチップのAGPインターフェイスを結ぶため、両チップ間のインターフェイスをオーバークロックして帯域を引き上げることも可能になる。

　NVIDIAの製品ロードマップに、ついにGDDR3が登場してきた。実際、COMPUTEXと平行して開催されたVIA Technologiesの技術カンファレンス「VIA Technology Forum(VTF)」では、NVIDIAのGDDR3ボードと称するサンプルボードが展示されていた。しかし、このチップはダイサイズなどから、どう見てもNV40ではない。GDDR3は現在規格の標準化が進んでいる。

　NV3x世代ではアーキテクチャ選択でリアルタイムCGでは失敗をしたNVIDIA。果たして、NV4x世代では、ソフトウェア開発者の支持を取り戻すことができるのだろうか。

VTFで展示されたNVIDIAのGDDR3ボード

□関連記事
【5月27日】【海外】CPUをはるかに追い抜くGPUのトランジスタ数
http://pc.watch.impress.co.jp/docs/2003/0527/kaigai01.htm
【3月25日】【海外】RADEON 9800とGeForce FX 5800、正しい道はどちら?
http://pc.watch.impress.co.jp/docs/2003/0425/kaigai01.htm
【6月13日】【海外】Shader 3.0とPCI Express x16への対応を進めるNVIDIA
http://pc.watch.impress.co.jp/docs/2003/0613/kaigai01.htm

□バックナンバー

(2003年10月3日)

[Reported by 後藤弘茂(Hiroshige Goto)]

【PC Watchホームページ】

PC Watch編集部 pc-watch-info@impress.co.jp 個別にご回答することはいたしかねます。