後藤弘茂のWeekly海外ニュース

X-Box解析シリーズ「グラフィックスチップ編」

■後藤弘茂のWeekly海外ニュース■

X-Boxのグラフィックスチップは6,500万トランジスタで16並列エンジン

●PS2を2倍以上も上回るスペック

　X-Boxに搭載されるNVIDIAのグラフィックスチップ「X-Chip」は、Geforceの3倍近いトランジスタ数で、新アーキテクチャのハードウェアT＆L、16並列のレンダリングエンジンを備えると見られる。こうした概要が、X-Box開発チームへのインタビューや、マイクロソフトが開催した「X-Boxパートナーミーティング」で明らかになった。

　現在明らかになっているX-Chipの概要は以下の通り。

トランジスタ数 6,500万
クロック 300MHz
浮動小数点演算性能 140.1Gflops
ジオメトリ性能 300Mポリゴン／秒
フィルレート 4.8Gピクセル／秒
メモリインターフェイス幅 128bit
メモリ 200MHz DDR SDRAM
メモリ帯域 6.4GB／秒
メモリサイズ 64MB

　現在のグラフィックスチップから考えるとばかばかしいくらい強力なスペックだ。Geforceと比べると、ジオメトリ性能で20倍、フィルレートで10倍。PlayStation2（PS2）と比べても、ジオメトリ性能で4.5倍、フィルレートは2倍になる。

　PS2を大きく凌駕する素晴らしいスペックだが、これは当然だ。というのは、X-BoxはPS2に1年半出遅れる（米国市場では1年）ため性能で大きく上回らない限り、成功のチャンスはないからだ。ゲーム機の場合、ハードウェアの性能は、必ずしも決定的な要素ではない。X-Boxが出遅れた1年半の間に、PS2はどんどん地位を確立してしまう。その不利を多少でも緩和するためには、性能で大きく引き離す以外に方法はない。また、後発のX-Boxは1世代進んだ半導体技術でスタートできるので、その分性能を高められるという利点がある。

●Itaniumの2.6倍のトランジスタ数

　これは、X-Chipのトランジスタ数を見るとよくわかる。6,500万というトランジスタ数は、GeForce（2,300万）の約2.8倍、CPUで比較するなら最先端のItanium（2,500万）の約2.6倍だ。しかも、X-ChipはCPUほどキャッシュを積まない（日本での発表時のスライドでは8KB）ので、このほとんどはロジックになる。ちなみに、PlayStation2（PS2）はCPU＋ジオメトリのEmotion Engine（EE）が1,350万、レンダリング＋ビデオメモリのGraphics Synthesizer（GS）が4,300万だ。GSのトランジスタ数は、DRAMセルが約3,355万を占めるのでレンダリングチップの部分は1,000万弱。EEと合計しても2, 300万程度で、やはりX-Chipの方がはるかに上回っている。

　では、このトランジスタ数で、コストは見合うのか。

　「ああ、大丈夫だ。われわれは多くの時間をかけてNVIDIAと話し合った。NVIDIAは、これまでもチップをどんどん大きくして成功してきた経験がある。その彼らと、ウエーハコスト、イールド（歩留まり）などを考慮して、現実的にどれだけ大きなチップにできるかを話し合った」とMicrosoftでX-Boxを担当するケビン・バッカスディレクタ（Console Gaming, Third Party Relations）は語る。

　MicrosoftとNVIDIAが、X-Chipのコストが見合うと考える理由は、半導体プロセスの進化があるからだ。PS2のEEとGSは、現在0.25μmで製造がスタートしており、0.18/0.15/0.13μmとシュリンクしていく。それに対して、X-Chipは0.15μmで始まり、0.13/0.10μmへとシュリンクしていくと見られている。0.25μmと0.15μmを比較すると、単純計算で同じ面積に詰め込めるトランジスタ数は3倍になる（実際には製造する半導体メーカーによってかなり異なる）。また、0.20μmのGeforceと比べても2倍のトランジスタを詰め込める。ゲーム機は5年間ハードウェアスペックは変わらないので、その間に少なくとも2世代は半導体プロセスがシュリンク（微細化）することを考えると、このスペックは驚くほどではない。

●16並列のレンダリングエンジン

　X-Chipに使われるグラフィックスコアは、NV25になると見られている。NVIDIAは1年ごとに新世代のグラフィックスチップをリリースし、半年ごとにそのチップの拡張＆シュリンク版をリリースする。GeForceの次がNV15で、今年後半に登場する新世代チップがNV20、NV25はその拡張＆シュリンク版になる。ただし、X-ChipはあくまでもPC用グラフィックスコアをベースにするだけで、実際のX-Chipではゲーム機向けの拡張がされるという。

　X-Chipのフィルレートは4.8Gピクセル／秒。このスペックは、1クロックで16ピクセルの処理ができる（4.8G÷300M）ことを意味している。つまり、ピクセルパイプが16本あると見られる。ちなみに、現在のGeforceは4パイプで120MHz、480Mピクセル／秒のフィルレートだ。

　この16並列というスペックが面白いのは、PS2のGSがやはり16並列のピクセルパイプを持っていることだ。16並列は、GSを強烈に意識したスペックに見える。Microsoftがこのピクセルパイプで強調していたのは、テクスチャマッピングとアンタイエイリアシングを行なってもレートが落ちない（2テクスチャまでシングルパスで処理可能）こと。それが本当だとすれば、フィルレートがテクスチャマップ時に1.2GB／秒のPS2をさらに上回る。

●ジオメトリエンジンも並列化?

　ジオメトリ性能は、300Mポリゴン／秒。これが面白いのは、1クロックで1ポリゴンのT＆L処理（300M÷300M）ができるスペックになっていることだ。これを比較すると、計算上、PS2のEEは4.5クロックで1ポリゴン、Geforceは8クロックで1ポリゴンのスループットになっている。X-Chipがどういうアーキテクチャで、この性能を実現するのか、なかなか興味があるところだ。

　じつは、日本でのX-Boxの発表時のスライドに、この点のヒントが含まれている。まず、そのスライドでは、8つの頂点オペレーションを同時に処理が可能とされている。通常、1オペレーションしかできないところが8となっているわけだ。X-Chipではジオメトリパイプも並列化するつもりのようだ。ただし、この場合、並列化したパイプをフルに稼働させるドライバを書くのがすこぶる大変になりそうな気がする。

　また、頂点オペレーションのレイテンシも短い。EEが19サイクル（ISSCCでの発表）なのに対して、X-Chipは10サイクルとなっている。これは、EEが汎用性の高い浮動小数点演算器で処理をしているのに対して、X-Chipはハードワイヤドで処理を行なうためだ。特にレイテンシの長い除算などで、レイテンシを大幅に削減できる。ただし、こうしたハードワイヤドでインプリメンテーションするとトランジスタコストがかかる。つまり、トランジスタががんがん必要となる。6,500万というトランジスタ数も当たり前だ。

　こうしてみると、X-Chipは、これまでのグラフィックスチップよりも並列処理化を大幅に押し進めたアーキテクチャになりそうだ。また、このほかX-Chipは、Cube ＆ Environment MappingやPer pixel shadingといったGeforceの機能を受け継ぎ、さらにProgramable Pixel Shaderを備える。テクスチャデータをビデオメモリ上で1/8に圧縮する機能（NVIDIAのVolume Texture Compressionテクノロジと見られる）も備え、より大きなテクスチャを利用できるようになる。

●X-Chipは統合チップ

　また、X-Chipは、PCのノースブリッジ/MCHチップにあたる機能も統合する。MicrosoftでX-Boxを担当するケビン・バッカスディレクタ（Console Gaming, Third Party Relations）は次のように説明する。

「X-Chipには、ジオメトリとレンダリングエンジン、CPUインターフェイス、サウスブリッジへの接続（インターフェイス）、メモリコントローラなどが入る。NVIDIAがすべて担当する」

--NVIDIAは必要なIPを全ては持っていないはずだが?
「コアロジックのIP（知的所有権）はIntelから来る」

　じつは、このやりとりには、ちょっとした失敗がある。半導体の世界では、IPは権利だけでなく実際の設計データそのものを含めている。そのため、こちらは設計データのつもりで聞いていたのだが、バッカス氏は権利のつもりで答えた可能性がある。インタビュー中はここは勘違いしてしまったので、突っ込みそこねた。このあたりは今後の取材でもっと明らかにしていきたい。

□関連記事
X-Box関連記事リンク集
http://pc.watch.impress.co.jp/docs/article/link/xbox_i.htm

□バックナンバー

（2000年4月17日）

[Reported by 後藤弘茂]

【PC Watchホームページ】

ウォッチ編集部内PC Watch担当pc-watch-info@impress.co.jp

トランジスタ数	6,500万
クロック	300MHz
浮動小数点演算性能	140.1Gflops
ジオメトリ性能	300Mポリゴン／秒
フィルレート	4.8Gピクセル／秒
メモリインターフェイス幅	128bit
メモリ	200MHz DDR SDRAM
メモリ帯域	6.4GB／秒
メモリサイズ	64MB