後藤弘茂のWeekly海外ニュース

コスト面で競争力が高まる次世代PlayStation 4

チップレベルで見るとPS3世代より競争力があるPS4

 次世代ゲーム機「PlayStation 4」(PS4)は、価格競争力が比較的高いマシンになりそうだ。現世代と比べてという意味だが、チップレベルで見ると相対的にリーズナブルであることが分かるからだ。SCEは、思い切った価格戦略に出ることも可能だし、引き下げはあるレベルに留めて利益を十分に確保することもできる。

 初代PLAYSTATION 3(PS3)の中核は、200平方mm台のダイサイズ(半導体本体の面積)のチップ2個で構成されていた。それに対して、PS4は200平方mm台後半のAPUワンチップになり、トランジスタ数は30億を超えると見られる。PS4でコストの重荷となりそうな要素の1つは16チップの4Gbit GDDR5だが、以前に比べるとGDDR系メモリも低価格化傾向にある。電力面でも、PS4は相対的には消費電力を抑えられるだろう。

PS4の構成図(PDF版はこちら)

 想定されるPS4のメインチップサイズを、過去のPlayStation 2/3のチップセットと比較すると下の図のようになる。SCEは、ゲーム機のメインチップセットを3〜4プロセス世代に渡って製造する。

 PS2では、最初はCPUのEE(Emotion Engine)も、GPUのGS(Graphics Synthesizer)も、250nmプロセスで200平方mm台のチップだった。それを、世代毎にシュリンクして最終的に90nmプロセスでワンチップ86平方mmに持っていった。5年かけて大型チップ2個から組み込みプロセッサクラスにまで落とし込んだ。

 それに対して、PS3では90nmプロセスからスタートして45/40nmプロセスまで微細化したものの、CPU側のCell Broadband Engine(Cell B.E.)はEEほど面積がシュリンクできていない。GPU側のRSX(Reality Synthesizer)は40nmまで来て止まっている(28nmへと微細化した可能性があると以前レポートしたのは間違い)。そして、ワンチップ統合ができていない。そのため、PS3はPS2ほどチップコストを下げることができていない。

 次のPS4はと言うと、今回は最初からワンチップ。しかも、200平方mm台のダイと見られ、スタート地点から過去の世代と比べるとチップのダイ面積が小さく、チップ同士の統合も必要がない。PS4はこの先、同じ構成でシュリンクして行くのか、よりハイパフォーマンスなチップへと移行して行くのか分からないが、従来と比べると、チップコストの面では有利であることが分かる。

PlayStationチップのシュリンク率の違い(PDF版はこちら)

AMDのGPUとCPUから推測できるPS4チップのサイズ

 PS4のAPU(Accelerated Processing Unit)のダイサイズが、比較的容易に推測できるのには理由がある。製造が大手ファウンダリTSMCの28nmプロセスと見られ、チップのアーキテクチャもある程度分かっているからだ。

Jaguarアーキテクチャのダイヤグラム(PDF版はこちら)

 実際のPS4 APUは、パフォーマンスクラスのGPUコアに、8個のCPUコア+キャッシュSRAMと、CPUコアとGPUコアを調停するロジックなどを加えたチップになる。そして、CPU部とGPU部のダイ上の面積は、ほぼ明らかになっている。

 PS4のCPUコアは、AMDの低消費電力コア「Jaguar」(ジャガー)で、GPUコアは次世代Radeonコア。Jaguarはゲーム業界関係者にとってあまりいいイメージのないコードネーム(Atariの不成功に終わったゲーム機がJaguar)だ。GPUコアの構成は、「CU(Compute Unit)」が18個なので、積和算(MAD)ユニット数が1,152個と見られる。また、メモリインターフェイスはGDDR5で256bit幅と見られる。この構成は、CPUコアを除けば、AMDの現在のパフォーマンスGPUクラスのグラフィックスチップである「Radeon HD 7870/7850」(Pitcairn)の構成に近い。

 Radeon HD 7870/7850(Pitcairn)の構成は下の図の通り。有効になっているCUの数は合計20個で、MADユニット数は2,048個。メモリインターフェイスはGDDR5 256bitとなっている。PS4のGPUコアは、演算ユニットやメモリインターフェイス幅などの構成の面からはかなり近くなる。Radeon HD 7870/7850のダイサイズは212平方mmで、CUが少ない分だけPS4 APUのGPUコア部分のサイズは小さくなると見られる。ただし、PS4はGPUコアに冗長性を持たせている可能性が高く、その分を加味するとほぼ同程度のサイズと推測される。

Radeon HD 7870(Pitcairn)のブロックダイヤグラム(PDF版はこちら)

 一方、JaguarのCPUコアは、x86-64対応CPUコアの中では特に小さく、Atom系コアよりも小さい。AMDの各世代のCPUコアのサイズを比べるとよく分かる。32nmプロセスのK10 CPUコアが10平方mm近いサイズ、Bulldozerの2コアを融合させたモジュールが18平方mm近いサイズであるのに対して、28nmプロセスのJaguarはわずか3.1平方mm。CPUコアサイズは極端に小さく、シンプルなコアだ。

世代別のAMDコアのコアサイズ(PDF版はこちら)

 AMDは、28nmのJaguar 4コアと2MB L2キャッシュで構成されるCUの概要をISSCC 2013で発表している。下の図がそれで、図の下側に並ぶのが4個のCPUコア、上には512KBのL2キャッシュスライスが4個載っている。間にあるのがL2キャッシュインターフェイスとクロスバースイッチだ。発表によると、JaguarクアッドコアCUのサイズは26.2平方mm。PS4は8コアなので、単純に2倍にすれば52.4平方mmとなる。

Jaguarのダイ構成(PDF版はこちら)

AMDのパフォーマンスGPUにJaguarを加える

 Pitcairnのダイ面積212平方mmに、Jaguar×8コア分の52.4平方mmを加えると、合計では約264平方mmとなる。実際には、APUとして必要となるCPUコアとGPUコアの間のスイッチなどを加えると、それよりもダイサイズは大きくなると見られる。下は、現在のAPUであるTrinity(トリニティ)で、CPUコアとGPUコアが複雑に結合されている。実際には、PS4のAPUは、次の世代のメモリ空間統合型のアーキテクチャになる上に、メモリインターフェイスはGDDR5で、チャネルを細かく制御するので、通常のAPUのものと大きく異なる。

Trinityアーキテクチャのダイヤグラム(PDF版はこちら)

 合計すると、PS4のAPUのダイは、200平方mm台の後半と予想される。AMDの現行のAPUは、Trinityで246平方mm。PS4は、これよりも一回り大きなサイズになる可能性が高い。雰囲気を掴むために、下に32nmプロセスのTrinityのダイ構成を示す。このダイに20%かそれ以上の面積を加えたものがPS4のAPUだ。

Trinityのダイ構成(PDF版はこちら)

 Trinityの場合、ダイの上半分が2モジュール4コアのCPUブロックとノースブリッジで、下半分がGPU/ビデオブロックになっている。Trinityに載っているBulldozer系のPiledriverコアは、Bulldozerより少しだけ面積が大きいが、それでも2コアモジュールとL2で合計は30平方mm台前半だ。このTrinityの4コア分のPiledriverコアが占めている面積を、PS4では8コアのJaguarが占める。28nmのJaguarの4コアCUは、32nmのBulldozer系の2コアモジュールより少し小さく80〜85%程度の面積。両アーキテクチャでは、CPUモジュールのサイズにこれほどの違いがあり、ラフに言って、同じ面積ならJaguarの方が2倍のCPUコアと同じL2キャッシュ量を載せることができる。

JaguarのCUと、Bulldozerモジュールの比較(PDF版はこちら)

 Bulldozerは28nmに移行すると計算上で最大70%に面積が減るが、CPUコアもSteamrollerとなり大型化する。28nmで比較すると、Jaguar 8コアとSteamroller 4コアでほぼ面積が変わらないだろう。上の図で言えば、PiledriverコアとL2の占めている面積の80%ほどを、Jaguarの8コアとL2が占める計算となる。

 もちろん、SCEがJaguarコア部分のL2キャッシュ量を4MB以上に増やせばCPUコアブロックの面積は増える。また、Jaguarの3.1平方mmという各コアのサイズは、9トラックの回路で設計したものであり、SCEが同じ28nmプロセスでもハイパフォーマンスの12Tを使えばよりダイサイズは増える。それでも、TrinityでCPUが占めている面積と同程度かより小さくなる可能性は高い。おそらく、元のプランのPS4では、Bulldozer系コアが4コア分(2モジュール)の構成だったと見られる。

 Trinityの右辺のDRAMコントローラ部分は、微細化でもCPUコアほどは小さくならず、DDR3からGDDR5になる分、面積が増える。左辺のI/Oブロックはこれより小さくなると予想される。また、CPUモジュールの回りのノースブリッジブロックは、28nm化で小さくなるが、メモリの高速化やコアの増加により若干大型化するだろう。

 GPUコアは残りのブロックとなる。大まかに言って、TrinityのGPUコアの面積に、GPU以外のユニットが小さくなる分と、Trinityより増えるダイ面積の部分を加えるとPS4のGPUコア面積になりそうだ。PS4 APUは、TrinityよりもGPUコアの比率がずっと大きくなる。チップ当たりの演算パフォーマンスは2倍程度になるので、GPUコアの比率は必然的に高くなる。

28nm世代を通じて共通性が高いAMD GPUアーキテクチャ

 PS4のGPUコアは次世代Radeonとなっている。しかし、GPUコアアーキテクチャ自体は次のSea Islands世代でも、現在のRadeon HD 7000系(Northern Islands)のコアとそれほど変わらない。上位は同じダイで、実際には現行のGCN(Graphics Core Next)アーキテクチャがほぼ引き継がれる。そのため、PS4のGPUコアは、現行の28nm世代の製品とかなり構成が似ていると見られる。

 Sea IslandsとNorthern Islandsで差が小さいのは、同じ28nmプロセスだからだ。GPUは各市場毎に経済的に見合うダイサイズがほぼ決まっており、それによってGPUのユニット構成も決まってしまう。下はGPU全体のダイサイズ図だ。GPUのダイは100平方mm以下のバリューGPUと、100平方mm台のメインストリームGPUと、200平方mm以上のパフォーマンスGPUと、500平方mm台までのエンスージアストGPUの階層に分かれる。SCEが選んだのは上から2つ目の階層となる。

GPUのプロセスとダイサイズの推移(PDF版はこちら)

 ちなみに、現在のGPUは2年に1度プロセスが微細化するペースであるため、チップのトランジスタ数の増加も2年に1度。そのため、アーキテクチャの大がかりな変更も2年に1度のペースとなっている。以前のように1年毎にプロセスが微細化してトランジスタ数が増えるペースではない。

GPUのプロセスとトランジスタ数の推移(PDF版はこちら)

PS4のGPUコアの構成

 PlayStation 4(PS4)のGPUコアについては、大まかな構成とパフォーマンスレンジは分かっている。CUは合計で18個、単精度での浮動小数点演算性能は1.84TFLOPSとなる。GCN以降のAMD製GPUは、各CUに16レーンのSIMD(Single Instruction, Multiple Data)演算ユニットが4個搭載されているので、積和算ユニット数は18ユニットで合計1,152個の計算となる。逆算すると、GPUコアは800MHzで動作させることになる。

PS4の構成(PDF版はこちら)

 GCNではCUにテクスチャユニットが1個付属しているので、そのままPS4に持って来るならテクスチャユニットは合計で72となり、800MHzで動作するならテクセルレートは57.6GTexel/secとなる。メモリインターフェイスはGDDR5で256bit幅と見られるため、メモリコントローラはx64単位で4ユニットに分離されており、それぞれが32bitのメモリチャネル2つを駆動するAMD GPU方式を取っていると推定される。

 ROP(Rendering Output Pipeline)ユニットは通常はメモリコントローラと密接に連携する。ROPの処理は、メモリアクセス頻度が非常に多く、しかも、各ROPユニットの参照先メモリは特定のメモリコントローラに接続されているからだ。そのため、メモリコントローラとROPはまとめてユニット化されているGPUが多い。

 もっとも、APUであるPS4の場合は、CPUコア側からもメモリアクセスがあるため、どうなっているか分からない。実は、PS4 APUのアーキテクチャの最大のキモは、このメモリコントローラとCPU/GPUコアの接続だ。PS4は言ってみれば、GPU型のメモリコントローラに、CPUも接続する方式を採るため、汎用のDDR3系を使うAMDの現行または将来のAPUとは大きく異なっている。意外と重要な部分だ。

 GPUコアのROPが、メモリコントローラに対応するとしたら、ROPのスループットは32か16のどちらかになるだろう。各メモリコントローラにつき、スループットが8または4のROPが接続されるからだ。ただし、Tahiti(Radeon HD 7900)のようにメモリコントローラとROPが1対1対応しない設計もある。ROPが32だとしたら、ピクセルレートは25.6Gpixels/secとなる。

Compute Unitのアーキテクチャ(PDF版はこちら)

AMD GPUのラインナップとPS4

 AMDの28nmプロセスのGPUラインナップで、ダイサイズまたはユニット構成的にPS4のクラスとなるのは、すでに触れたようにRadeon HD 7870/7850(Pitcairn)だ。28nmプロセスで212平方mmのチップ。トランジスタ数は28億となる。おそらく、SCEは28nmプロセスで経済的なダイサイズのGPUコアを求めて、Pitcairnあたりの構成で落ち着いたと見られる。

AMD製GPUのダイサイズ(PDF版はこちら)

 Pitcairnは、AMDが28nm世代でハードコアゲーマーのスイートスポットと位置付けけるGPUだ。GPU業界でコアゲーマーのスイートスポットとは、200〜300ドル台中盤までの価格のグラフィックスカードで、GPUのダイ面積は200平方mm台から大きくても300平方mm台前半を指す。Pitcairn系は価格レンジが249〜349ドルで、ダイが212平方mmと、まさにこの領域だ。つまり、PS4はグラフィックスパフォーマンス的には28nm世代のスイートスポットGPUのラインになる。

AMD製GPUの構成比較(PDF版はこちら)
PS4とRadeon HD 7870/7850の構成比較(PDF版はこちら)

(後藤 弘茂 (Hiroshige Goto) E-mail