後藤弘茂のWeekly海外ニュース

PlayStation 4の技術概要がGDCで公開

GDCの技術セッションでSCEAがPS4の技術概要をオーバービュー

 ソニー・コンピュータエンタテインメント(SCE)は、次世代ゲーム機「PlayStation 4(PS4)」の開発者向け概要を、ゲーム業界最大の開発カンファレンス「GDC(Game Developers Conference) 2013」において明らかにした。その中には、GPUコアの拡張やグラフィックスAPI、セカンダリチップの機能などが含まれている。

PS4の概要
PDF版はこちら

 米サンフランシスコで、今週開催されているGDC 2013(現地3月25〜29日)で、SCEIの北米法人であるSCEA(Sony Computer Entertainment America)が「Overview of PS4 for Developers」と題した講演を行なった。GDCであるため、開発者に向けたAPIなどの概要の説明が主だった。今回は、講演の概要を簡単にレポートしたい。

 今回講演を行なったのは、SCEAのChris Norden氏(Senior Staff Engineer, Strategy Team, SCEA Developer Services and Support)。同氏は、まず次世代ハードウェアとしてPS4が「究極のゲームプラットフォームとなるパワフルなコンソールで、リビングルームの中心となるデバイスであり、スタンバイ状態でも常にネットワークにシームレスに接続され、スマートフォンやタブレット、PCを含む他のデバイスでも体験を共有できる」と説明した。

 また、PS4のオーディエンス(ユーザー)としては「コアゲーマーが我々のプライマリオーディエンスであり、それがPS4の基本的なビジョンだ」と語った。PLAYSTATION 3(PS3)とXbox 360、Wiiが戦った前回の次世代機戦争では、カジュアル層を含めた幅広いユーザー層を取りこむことを謳ったWiiが緒戦を制した。しかし、その後、カジュアルゲーマー層はスマートフォンやタブレットを含むコモディティデバイスにすっかり奪われてしまった。PS4がコアゲーマーをターゲットとするという宣言は、そうした現状に対応したものだ。

 もっとも、PS4では「より広いオーディエンスにも広がる。家庭全体で、誰もが楽しんでPS4にアクセスできるようにする」とも付け加える。コアゲーマーを中核にしながらも、家族にも広がる。これは、伝統的なゲーム機の戦略で、そういった意味では、PS4は伝統的な戦略を選んだゲーム機だと言える。

 戦略上のPS3世代との大きな違いは、「Connected UX」と呼ぶ、ネットワークを前提としたユーザー体験のあり方だ。PS4世代では、伝統的なシングルプレーヤーゲームでの体験あっても、ネットワークに接続されソーシャルな体験になると説明している。そして、PS4でコネクテッドユーザー体験を実現するためのカギとしてSCEAが説明したのは下の5つのポイントだ。

・Simple(シンプル)
・Immediate(迅速)
・Social(ソーシャル)
・Integrated(統合)
・Personalized(パーソナル化)

PS4の5つのポイント

 この5項目はニューヨークでのPS4の発表時にも強調された。PS4なら、本体に統合された機能によって、手軽かつ迅速に、PS4で得た体験をソーシャルで共有したりパーソナル化したりできるということだ。上のリストでイミーディエイトの部分は、実際にはセッションでは「シームレス」と言い換え、ゲームセッション中でもさまざまなサービスを利用できるとしていた。ソーシャルでは、ポピュラーな既存のソーシャルネットワークへの連携が強調された。

省電力で効率の高いJaguarコア

 GDCではPS4ハードウェア自体の説明は最小だった。しかし、今回明かされた内容からだけでも、いくつものことが判明した。特に、GPUコアには大きな変更が加わっていることが判明した。

 CPUでは8コア8ハードウェアスレッドのCPUコアが、非常に低消費電力で低発熱であることが説明された。これは、本来はニューヨークでの発表時にもっと強調すべきポイントで、任天堂なら電力が抑えられているから家庭に馴染みやすいと、すかさず強調していただろう。

PS4のCPUの概要
PDF版はこちら

 CPUコアの消費電力が低いのはCPUコアアーキテクチャがAMDの「Jaguar(ジャギュア)」だからだ。CPUコアをシンプルにして、ダイ面積当たりのパフォーマンス/電力効率を高めるために設計されたJaguarを、PS4は8コア搭載している。今回、Jaguarの構成が、4コアで2MBのL2キャッシュを共有する構成であることが明らかにされた。これが意味するのは、PS4では、JaguarのクアッドコアCU(Compute Unit)を、2個載せているということだ。下はISSCC(IEEE International Solid-State Circuits Conference)で発表されたCUで、TSMCの28nmプロセス。PS4も同じTSMCの28nmプロセスだと推測される。また、このことは、Jaguarコアに関してはリダンダンシコアを搭載していないことも示唆している。

Jaguarコアのダイ
PDF版はこちら

 面白いのは、PS4のCPUコアの説明について、「エクセレントな汎用アーキテクチャであり、パワフルで先進的なISA(Instruction Set Architecture)だ」と説明している点。また、レジスタリネーミングを行なうアウトオブオーダ実行で、高度なマルチレベルの分岐予測を持つ」とも説明していた。また、128-bit幅のSIMD(Single Instruction, Multiple Data)演算ユニットを備える点も挙げられてる。

 PC&サーバーの世界から見れば、何を今更という感じがするが、アウトオブオーダや複雑な分岐予測アルゴリズムは、ゲーム機のCPUでは新しい。PlayStation 3(PS3)のCell Broadband Engine(Cell B.E.)のPPU(Power Processor Unit)とSPU(Synergistic Processor Unit)は、今からみれば、非常にシンプルなCPUコアだった。複雑なx86-64のISAを先進とするなら、これもその通りだ。

SPEのアーキテクチャ
PDF版はこちら
PPEのアーキテクチャ
PDF版はこちら

 最後の128-bit SIMDは、なぜ今更これを挙げるのか? と思うかも知れない。これは、AMDのローパワーCPUのJaguarのダイアグラムを、前世代のBobcatと比べれば一目瞭然だ。同じAMDの低消費電力CPUコアでも、JaguarではSIMDユニットが大きく拡充され、64-bit幅から128-bit幅となった。ゲームで重要となる、浮動小数点演算のデータ並列演算能力が倍増したことになる。つまり、AMDの現在のローパワーCPUより、浮動小数点パフォーマンスは飛躍すると言いたいわけだ。

40nm世代のBobcatではSIMDが64-bit幅
PDF版はこちら
28nm世代のJaguarではSIMDが128-bit幅に拡充されており、ゲーム機向けとなっている
PDF版はこちら

 ちなみに、JaguarではBobcatに対して駆動電圧当たりの動作周波数も大幅に向上している。同じ電圧で比較すれば、最大で20%以上も動作周波数が高い。今回も動作周波数は公表されなかったが、これは、歩留まりとの兼ね合いで、製品版の動作周波数をまだ決めかねているのかも知れない。

グラフィックスフィーチャは第一線級に

 GPUについては、AMDの基本のGPU設計に、SCEのカスタマイズがかなり加わっていることが明らかにされた。ただし、カスタマイズされている部分は、CU(Compute Unit)の内部ではなく、CUを制御する部分が主のようだ。

 GPUでは、まずDirectX 11.1の機能に、SCEカスタムフィーチャが加わったと示された。中でも重要な点は、AMDのGCN(Graphics Core Next)アーキテクチャで、汎用コンピューティング(Compute)のため機能が拡張されていること。これは、SCEが、GPUコアをCell B.E.のSPUの代わりに使おうとしていることを明瞭に示している。ちなみに、同じGPU上での汎用コンピューティングを、NVIDIAはGPUコンピューティングと呼びたがり、AMDはGPGPUと呼びたがり、SCEは今回Computeと呼んでいる。

 動作周波数は予想通り800MHz。PS4のGPUコアは、18個のコンピュートユニットを備えている。GNC以降のAMD GPUは、各コンピュートユニットに16レーンのSIMD(Single Instruction, Multiple Data)演算ユニットが4個搭載されているので、積和算ユニット数は18ユニットで合計1,152個の計算となる。800MHzで動作させると、単精度での浮動小数点演算性能は1.84TFLOPSとなる。

PS4のGPUの概要
PDF版はこちら
GCNのアーキテクチャ
PDF版はこちら

 DirectX 9世代のGeForce 7000(G70)系の拡張アーキテクチャだったPS3のRSXと比べると、DirectX 11世代となったPS4で、グラフィックスパイプラインでの大きな相違はジオメトリシェーダとテッセレーションステージが加わったこと。実際の実装形態では、ユニファイドシェーダ構成となり、シェーダプロセッサの命令セットやフィーチャもはるかに拡充されている。ゲーム機に関して言えば、この世代で、ついにテッセレーションが普及するようになると期待されている。

GPU実装の推移
PDF版はこちら

 グラフィックスの機能面では、このほか、シェーダで条件分岐が(現実的に)可能になったことも強調された。これまでのRSXでは、分岐粒度が大きいため、分岐は事実上使えなかった。それに対して、GCN(Graphics Core Next)アーキテクチャのPS4 GPUでは、マスクレジスタを使ったプレディケーションにより、コントロールフローの制御ができるようになった。これによって、分岐する複雑なシェーダプログラムを書けるようになった。

ベクタ条件分岐
PDF版はこちら

コンピュート機能が強化されたGPUコア

 GPUコアでの、SCEのカスタムフィーチャとしては、まず細粒度のキャッシュコントロール、モニタリングのためのパフォーマンスカウンタなどが示された。また、PS4ではコンピュートタスクとグラフィックスタスクを、同時にGPUコアの中で走らせられることや、ユニファイドアドレスメモリへのフルアクセスなどが示された。

 実際には、AMDのGPUコアはNVIDIAのGPUコアと異なり、コンピュートとグラフィックスでのモードチェンジがない(NVIDIAでは内部メモリの使い方が異なるためモードの切り替えとなる)ため、機能的にはグラフィックスとコンピュートを混在させられる。これについては、AMDは以前から説明しており、実際に走らせることができないのはソフトウェア層のためだと説明していた。

PS4のGPGPU
PDF版はこちら

 今回示されたのは、まず、PS4ではグラフィックスとコンピュートを混在させることができるGPUの制御を行なっていること。また、それに連携してコンピュートタスクの制御機能も拡充されていること。GDCに参加していたSCEAのMark Cerny氏(Lead System Architect)は、コンピュートのタスク発行が強化されていると語っていた。

 AMDのGCNアーキテクチャでは、ACEs(Asynchronous Compute Engines)と呼ばれるユニットが、Computeのためのタスクのセットアップと、各コンピュートユニット(CU)へのディスパッチを行なう。GPUはCPUと異なり、各コアへのタスクの発行はソフトウェアではなくハードウェアで制御している。そのため、タスクディスパッチャハードウェアの機能が、非常に重要となる。下はPS4のGPUと同程度の規模のAMDのPitcairnコアの全体図だ。

Radeon HD 7870の概要
PDF版はこちら

 このようにパフォーマンスレンジ以上のディスクリートGPUでは、グラフィックスタスクを発行するためのパイプは2本で、それ以外にComputeのためのディスパッチャであるACE群を持つ。グラフィックスはタスクの粒度が大きい場合が多いので、ディスパッチエンジンが小さくてもタスクを実行コアに充当させることができる。問題はGPU上でのコンピュートで、コンピュートのタスクの粒度が相対的に小さい場合は、多くのタスクを発行/制御する必要が出てくる。

 そのため、PS4では、ACEsに64個のキューを持たせて、64のタスクの発行と制御ができるようにしている。この点はAMDの通常のGPUとの大きな違いで、その分、PS4ではGPUコアをコンピュート時には細粒度で柔軟に使うことができるようになっている。PS3で、各SPUを個別に異なるスレッドで動作させたのと同じような使い方がしやすくなっている。

 GPUにアクセスするソフトウェアインターフェイスとしては、PS4はゲーム機の伝統的なローレベルAPIを提供する。これは、GPUのパフォーマンスを引き出すためで、汎用OSの厚いAPI層を経てハードウェアにアクセスする汎用デバイスに対するゲーム機の最大の武器だ。PS4でも、同じモデルが踏襲される。

 その一方で、DirectXやOpenGLからの移行を容易にするためのラッパーAPIも提供される。オーバヘッドを極力減らすために、このインターフェイスも、ほとんどそのままローレベルAPIにパススルーされる。また、ラッパーAPIもソースコードが提供される。

PS4におけるAPI
PDF版はこちら

 PS4のメモリは以前の記事で説明した通り、GDDR5で8GBで、256-bitインターフェイスに16個のダイが接続されている。セッションでは、DDR3と比較してどうかという点が強調された。GDDR5を5.5Gtpsで駆動するPS4では、x256のDRAMインターフェイスで176GB/secのメモリ帯域を達成している。それに対して、汎用のDDR3ではx192インターフェイスでようやく40GB/secの帯域にマッチするとSCEAは説明する。対DDR3を強調するのは、もしかするとライバルのメモリがDDR3であるのかも知れない。

 メディアは既報の通りBD。PS3と比べるとBDドライブの読み込み速度は最大3倍となっている。また、HDDを標準搭載する。

PlayStationシリーズのメモリの推移
PDF版はこちら

(後藤 弘茂 (Hiroshige Goto) E-mail