元半導体設計屋 筑秋 景のシリコン解体新書
GeForce RTX 50シリーズは、いかにしてAI処理とフレーム描画の性能を両立させたのか
2025年2月28日 06:23
前回の記事では、GeForce RTX 50 シリーズ、RTX ニューラル レンダリング、RTX メガ ジオメトリ、DLSS 4について説明した。今回はReflex 2、およびRTX Blackwell アーキテクチャについてまとめる。
VRでの遅延削減技術を応用したReflex 2
Reflex 2の説明の前にReflexについて説明しておこう。Reflexは低遅延(低レイテンシー)に関する機能だ。Reflexはプレイヤーが経験する遅延を40%削減するもので、現在、主要な競技タイトルはすべてこれに対応しており、90%以上のプレイヤーがゲーム内で有効にしているという。
高いFPSを維持するためには、常にGPUを忙しく保つ必要がある。このためにレンダーキューが作成された。しかし、GPUを忙しく保つためには、CPUもGPUを忙しくすることを維持する必要がある。CPUが追いつけないと、ゲームで遅延が発生することになるからだ。
Reflexは、ハードウェアとソフトウェアを組み合わせて、CPUとGPUを正確に同期させる。この同期により、CPUが前もって動作してGPUを忙しくさせる必要がなくなる。この方法は「ジャストインタイムサブミッション」と呼ばれる。
Reflexから進化したReflex 2では、VRで採用されている高度な低遅延技術をPCゲーミングに初めて導入した。具体的にはフレームワープ技術を使用している。フレームがレンダリングされると、Reflex 2は直近のマウス位置をサンプリングし、レンダリングされたフレームを新しいマウス位置に合わせてワープまたは再投影する。
しかし、このプロセスは画像に穴(欠損部分)を生じさせる。これが、これまでPCゲーミングで実用化されなかった理由だという。NVIDIAは、色データと前のフレームの深度データを使用して、これらの穴を正確に補完する予測インペイント技術(遅延最適化予測レンダリングアルゴリズム)を開発し、ネイティブにレンダリングされたように見えるフレームを作成した。
上記のスライドはインペイントが各フレームを修正しているエリアを見ることができる。インペイントオフ側では白い枠が確認できるが、この部分が欠損部分だ。インペイントにより良好なビジュアル状態とゲーム体験が得られるという。
このワーププロセスを使用すると、フレームワープは遅延をフレームタイム全体で約1フレーム分削減し、Reflexから遅延をさらに50%削減し、合計削減率は75%になるという。
また、Reflex低遅延モードとは異なり、Reflex 2(フレームワープ)はCPUボトルネックも大幅に削減する。具体的にVALORANTでReflex 2を有効にすると、フレームレートが高いのに加え、PCの遅延は2ms未満となる。
NVIDIAは、Reflex 2をVALORANTやTHE FINALSなどのゲームに導入しており、今後さらに多くのゲームでの対応が発表される予定だという。Reflex 2は、最初はRTX 50シリーズGPUで利用可能になる。
RTX Remix
次にRTX Remixについて説明する。RTX Remixは古いゲームにレイトレーシングを追加できる。ゲームからオブジェクトをインポートし、USD(Universal Scene Description: ユニバーサルシーン記述)に変換し、AIを使用してアップスケールすることで、古いゲームの見た目を強化できる。32,000人のモッダー(ゲームのオリジナル内容を変更したり、改良したりする人々)がRTX Remixを試し、90以上のモッドが公開され、さらに数百が開発中だという。
RTX Remixの提供開始時には、DirectX 8およびDirectX 9タイトルで動作すると発表された。その後、コミュニティがDirectX 7のサポートを追加。また、NVIDIAがSDKをリリースし、コミュニティがDirectX 9およびDirectX 10ゲームでの互換性を実現した。現在、「Left 4 Dead」のようなタイトルがRTX Remixで動作する。
今後のSDKキットでは上記の機能が追加予定だ。最も重要なのは、NVIDIAがUnreal Engineに独自の拡張や改良を加えたブランチを作成し、それをMegaジオメトリとして開発者が利用できるようにしている点だろう。
Blackwellアーキテクチャ
Blackwellアーキテクチャについて説明していこう。これまでGPUは、計算処理能力向上とストレージ能力向上により視覚品質の向上を持続してきた。だが今後は、高度な素材や、幾何学的な複雑さ、パストレーシングのような高度なライティング技術などに対処する必要がある。ムーアの法則が終わりを迎えなかったとしても、従来の手段でこれを達成するのは非効率的になる。
そこでBlackwellは、新しいニューラルワークロードと、改良されたAIパフォーマンスにより、複数の非同期AIワークロードを高品質で実行し、電力予算内で熱とバッテリ寿命を改善させた。
Blackwellは、高速FP4をサポートする第5世代Tensorコアと、Megaジオメトリ用に構築された第4世代RTコアを搭載した。また、重要な作業をスケジュールする新しいAIマネージメントプロセッサも搭載する。
また、Blackwellは、GDDR7を採用する最初のGPUになる。GDDR7は、GDDR6の2倍のデータレートを半分の電力で提供する。GDDR6とGDDR6Xは4つの電圧レベルを持つPAM4技術を使用しているが、GDDR7は3つの電圧レベルを持つ新しいPAM3技術を使用している。PAM3は、PAM4よりも大きな電圧スイングを利用できるため、低い電圧でより高い周波数を実現できる。この結果、PAM3は、より高いデータレートを得られるだけでなく、電力効率も30%向上するという。
ニューラルレンダリングへとワークロードがシフトするのに伴い、NVIDIAはSM(ストリーミングマルチプロセッサ)の設計方法を再考する必要があった。1つ前のAda世代のSMは、標準的シェーダ用に設計されていたが、BlackwellのSMはニューラルシェーダ用に最適化した。
ニューラルシェーダにとって、整数計算のスループットを上げることが重要だ。AI処理のスループットを2倍に引き上げるために、第5世代のTensorコアにはメモリ要件を半分に削減するFP4機能が搭載されている。さらに、シェーダの実行順序変更(Shader Execution Reordering)を導入し、SMがより少ない分岐コードで動作するようにGPUの設計を再編成した。
ニューラルシェーダは、通常のシェーダコードとニューラルシェーダコードを組み合わせて処理する。そこでShader Execution Reordering 2.0を組み込むことで、Tensorコアとシェーダコアの効率が大幅に向上させたという。
フォトリアリスティックな表現を目指すには、より高いレベルのジオメトリの詳細が必要だ。ここでの「ジオメトリの詳細」とは、3Dモデルにおける形状や構造の細かさや複雑さを指し、具体的には、キャラクターやオブジェクトの表面の凹凸、微細なパーツ、そして自然な曲線や角度の再現度などが含まれる。
そこでBlackwellアーキテクチャでは、Megaジオメトリ用にRTコアを大幅に改良したという。このジオメトリ処理のために、新しいトライアングルクラスタ交差エンジンとトライアングルクラスタディコンプレッションエンジンがハードウェアに追加された。
また、毛髪や毛皮のレンダリングを高速化するための新しいグラフィックスプリミティブ「リニアスイープスフィア」も追加された。Megaジオメトリ交差エンジンにより、ジオメトリクラスタを2倍速く交差させることができる。さらに、Blackwellのジオメトリ圧縮機能により、アクセラレーション構造のフットプリントとメモリ帯域幅を削減した。
ニューラルレンダリングとAIでゲーム性能を向上するには、精度、メモリフットプリント、パフォーマンスのバランスを取る必要がある。多くの場合、FP4が理想的な選択となる。これは、精度の損失が最小限に抑えられるためだ。ゲームエンジンと並行して実行されるAIモデルは、コンパクトかつ、可能な限り少ない帯域幅で動作する必要がある。
また、GDDR7メモリでもフレームバッファに収める必要がある。Blackwellアーキテクチャは、FP4マトリックス乗算とアキュムレータ操作を使用してスループットを2倍にしている。
しかし、AIとグラフィックススのワークロードを同時に実行するには、新しいスケジューリング機能が必要だと判明したという。特に、大規模言語モデル(LLM)を使用するゲームでは、最初の応答時間を短縮することが非常に重要だった。これはフレームレートとは異なる問題となる。チャットボットやデジタルアバターの応答を待つことは、ゲームの流れを阻害する可能性があるからだ。
また、DLSSのマルチフレーム生成では、スムーズさと応答性が重要になる。フレームレートのギャップがあると、ゲームのカクつきが発生する。
これらのスケジューリングを行なうため、NVIDIAはBlackwellにAIマネージャープロセッサ(Amps)と呼ばれるプログラム可能なハードウェアプロセッサを追加した。AmpsはGPUコアの近くに位置し、AIとフレーム生成のニーズをより正確に制御する。
LLMがDLSSと並行して実行される例では、Ampsはデジタルアバターの最初の応答を向上させる。フレームをディスプレイリフレッシュレートに合わせることを保証しながら実行する。その結果、AIとグラフィックススがでうまく共存できるようになる。
電力周りに話を移そう。ノートPC向け技術であるMax-Qの目標は、プラットフォームの電力予算を最大限に活用してパフォーマンスを引き出し、GPUがアイドル状態のときには迅速に低電力モードに移行してできるだけ多くの電力を節約することだ。
この目標のために、Blackwellでは、チップレベルでの電力削減のための新しい強力なパワーゲーティング技術を実装。新しいクロックゲーティング機能により、クロックゲート全体のセクションを迅速にシャットダウンできるようにした。Blackwellには、これまでで最も高度な精細なパワーゲーティング機能が含まれており、電力状態のエントリとエグジットの遅延を大幅に改善し、アクティブ電力を大幅に削減できるという。
新しい電圧レールにより、GPUコアとメモリパーティションが分割され、大規模なチップでも領域ごとに独立した電圧制御が可能になった。Blackwellは、アイドル状態の短い期間でもチップの未使用部分をシャットダウンできる。
また、AdaとBlackwellで実行中の小規模言語モデルクエリの例を見ると、Blackwellの方がAdaよりもはるかに速くアクティブな処理を完了できる。そして、クエリの生成段階から結果の消費段階へと移行し、次に何を尋ねるかを考える際、システムはチップのより多くの部分の電力を徐々にオフにすることができるようになっている。
Blackwellでは、分離された電圧レールの調整のおかげで、追加の状態遷移が可能になっているという。より低い電力状態への移行が速くなり、電力を節約する時間が増える。最深のスリープ状態でも、BlackwellはAdaの10倍の速度であり、これにより、最深のスリープでの電力節約が大幅に向上する。この使用例では、最大50%の電力を節約できたという。BlackwellはNVIDIAにおける過去10年間で最大のクロックアーキテクチャのオーバーホールを組み込んだとしている。
クロックは以前のGPUアーキテクチャの1,000倍の速さで動的ワークロードに対応できたという。BlackwellはGPUワークロードの動的な性質に迅速に対応し、最高のパフォーマンスと電力効率のためにワークロードに基づいてクロックスピードを上下に調整できる。以前はフレームを生成するときにクロックをロックする必要があったが、現在ではフレームの生成中に周波数を変更できようになった。