特集
GeForce RTX 5090に搭載されるRTコアが“倍速”な理由が分かった
2025年1月23日 23:00
NVIDIAは23日、Blackwellアーキテクチャを採用した新世代GPUシリーズの最上位「GeForce RTX 5090」のベンチマーク性能、およびその詳細のスペックに関するホワイトペーパーを公開した。ここではホワイトペーパーから分かった新たな情報をお伝えしよう。
多数のジオメトリによるリッチな表現を見据えた第4世代RTコア
今回、新たに公開されたホワイトペーパーによって、RTコアに関する技術的な詳細が明らかになった。
Blackwellでもっとも大きな進化は、RTコアが第3世代から第4世代になったこと。近年のゲーム開発者は、幾何学的なディテールを増やすことでビジュアルを向上させているが、第4世代RTコアではこうしたトレンドに対応できるよう性能向上を図った。
レイトレーシング処理ではレイ(光線)とトライアングル(三角形)の交差判定が高頻度で行なわれる計算コストの高い処理なのだが、Blackwellでは従来のAda Lovelaceと比較してスループットを2倍に向上させたという。
具体的なものの1つとして、カメラの遠近によってオブジェクトの詳細を調整し、GPU負荷を軽減させるLevel-of-Detailの対応が挙げられる。たとえばUnreal Engine 5で使われるNanite仮想化ジオメトリもLOLの一種だが、シンプルにレイトレーシングを統合できないという課題があった。これはNaniteが生成した多ポリゴンのオブジェクトに対してレイトレーシングを行なおうとすると、フレームごとに膨大なBVH構築を行なわなければならず、ゲームでは非現実的だったからだという。
そこで新たに「Mega Geometry」と呼ばれる仕組みを導入し、トライアングルのクラスとを第1級プリミティブとして扱う新しいBVH構築機能を提供。最大256個のトライアングルからなるコンパクトな空間のバッチから、「Cluster-level Acceleration Structure(CLAS)」を生成し、CLAS集合を入力として最終的なBVHを構築する。
CLASはオンデマンドの生成が可能で、その後のフレームでキャッシュとして再利用できる。各CLASが扱うトライアングル数が100個程度と小規模であるため、BVHの再構築に要する処理量は従来から2桁減少させられるという。
もう1つ、レイトレーシングでは「Top-Level Acceleration Structures(TLAS)」を構築してレイ交差を高速化させるのだが、シーン内のオブジェクト数が増えると、フレームごとにTLASを構築しなければならず処理コストが高くなる問題があった。
そこで、Mega Geometryでは「Partitioned Top-Level Acceleration Structure(PTLAS)」を新たに導入された。これはシーン内のオブジェクトの多くがフレームをまたいでも静的であることを利用し、オブジェクトをいくつかのパーティションに分割、変更があったパーティションだけを更新する形とし、オーバーヘッドを軽減させた。
NVIDIAによれば、Mega Geometryの導入の目的こそLODや複雑なシーンへの対応だが、複雑なジオメトリを高速処理できるこの特性を利用し、映画などのプロダクションレンダリングで使われる、滑らかな曲面を再現するジオメトリ表現「サブディビジョンサーフィス」も実現できるとしている。
さらに第4世代RTコアでは、新しいプリミティブである「Linear Swept Spheres(LSS)」に対するハードウェアベースのレイ交差判定が行なえるようになった。LSSは草や毛皮、髪の毛といったオブジェクトを描画する際に使えるもので、球を直線セグメントに沿って連続的に配置(スイープ)して形成する。
従来こうした表現は、テクスチャをカード貼った手法や、トライアングルで髪の毛1本1本を表現する「Disjoint Orthogonal Triangle Strips(DOTS)」といったものを利用していたが、画質が犠牲になったり、エッジアーティファクトが発生したりするデメリットがあった。LSSはDOTSより約2倍速くレンダリングでき、一方でジオメトリの保存に必要なVRAMを約5分の1に抑えられる。
スレッドを再編成する「SER」が2.0になりRISC-Vベースの「AMP」も導入
Ada Lovelaceアーキテクチャでは、GPU上で実行されるレイトレーシングのアプリの大規模並列スレッドを効率化するために再編成する「SRE(Shader Excution Reodering)」が導入されたのだが、Blackwellでは2.0に進化し効率が2倍となった。精度を高めつつオーバーヘッドを削減したという。SERは小規模なAPIを通じてアプリケーションに対して制御権が与えられるため、開発者はもっとも効果が得られる部分だけを処理できるという。
また、GPUのタスクスケジューリングをCPUからオフロードさせる「AI Management Processor(AMP)」がGPUパイプラインの先頭に配置された。これはRISC-Vプロセッサを用いて実装したとしており、CPU処理よりも低レイテンシで高速なGPUコンテキストスケジューリングが可能だという。
このアーキテクチャは、Windows 10の2020年5月の更新で導入された「Windows Hardware-Accelerated GPU Scheduling(HAGS)」機能に準じているといい、ゲームやグラフィックス負荷の高いアプリケーションの性能を向上させる。
NVENCの世代更新で何が変わったのか
こうした3Dレンダリングに関連する部分のみならず、ビデオエンコーダ「NVENC」は第9世代、ビデオデコーダ「NVDEC」は第6世代に進化したことが分かっている。ではその進化点とはなんだろうか。
実はそれは画質だ。具体的には、BD-BR PSNRベースでは、AV1とHEVCの画質を5%向上させた。さらに、最高品質を実現するために追加の処理時間をかける「AV1 Ultra High Quality(UHQ)」モードを新たに導入し、さらに5%の画質向上が得られるようにしたという。
なお、GeForce RTX 40シリーズでも追加ソフトウェアのサポートによりAV1 UHQモードが利用できるようになるが、50シリーズの画質には及ばないとしている。ちなみに、GeForce RTX 5090だけの特権となるが、エンコーダが2基から3基に増えているため、エンコード速度が50%以上向上した。
その一方で、第6世代NVDECでは、H.264デコード速度が2倍高速化され、HEVCおよびAV1デコード速度と同等となった。
動画では光の三原色でおなじみのRGB形式ではなく、YUV(輝度Y、青色差U、赤色差V)で色を管理する。従来NVDEC/NVENCでも4:4:4および4:2:0のフォーマットをサポートしていたが、Blackwellではカメラで撮影された動画の編集やカラーコレクションといった最終的な色調整を行なう前工程で利用されるこのが多い4:2:2をサポートした。
ディスプレイの最終出力部では、新たにDisplayPort 2.1bの対応が挙げられる。最大80Gbpsの帯域幅となったことで、8K(7,680×4,320ドット)@165Hzや、4K(3,840×2,160ドット)@480Hzの表示が可能となった(要DSC)。
最新のアプリケーションに応えたGeForce RTX 50シリーズ
GeForce RTX 50シリーズは発表当初、CUDAコア数の増加やRTコアの改善、DLSS 4のサポートによるゲーム性能の引き上げ、FP4対応によるTensorコアの演算性能の向上程度しか情報はなかった。GeForce RTX 40シリーズと同じTSMC 4Nプロセスで製造しているため、素のハードウェアとして飛躍的な性能向上に大きな困難を伴うのは明らかであり、ソフトウェア的な手法を組み合わせた性能向上が必須だ。
その具体的な手法、特にRTコアのスループットが向上した仕組みが解明されたことで、Blackwellアーキテクチャ進化の方向性がより明らかとなった。単純に言えば、ゲームの表現力を高めるジオメトリの増加に対応できるレイトレーシング性能の強化だ。Blackwellは従来のゲーム性能の強化ではなく、未来のゲームを見据えたアーキテクチャであるのが、明白になったと言えるだろう。