西川和久の不定期コラム

GPUボックス三昧な日々?キットに再挑戦しつつ、GIGABYTE製「GV-N4090IXEB-24GD」のパワーを体験!

 以前、GPUボックスのキットを組み立て、初期不良で動かなかったので再挑戦。また、GeForce RTX 4090内蔵のGPUボックスをお借りできたので、合わせてご紹介したい。

GPUボックスキット再挑戦!?

 少し前にGPUボックスキットをご紹介した。結局、初期不良でうまく動かず返品。AKiTiO「Node Titan」に無理やりGeForce RTX 3090を入れVRAM 24GBを楽しんでいたものの、その後、ネットを検索すると、YouTubeで実際に作動している同じものを見つけ「これは!」と思い、再購入に踏み切った。

 組み立て自体は上記の記事からも分かるように簡単。2回目なのであっと言う間に完成だ。まずGeForce GT 1030(2GB)を付けて作動確認。USB4が2つあるBeelink「SER7」がまだ手元に残っていたのでそれを利用した。

キットを組み立て確認用にGeForce GT 1030(2GB)をセット(上記記事のを流用)
今度は見事に認識!

 今度は何事もなくあっさり作動。喜んだのは言うまでもない。

 次にセットしたGPUは、AKiTiOの「Node Titan」にGeForce RTX 3090を取り付けた関係で余っているGeForce RTX 4070 Ti。ご覧のようにGeForce GT 1030とは違い大迫力となる。加えて何だか無駄にカッコいい(笑)。後ろがケーブルの山になるものの、まとめると意外と全体的にはコンパクトになる。

斜め前から
斜め後ろから

 Beelink「SER7」に接続したところ、認識はするもののドライバをロードした時点でブーバック。2つあるUSB4どちらに接続しても結果は同じ。今度は現在AIマシン化している「MINISFORUM UM690」へ接続したところ……接続自体を認識せず(USB4)。これは困ったと、少し古いがThunderbolt 3搭載のNUC「NUC10i5FNH」に接続すると問題なく作動した。

NUC「NUC10i5FNH」にGeForce RTX 4070 Tiを無事接続できた

 表にまとめるとこんな感じとなる。

Beelink「SER7」「MINISFORUM UM690」「NUC10i5FNH」
USB4USB4Thunderbolt3
GT 1030認識せず未確認
RTX 4070 Tiブルーバック認識せず

 もともとThunderbolt 3と謳っているだけにUSB4接続でうまく行かないのは、仕様なのだろうと諦めるしかない。これがOKならGeForce RTX 4090を載せよう、と考えてただけに残念な結果となった。

 手としては、そもそも接続を認識しない「MINISFORUM UM690」は諦めるとして、ドライバロード時にブルーバックになるBeelink「SER7」に関しては、OSをLinuxに変えるともしかすると動くかもしれないが、未確認だ。

 唯一作動するNUC10i5FNHは、生成時、CPUを全く使わないわけでもないので、さすがにメインにするのは厳しいところ。かと言ってThunderbolt 3搭載の最新鋭PCを購入するのは本末転倒となる。

一方、GIGABYTE「GV-N4090IXEB-24GD」とは?

 そうこうしている間に、米国でGeForce RTX 4090搭載のGPUボックス、GIGABYTE「AORUS RTX 4090 GAMINGボックス」の発表があった時(2023年8月3日)、日本で扱うようならお願いしますと編集担当に頼んでいた物が届いたのだ。

 日本での発表は2023年9月8日。製品名はGIGABYTE「GV-N4090IXEB-24GD」 。米国Neweggでの販売価格が2,998ドルだったので、今だと確実に45万円超だろうと思っていたところ、意外と安く39万8,800円前後。「お!」っと思ったのは言うまでもない。下の表で仕様をご覧頂きたいが、本機は水冷式なのだ。

GIGABYTE「GV-N4090IXEB-24GD」の仕様
GPUGeForce RTX 4090(OC対応)
インターフェイスThunderbolt 3
Gigabit Ethernet
USB 3.0 Type-C、USB 3.0×2
映像出力ポートDisplayPort 1.4a×3、HDMI 2.1a×1
電源内蔵850W、90%以上の電源効率(80 PLUS Goldと同等)、PCI-E 8ピン×4
冷却水冷式WATERFORCE(大型銅製プレート、アルミニウムラジエーター、2基のファンを一体化)
付属品Thunderbolt 3ケーブル500mm
電源ケーブル
インストールガイド
その他GIGABYTE CONTROL CENTER対応
保証期間2年
サイズ/重量189×302×172mm/5,100g±5%
価格39万8,800円前後

 現在GeForce RTX 4090の国内価格はおおよそ25万円。ただ水冷式となると一気に跳ね上がり、30~35万円。つまり850Wの電源ユニットとケース、そしてThunderbolt 3はもちろんのこと、Gigabit Ethernet、USB 3.0 Type-C、USB 3.0×2のドッキングステーション機能+メーカー2年保証が+5~10万円と考えれば、「高くない」と言う話になる(もちろんPC周辺機としては高価だが)。

作動中はフロントのロゴが七色に光る
前面。右下にUSB 3.0 Type-C。iPhone 13 Proと比較してそれなりにコンパクトなのが分かる
背面。DisplayPort×3、HDMI×1、Gigabit Ethernet、Thunderbolt 3、USB 3.0×2
サイド。フィルタを取り外して清掃可能。逆側にもある
GPUボックスキットとの比較1。RTX 4070 Tiの長さとほぼ変わらない
GPUボックスキットとの比較2。フットプリント的にもほぼ同じ

 まず物を見て驚いたのはコンパクトなこと。GeForce RTX 4090は3スロット専有で電源ユニットも大容量なものが必要……そんなコンパクトとは程遠いイメージだったので少し驚いた。ただし重量は約5.1kgと結構重い。できれば上部に運び用のハンドル的なものが欲しかったところ。

 フィルタは両サイドにあり取り外し可能。これはグッドな点で、AKiTiO「Node Titan」も少し使うとすぐホコリが貯まるので気になってた部分だ。前面のロゴは接続すると7色に光る(後述するGIGABYTE CONTROL CENTERでパターンを設定できる)。

 上記の3機種で接続確認したところ、すべてOK。もちろんドライバも問題なくロードし、GPUを追加した形となる。さすが完成品! と言ったところか。今回はAI用途なのでOCはしないもののGIGABYTE CONTROL CENTERも作動する。

GIGABYTE CONTROL CENTER(1/4) / Main
GIGABYTE CONTROL CENTER(2/4) / RGB Fusion
GIGABYTE CONTROL CENTER(3/4) / FAN Control
GIGABYTE CONTROL CENTER(4/4) / Performance

GeForce RTX 3090 vs RTX 4090……結果に「ん!?」

 早速ベンチマークテスト。以前からデータの溜まっている512×768:神里綾華ベンチマークを使用した。結果は以下の通りなのだが意外と伸びない。10枚生成して3秒速くなっただけだ。

  • RTX 3060(12GB) 4.33(it)/51.8秒(10枚)
  • Colab/標準(T4) 2.99(it)/66秒(10枚)
  • Colab Pro/プレミアム(A100) 6.24(it)/32秒(10枚)
  • GeForce RTX 3070 Ti(USB4接続) 6.32(it)/37秒(10枚)
  • GeForce RTX 4070 Ti(USB4接続) 8.83(it)/27秒(10枚)
  • GeForce RTX 3090 (USB4接続) 8.77(it)/29秒(10枚)
  • GeForce RTX 4090 (USB4接続) 9.74(it)/26秒(10枚)

 この辺りはThunderbolt 3接続の限界なのか、生成にCPUも使っているのでモバイル用のRyzen 9では頭打ちになるのか、何が原因なのかは不明だが、ベンチマークテストを掲載しているサイトの情報では、PCIe x16接続の場合、GeForce RTX 3090:23.7秒に対してGeForce RTX 4090:13.7秒と圧倒的な差がついている(0.57)。

 ここで“呪文”を見直して気がついたのは、83tokenあることだ。Stable Diffusionは基本75tokenで、以降、75tokenごとに影響力がリセットされる(冒頭にあるワードほど強い)。おそらく、76token目で一旦、CPU側に制御が移るのだろう。従ってCPUのパフォーマンスが影響しそうだ。試しに後ろの「black bow」、 「cate」、「genshin」を削り、75tokenピッタリにすると……。

  • GeForce RTX 3090 (USB4接続) 10.93(it)/23秒(10枚)
  • GeForce RTX 4090 (USB4接続) 14.47(it)/18秒(10枚)

 このようにベンチマークテストを掲載しているサイトとほぼ同じ処理時間になった。ただ時間的には速くなったものの、GeForce RTX 3090 vs RTX 4090比は0.78と、0.57には及ばない。

SDXLで再確認

 SD 1.5では上記のような状態だったので、今度はSDXLでベンチマークテストを行なった。使ったアプリは「AUTOMATIC1111」、「StableSwarmUI」、「Fooocus-MRE」の3本。なおAUTOMATIC1111はv1.6.0でSDXL対応となり、SDとどちらも生成できるように。後者2つはSDXL専用だ。

AUTOMATIC1111
StableSwarmUI
Fooocus-MRE

 ベンチマークテストは下記のプロンプトを使い、ほかの設定であるSampling method、Sampling steps、CFG scale、Checkpointなども可能な限り合わせている。時間は、プログレスバー上の表示だったり、出ている時間など、数値として画面にあるのをそのまま拾っているため、アプリごとでのばらつきがある。よって3アプリでの生成速度比較にはならず、あくまでも同じアプリで違うGPUを使った時の差として見て欲しい。

テスト用呪文
Prompt:
Professional photograph of a beautiful japanese woman like a k-pop idol,20yo,solo,medium breasts,slender,clear eyes,cafe,bit smile,bokeh,<lora:sd_xl_offset_example-lora_1.0:0.5>,

Negative Prompt:
(worst quality),llustration,3d,2d,painting,cartoons,(deformed|distorted|disfigured:1.2),(mutated hands AND fingers:1.2),dirty hand,

Resolution: 832x1,216
Sampling method: DPM++ 3M SDE Karras
Sampling steps: 20
CFG scale: 4
Checkpoint: firsttunnerXL https://civitai.com/models/142749/firsttunnerxl

GeForce RTX 4090ボックスにおけるBATCH 10の時間

AUTOMATIC1111 51秒 (0.66)
StableSwarmUI 63秒 (0.73)
Fooocus-MRE 30秒(3秒×10) プログレスバーに出る生成時間 (0.6)

GeForce RTX 3090ボックスにおけるBATCH 10の時間

AUTOMATIC1111 77秒
StableSwarmUI 86秒
Fooocus-MRE 50秒(5秒×10) プログレスバーに出る生成時間

 結果を見ると最大0.6。先のPCIe x16接続の場合で0.57。この0.03(0.578なので0.02に近い)がThunderbolt 3接続によるオーバーヘッドっぽい感じかも知れない。

 なお以前の記事にも書いているが、NVIDIAのドライバは、531.61より後のバージョンは、VRAMのオフロードに対応したため、VRAM容量をオーバーするとメインメモリを使うようになる。また結構速いタイミングで切り替えるので、これまでのVRAMで収まってた処理もメインメモリに……。とにかくいったんメインメモリを使い出すと十倍以上遅くなり、何のための高速GPUなのか意味不明の状態だ(LLMや学習にはいいのだろうが)。CLIでオフにする方法もないため、画像生成においては531.61を強くお勧めしたい。


 以上のようにThunderbolt 3接続の場合でさえ、GeForce RTX 3090とGeForce RTX 4090では最大0.6もの差がついた。数日この環境で遊んでいるが、最近はSDXLがメインになっているので体感的には倍速に近い感じだ。実際普段作ってるSDXLの画像だと

  • [00:08<00:00, 2.97it/s] (RTX 4070 Ti + NUC10i5FNH/参考)
  • [00:07<00:00, 3.20it/s] (RTX 3090 + Ryzen 9)
  • [00:04<00:00, 5.95it/s] (RTX 4090 + Ryzen 9)

 このような差が出る。GeForce RTX 4070 TiとGeForce RTX 3090はほぼ同じなのに前者が遅めなのはCPUの影響を受けているからだろう。いずれにしてもGeForce RTX 3090と倍近く違うと、操作感がまるで異なる。5秒超えると待ってる感があるものの、それを下回ると待ってる気がしない。加えて(ファン×2もあるが)水冷式なので音も静か。連続作動での爆音もない。

 ぜひとも欲しいが、筆者にとっての問題は価格。構成的に決して割高ではないとは言え、単純に40万円近くは「気合」が必要な感じ。現時点において原稿などでやっとAKiTiO Node Titan+ RTX 4070 Tiは元を取った感じなのだが、その2倍の価格。仕事の場合、時間効率が命なので、何か該当する仕事でもあればいいのだが……。

 ちなみに、普通にGeForce RTX 4090が入るPCを組んでも同程度。だが、大きい筐体はいろいろ面倒なのでできれば避けたい。考えようによっては、そこそこのカメラとレンズを買ったと思えば(笑)。つづく?