西川和久の不定期コラム

Ryzen AI MaxのLLMとAI画像生成の性能は？OCuLinkでどちらも快適に♪「GMKtec EVO-X2」(後編)

西川和久

2025年10月8日 06:00

　GMKtecによるRyzen AI Max+ 395搭載ミニPC「EVO-X2」のレビュー。前編は普通のミニPC的レビューだったので、後編はいよいよAI関連をいろいろ試してみたい。結論から先に書くと、OCuLinkで外部dGPU接続可能と分かり、本機の可能性は大きく広がった。

LLM編。AIPC、LM Studioとgpt-oss-120b

　まずプリインストールされているAIPCアプリ、以前はログインしなくても使えていたのだが、

　本機にプリインストールされているものはログイン必須へ。今回は試用しなかった。Updateダウンロード用のサイトもログイン画面が初めに表示されているため、どこかのバージョンで仕様が変わったのだろう。

AIPCのログイン画面。以前のバージョンではログイン無しでも使えていた

　なお本アプリの詳細はここにあるので、興味のある人は見てほしい。128GBモデルだと、

deepseek-r1:14B、deepseek-r1:32B、deepseek-r1:70B
Llama3: 8B
Llama4:109B-Q4KM (プリインストール)
GPT-OSS:20B、GPT-OSS:120B
deepseek-r1:32B Super (Intel特殊)

対応とある。プリインストールのモデルは、

\users\default\AppData\Roaming\AIPC\models\blobs

に68.5GBほどのファイルあり、上記からおそらくLlama4:109B-Q4KMだと思われる。アカウントを作ってAIPCを使わないのであれば不要(サイズも大きい)なのでアプリごと削除してもいいだろう。

　この関係で、今回はLM Studioのみで試している。まず一番に気になるのがgpt-oss-120bがどの程度で動くか！？BIOSの設定でVRAMを

1GBへ。CPUで推論
96GBへ。GPUで推論

として、それぞれGGUFエンジンをCPUとVulkanに置いて試してみた。

　まずVRAM 1GBでCPUの場合、LM Studio的にはRAMが126.65GB認識される。実行するとCPUは40%前後、RAMは78GB程度を使用する。結果は14.15tok/s。これだとほかのRyzen AIプロセッサで試したケースと変わらない。LPDDR5Xの帯域幅勝負というところか。

LM Studioの設定。システム的にはRAM 126.65GB

LM Studioの設定。GGUFのエンジンをCPUへ

LM Studioでgpt-oss-120bを実行(コンテキスト長最大)。14.15tok/s

　次にVRAMを96GBにし、GGUFエンジンをVulkanへ変更(ROCmにした状態では動かなかった)。LM Studio的にはRAMは31.65GB、VRAMは96GBと認識している。

　なおVulkanモジュールは、(執筆時)最新のv1.52.0だと逆に遅くなってしまったので、v1.50.2を使用。

LM Studioの設定。システム的にはRAM 31.65GB、VRAM 96GB

LM Studioの設定。GGUFのエンジンをVulkan v1.50.2へ

LM Studioでgpt-oss-120bを実行(コンテキスト長最大)。32.45tok/s

　実行してみると、CPUは9%前後、RAMは31.4GB、VRAMは69.3GB程度を使用する。結果は32.45tok/s。筆者手持ちのM4 Max 512GB搭載MacBook Pro 14が70+αtok/sなので半分近く出ている。メモリのバンド幅256GB/s vs 512GB/sの違いが、そのまま出ている感じだろうか。加えて30万円前後 vs 80万円前後……と考えればコストパフォーマンスはかなり良い。この価格帯でgpt-oss-120bクラスのLLMを動かしたいときは、本機一択という感じだ。

　なおUbuntuだとVRAMを112GBに設定できるようだが、SSDを入れ替えてOSインストール、いろいろ設定とあるため、別途機会があればご紹介したいと思う。

生成AI画像編。AMDならAMUSEだがROCmネイティブ動作のComfyUIも実験

　次は生成AI画像。BIOSでRAM 64GB、VRAM 64GBに設定。まずAMDの場合、難しいことなく、一発で設定可能な「AMUSE」から。

　セットアップは簡単で、ダウンロードしたexeファイルを実行するだけ。Model Managerで一覧を眺めるとAMD専用モデルが、「SD 1.5」「SDXL」「DreamShaper Lightning」「SDXL Turbo」「SD 3 Medium」「SD 3.5 Medium」「SD 3.5(Large？)」「SD 3.5 Turbo」「FLUX.1 schnell」「FLUX.1 dev」……と、ちょっと前から結構増えている。

いろいろ増えているAMD専用モデル

　まずは、普通のSDXLとAMD用SDXLを832x1,216/28 stepsで比較すると、22.6s vs 16.4sと、結構な違いが出た。いつも参考にしている832×1216：神里綾華ベンチマークサイトのデータを眺めると、(テスト内容は若干異なっているが)ザックリGeForce RTX 3050/8GB(より速い)またはGeForce RTX 3060/12GB前後相当となる。

汎用SDXL、832x1216/28 steps、22.6s

AMD用SDXL、832x1216/28 steps、16.4s

　FLUX.1 devも同様に2種類試したところ(25 stepsへだけ変更)、224.6s vs 494.3sと逆に遅くなってしまった。iGPUではダメで、dGPU用なのかもしれない。

汎用FLUX.1 dev、832x1216/25 steps、224.6s

AMD用FLUX.1 dev、832x1216/25 steps、494.3s

　この結果からも分かるように、SDXLクラスであればそれなりに使えるという感じだろうか？

　次にROCmネイティブ動作のComfyUIを動かしてみたい。iGPUはRadeon 8060S Graphics = gfx1151なので、通常NVIDIA系だとCUDAなのだが、これ用のtorchをインストールする。手順は以下の通り。

　python 3.12で環境を作り、以下3つをpip install

https://github.com/scottt/rocm-TheRock/releases

　次に適当な場所でComfyUIをgit clone、フォルダへ移動

pip install -r requirements.txt
python main.py

実行すると、numpyが2.3.3となっているため、numpy<2にしろとのエラーが出た。そこでpip install "numpy<2"としたところ、エラーは消えた。

ComfyUIの設定→デバイスでRadeon 8060Sとなっている

テンプレートでSDXLを選択。表示されたモデル2つをダウンロード

　ComfyUIを起動。テンプレートでSDXLを選択。表示されたモデル2つをダウンロードし、ComfyUI/models/checkpointsへコピー。これで準備は整った。

　SDXL 832x1216, 28 steps(main 23 + refiner 5)を実行すると 24.08s。AMUSEを使った汎用版SDXLとほぼ同じ結果だ。

ROCmネイティブ動作のComfyUI。SDXL 832x1216, 28 stepsが24.08s

　ComfyUIはAMUSEと比較していろいろなNodeが使え、応用の幅が広がるため、こちらを使うのもありだろう。

OCuLinkでdGPUは接続可能！？

　さて、筆者的に最大の関心は、空きのM.2スロットへOCuLinkアダプタを付け、外部に強力なdGPUを接続可能かどうかだ。ただ、同じプロセッサを搭載したMINISFORUM MS-S1 MAXのPCIeスロットではNG(ただ、USB4やUSB4 2.0で接続できることは編集部で確認済み)という結果が出てるので、ダメ元で確認した。

【10月10日追記】MS-S1 MAXではUSB4でビデオカードが接続可能な旨を追記しました。

　本機は、ロゴのある方のパネルを外せばダイレクトにM.2スロットへアクセスでき、改造は激簡単。

空きのM.2スロットへOCuLinkアダプタを接続

これにドック経由でGeForce RTX 4060 Ti(16GB)に接続

　先にドック側を電源オン、続いて本体を電源オン。そして、NVIDIAのサイトからドライバをダウンロードしてインストールしたところ……nvidia-smiで、GeForce RTX 4060 Ti(16GB)が見えている。

　「本当に動いているのか？」と、上記のComfyUIは使わず別途ポータブル版をダウンロードし7zを展開、run_nvidia_gpu.batで起動。SDXLのWorkflowを読み込み実行。動いた(笑)！

デバイスマネージャー、nvidia-smiともにGeForce RTX 4060 Ti(16GB)を認識

ComfyUIの設定→デバイスでGeForce RTX 4060 Ti(16GB)を認識

SDXL 832x1216, 28 steps(main 23 + refiner 5)を実行すると 13.56s

　SDXL 832x1216, 28 steps(main 23 + refiner 5)を実行すると 13.56s。M.2なのでPCIe x4接続になってしまい、x16接続より遅くなるとはいえ、iGPUよりは当たり前だが全然速い。もう少し強いdGPUにすればFLUX.1 devでもQwen-Imageでもストレスなく生成可能。

　これは本機にとって激朗報だ。つまり