ニュース

ノートPCでも128BのLLMが動く。そう、Ryzen AI Maxとメモリ128GBならね

 AMDは、Windows用ドライバRadeon Software Adrenalin Editionに備わる可変グラフィックスメモリ(VGM)機能のアップグレードにより、Vulkan版llama.cppで最大128B(1,280億)パラメータまでのLLMを処理可能になったと発表した。

 VGMはRyzen AI 300シリーズ向けに提供されている、システムメモリの一部を内蔵GPU専用メモリとして割り当てる機能だ。ドライバ経由でBIOSレベルの設定を変更するものであり、設定後に再起動することで適用される。

 今回のアップグレードにより、メモリ128GBを搭載した環境で、VGMの最大割合である75%に当たる96GBをVRAMとして割り当てることで、LM Studio上にて128Bまでのパラメータを持つVulkan版llama.cppが実行可能になる。現在は公式リリースページから、本機能に対応したRadeon Software Adrenalin Editionプレビュー版がインストールできる。AMDが公開したデモでは109Bのパラメータを持つ「Llama 4 Scout(Q4 K M)」が15tok/sという実用的な速度で動作しており、これはWindows AI PCとして世界初だとしている。

 また、「Qwen 3 30B A3B」のようなパラメータが少ないLLMモデルを使用する際には、VRAMに余裕があるため、量子化レベルを落として出力の精度を向上させるといった使い方も可能だ。

Qwen 3 30B A3Bを使用した際の量子化レベルによる消費VRAM推移

 豊富なVRAMを生かしてトークン数を増やすこともでき、ドキュメントを読み込ませた上で詳細な指示を与えたり、MCPで得たデータを処理させたりといった、より複雑な動作が可能になるという。Llama 4 Scout使用時は25万6,000ものコンテキスト長で実行可能で、公式に行なわれたLlama 4 Scoutのデモでは、2万1,445トークンを要する処理を完了している。

 128Bパラメータを持つLLMの実行に必要な環境として、128GBのメモリのほか、Ryzen AI Max+ 395が挙げられている。これらを満たす構成のPCとしてはHPのZBook Ultra G1a 14 inchなどが例示されている。

 より小規模な構成でも、Ryzen AI 300シリーズ搭載PCにおいて32GBのメモリがあれば4bit量子化かつ24Bパラメータのモデルまで動作可能としており、具体例としRyzen AI 9 300シリーズとメモリ32GBのPCでは「Gemma 3 12B QAT」、同メモリ16GBのPCでは「Google Gemma 3 4B QAT」などが優れた選択肢になるとしている。

構成と、その環境下で実行可能なLLMの表

【20時45分追記】記事の内容を調整しました。