ニュース

Skymizer、700BのLLMを約240Wで推論できるAIアクセラレータ

HTX301の評価ボード。実際の製品は異なる

 Skymizerは4月23日(台湾時間)、HyperThoughtプラットフォームで構築されたAIアクセラレータチップ「HTX301」を発表。これを6つ搭載して、さらに384GBのメモリを集約したPCIeカードにより、700BのLLMを約240Wの電力で推論処理できる。

 HyperThoughtは、推論中心のAI時代に向けて設計されたアーキテクチャ。プリフィルとデコードのワークロードを分離し、デコード優先のシリコンと、インテリジェントなソフトウェアオーケストレーションスタックを組み合わせることで、実環境における利用率の向上、レイテンシの低減、大幅な電力効率改善を実現したという。

 具体的には、パラメータ数とDRAM帯域幅の要件を低減するよう最適化することで、標準的なLPDDR4/5メモリの使用を可能としている。100GB/sの帯域下では、0.5TOPSの処理能力で30トークン/sの速度を実現。オープンソースのllama.cppよりも9%~17.8%優れるという重み(長期記憶)圧縮のほか、パープレキシティ損失を最小限(0.06~3.52%未満)に抑えたKVキャッシュ(短期記憶)圧縮も採用する。

 また、LISA v3と呼ばれる命令セットアーキテクチャを基盤とし、デバイス内の環境からオンプレミス環境までシームレスに拡張可能だとしており、企業は過剰なプロビジョニングを行なうことなく、4Bから700Bまでのモデルで、適切な規模の展開を実現するとしている。製造プロセスはT28nm。

 HTX301により、企業はトークンごとに課金するクラウドモデルに依存することなく、アプリケーション全体のAI化を実現可能としている。