ニュース

DeepSeek、競合以上の性能を発揮するマルチモーダルAI「Janus-Pro」

 DeepSeekは、競合と同じパラメータ数でそれらを上回る性能を達成したというマルチモーダルAI「Janus-Pro」を発表した。

 Janus-Proは1つの統合されたトランスフォーマーアーキテクチャで処理しながら、視覚のエンコーディングを別々の経路に分離して処理。これにより、理解と生成における視覚エンコーダの役割の競合を軽減し、フレームワークの柔軟性を引き上げ、従来の手法の限界を打破したという。

 Janus-Proは、DeepSeek-LLM-1.5b-baseおよびDeepSeek-LLM-7b-baseに基づいて構築される。理解には384×384の画像入力に対応したSigLIP-Lを視覚エンコーダとして用いているほか、画像生成にはダウンサンプルレート16のLlamaGenによるトークナイザを採用している。

Janus-Proの性能評価