ニュース

“3”の反省を生かした画像生成AI「Stable Diffusion 3.5」

 Stability AIは22日、新しい画像生成AIモデル「Stable Diffusion 3.5」シリーズを発表した。80億パラメータで最大の「Large」、4ステップで高速に生成できる「Large Turbo」をリリースしたほか、10月29日には25億パラメータで消費者向けハードウェアで実行できる「Medium」のリリースも予定している。

 コミュニティライセンスに基づいており、非営利目的、もしくは営利目的でも年間収益100万ドルまでは無料で利用可能。

 同社は6月にStable Diffusion 3 Mediumをリリースしたが、社内の基準やコミュニティの期待を完全に満たせなかったとしており、コミュニティからのフィードバックを元に、一時的な修正ではなく、ビジュアルメディアを変革する同社の使命を推進するバージョンを開発することに時間を費やしたという。

 今回の開発において、柔軟な基盤を提供するためにカスタマイズ性を優先し、クエリキー正規化をトランスフォーマブロックに統合し、モデルのトレーニングプロセスを安定させ、さらなるファインチューニングや開発プロセスを簡素化。特にMediumモデルにおける品質、一貫性、マルチ解像度生成を強化するために、アーキテクチャとトレーニングプロトコルに調整を加えた。

 同社によれば、Stable Diffusion 3.5 Largeは競合のよりはるかに大きいモデルに匹敵でき、Large Turboはほかの非蒸留モデルと比較しても遜色なく、Mediumはほかの中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れているとしている。