ニュース

ACE Studio、オープンな音楽生成AIモデルを公開。5090なら4分の音楽を1秒で

 AIによる音楽制作ツールを開発するACE Studioは2月4日、オープンソースの音楽生成モデル「ACE-Step v1.5」をGitHubで公開した。すでにComfyUI上から利用できるようになっている。

 ACE-Step v1.5はまったく新しいLM(言語モデル)+DiT(拡散トランスフォーマー)によるハイブリッドアーキテクチャを導入したというAI音楽生成モデル。中核となる言語モデルは、ユーザーからのシンプルなクエリを包括的な楽曲設計図に変換する多機能なプランナーとして機能し、短いループから10分間の楽曲までを生成できる。

 また、分布マッチング蒸留のZ-ImageのDMD2を活用し、高速生成と高品質を両立。本質的な強化学習により、外部報酬モデルからのバイアスを排除したほか、オーディオトークナイザはDiTトレーニング中に学習され、生成とトークナイズ間のギャップを埋めた。

 ACE Studioによれば、ACE-Step v1.5は主要な商用モデルや既存のオープンソースモデルと比較して、一般的なベンチマークで上回る性能(音楽の一貫性で4.72のスコア)を実現。PCおよびMacでローカル実行可能なだけでなく、LoRAによるファインチューニング、そしてモデルを自分で所有/運用できるOSSである点が特徴だという。

 50以上の言語の対応がうたわれており、英語、中国語、日本語、韓国語、スペイン語、ドイツ語、フランス語、ポルトガル語、イタリア語、ロシア語を強力にサポートできる

 なお、モデルに対して任意の曲を入力とし、新しいプロンプトと歌詞を与えると、異なるスタイルでトラックを再構築する「カバー」機能や、生成されたトラックの一部分だけを修正する「再描画」機能もサポートしているが、現時点ではComfyUI上から利用できず、今後のアップデートで対応する見込み。