ニュース

Apple、高解像度画像を効率よく生成するオープンソースAIモデル

MDMを用いて1,024×1,024ドットで生成したText to Image画像

 米Appleは9日(現地時間)、オープンソースの画像生成AIモデル「Matryoshka Diffusion Models(MDM)」をGitHubで公開した。

 MDMは、既存の拡散モデルが抱えていた複雑さと非効率性を軽減し、高解像度画像を生成する際の学習速度と計算リソースの効率化を図る手法。

 小規模な入力の特徴量とパラメータが大規模入力のそれにネストされる「NestedUNet」アーキテクチャを用いており、これによって低解像度から高解像度の画像を並行して生成し、各画像間で特徴の共有を行ない、高解像度画像生成時の生成速度と画像品質の最適化を図っている。

 研究チームではクラス条件付き画像生成やText to Image、Text to Videoなど様々なベンチマークでMDMの有効性を検証したといい、成果の一例としては、最大1,024×1,024ドットでのモデル学習に成功したことを挙げている。ここでは1,200万組の画像/テキストからなる「Conceptual 12M(CC12M)」データセットを用いて、ゼロショット(事前学習データから未知の概念を認識する)汎化を達成したとしている。

 またAppleはGitHubにおいて、MDMの学習用Pythonパッケージ「ml_mdm」も公開している。

既存の拡散モデル(上)とマルチスケール拡散モデル(下)
MDMによる画像生成の概観