ニュース

Apple、300億パラメータのマルチモーダル大規模言語モデル「MM1」

与えられた情報をから文脈などを読み取り、答えを導き出すMM1

 Appleは14日、マルチモーダル大規模言語モデル「MM1」に関する論文を公開した。研究を通じて30億、70億、300億パラメータのLLMと、MoE(Mixture-of-Experts)を用いた30億、70億パラメータのモデルによるモデルファミリーを構築しており、既存の同等サイズのモデルを上回る性能を発揮できたとしている。

 研究では、高性能なマルチモーダル大規模言語モデル(MLLM)の構築における、アーキテクチャやデータの選択の重要性などについて検討。特にマルチモーダルの事前学習やアルゴリズム設計の選択プロセスなど、多くの研究において公開されることの少ないNLLMの構築プロセスを記録し、モデルを設計する上で重要な項目を整理することを試みた。

 その結果、モデルとアーキテクチャの決定、および事前学習データ選択の重要度に関する発見があり、モデリングにおいては、画像解像度、ビジュアルエンコーダの損失と容量、ビジュアルエンコーダの事前学習データの重要度が高い一方、ビジュアルデータをLLMに送り込むアーキテクチャについては影響度が高くないのだという。

 また、事前学習データについては、画像とキャプション、インターリーブ画像とテキスト、テキストのみの3種類を用いることで高い性能を実現できるものの、データの種類のよって影響を与える性能が異なるため、それぞれのデータを適切に組み合わせて使う必要があることも分かったとしている。

 その上で構築されたMM1は、同等サイズの既存のモデルと比べて高い性能を実現。MoEを用いたモデルは、ともに通常のものより高性能となった。大規模なマルチモーダル事前学習によって、文脈内予測やマルチイメージ、思考連鎖推論といった点に特性を持っているという。

既存のモデルとの性能比較