ニュース

日本語/英語両方で世界トップクラス性能の大規模言語モデル。商用利用可

劉尭

2023年9月28日 12:57

　株式会社Preferred Networks(PFN)は、日本語/両方を合わせた能力で世界トップレベルを謳う事前学習済みの大規模言語モデル「PLaMo-13B」を、研究/商用利用可能なオープンソースライセンス(Apache License v2.0)で公開した。

　開発に当たって、学習に使用可能なオープンデータセットを独自に収集/加工して、1.4兆トークンの大規模な日英2言語のデータセットを作成。そして、国立研究開発法人産業技術総合研究所が保有するAI橋渡しクラウド(ABCI)にある、NVIDIA A100を480 GPU使用して1カ月弱の学習を行ない作成した。

　英語に加え、日本語の学習データ量を増やすことで、130億パラメータというコンパクトモデルでも、日英2言語のベンチマーク評価で世界トップレベルの性能を実現。その一方で標準的なGPUサーバーでも利用可能とした。

　日本語の学習に用いたデータセットはmc4とwikipediaで割合はそれぞれ12%と0.3%。英語はRedPajamaからbooks3を抜いたデータセットで87.7%を占める。日本語を効率良く扱うため、tokenizerはsentencepieceを使って学習したものを用いた。

　DNNの基本構造はLLaMAを踏襲しているが、将来の高速化の余地を大きくするため、Grouped Query AttentionおよびParallel Layersを利用した。また、実効効率向上のため、分散学習の採用、データ量子化による通信量の削減、CUDAカーネルの実装を行なうといった工夫をこらしている。

分散学習によるGPUメモリの削減

データ量子化により通信量を削減