ニュース

600以上の言語で学習したオープンなコード生成用AIモデル。NVIDIAらが開発

 ServiceNowHugging FaceNVIDIAは28日(米国時間)、600以上のプログラミング言語でトレーニングされたコード生成用オープンアクセス大規模言語モデル(LLM)「StarCoder2」を発表した。BigCode Open RAIL-Mライセンスの下で提供され、ロイヤリティフリーのアクセスと使用が可能となっている。

 StarCoder2は、NVIDIAと、ServiceNowが運営するBigCodeコミュニティ、マシンラーニングのコミュニティの共同作業で広く活用されているHugging Faceが共同で開発したLLM。619種類のプログラミング言語でトレーニングされており、アプリケーション開発における生産性の向上や高速化を図れるとする。

 モデルサイズは、ServiceNowがトレーニングした30億パラメータ、Hugging Faceがトレーニングした70億パラメータ、NVIDIAがトレーニングした150億パラメータの3種類を用意。StarCoder2の30億パラメータモデルは、従来のStarCoderの150億モデルに匹敵する性能を持つという。

 また、NVIDIA NeMoやHugging Face TRLといったオープンソースツールと、業界や組織固有のデータを使用してファインチューニングすることで、StarCoder2をベースに各自のビジネスに特化した機能を作ることもできるとしている。