ニュース

3兆トークンにおよぶLLM向け事前トレーニング用データセット

Dolma

 Allen Institute for AI(AI2)は20日、オープンな大規模言語モデル(LLM)「OLMo」を構築する段階で使用した、3兆トークンにおよぶオープンな事前トレーニングデータセット「Dolma」をリリースした。なお、OLMo自体はパラメータ数700億で2024年初の投入を予定している。

 Dolmaは、Webコンテンツ、学術出版物、コード、書籍、百科事典の資料を多様に組み合わせた事前トレーニングデータセット(コーパスと呼ばれている)。なお、最初のデータは英語のテキストに制限している。

 リリース内では、プロジェクトの目標やデータセットの設計原則、設計/制作方法、ほかのデータセットとの比較などを詳細に紹介しており、透明性が高いデータセットを目指していることが分かる。

 Dolmaは独自のImpACTライセンスに基づいて提供する。研究者は連絡先の情報や使用目的を明確にする必要があるほか、制作した派生物の開示およびImpACTライセンスと同じ制限下での派生物の配布が指示され、軍事監視/偽情報の生成といった用途での利用を禁止している。

サブセットタイプ別の概要
Webコンテンツのデータセット作成手法
コードのデータセット作成手法
クローズドデータセットとの比較
オープンデータセットとの比較