ニュース

ELYZA、コード生成と補完に特化した70億パラメータの日本語LLMを公開

 株式会社ELYZAは、Metaの大規模言語モデル(LLM)「Code Llama」ベースの日本語LLM「ELYZA-japanese-CodeLlama-7b」を一般公開した。本モデルは研究および商業目的での利用が可能。

 ELYZA-japanese-CodeLlama-7bは、Code Llamaに対して日本語による追加事前学習を行なった、コード生成と補完に特化した70億パラメータの日本語LLM。事前学習では、OSCARやWikipedia、その他クロールデータといった日本語のテキストデータ180億トークンが使用されている。

 同社は、Llama 2ベースの日本語LLM「ELYZA-japanese-Llama-2-7b」を8月に公開している。今回公開されたモデルは、同社がLlama 2に適用した日本語の事前学習手法が、他のモデルにも汎用的に適用できることを示している。

ELYZA-japanese-CodeLlama-7b