ニュース

東工大と産総研、日本語に強いAIモデル「Swallow」

宇都宮充

2023年12月20日 13:13

　東京工業大学情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チーム、および国立研究開発法人産業技術総合研究所(産総研)は、日本語に強い大規模言語モデル「Swallow」を公開した。Llama 2をベースとしており、LLAMA 2 Community Licenseに従う限りにおいて、研究および商業目的での利用が可能。

　Swallowは、Metaの開発するLlama 2の7B(70億パラメータ)、13B(130億パラメータ)、70B(700億パラメータ)モデルをベースに開発された大規模言語モデル(LLM)。Llama 2は元から日本語に対応しているものの、事前学習データの約90%が英語で、日本語の割合は全体の約0.10%に留まることもあり、日本語でも読み書きが苦手だった。

　研究チームでは、Llama 2のモデルをベースに、大規模な日本語Webコーパスと英語コーパスを9:1で混ぜたデータを用いて継続事前学習を実施。元々の言語モデルの能力を活かしつつ、日本語能力の改善に成功した。日本語コーパスのみで事前学習された同規模のLLMと比べても高い性能を発揮できるといい、継続事前学習の有効性も明らかにできたとする。また、日本語Webコーパスについても、商用利用が可能なものとしては最大規模のものを新たに構築したという。

　加えて、1万6,000件の日本語トークンをLlama 2のトークナイザに追加することで、日本語テキストのトークン長を56.2%削減。LLMの学習に必要な計算予算を有効活用できるようになり、結果の出力時間の短縮や性能向上を図れるとしている。

　今回のSwallowの公開により、高度な日本語処理が求められる多くの場面において、対話システムをはじめとしたAI技術の利活用を推進できるとしている。

今回の研究で用いられた産総研のAI橋渡しクラウドABCI