ニュース

産総研、少ないデータから高性能な日本語音声AIを構築できる基盤モデル

宇都宮充

2025年3月11日 15:45

　産業技術総合研究所(産総研)は、6万時間の日本語音声データを用いて構築した音声基盤モデル「いざなみ」および「くしなだ」を公開した。ともに、各モデルでパラメータ数の異なるBase、Largeの2種類が用意され、AIモデル公開プラットフォームのHugging Faceにてダウンロードできる。

　どちらも音声データの処理/解析を行なうための汎用的なAIモデル(音声基盤モデル)で、過去最大規模という6万時間の日本語音声データを使って構築した。いざなみは利用者のデータを用いて容易に改良可能な点、くしなだは日本語の音声感情認識と音声認識に高い性能を発揮できる点を特徴としており、教師データが少量しかない場合でも高性能な音声AIを構築できるという。

　日本語音声基盤モデルではこれまでに2万時間の日本語音声データを使ったものが公開されていたが、本モデルでは感情表現豊かな音声や多様な世代の音声が含まれたテレビ放送音声に注目し、6万時間ものデータを用意。性能評価の結果、演技感情音声の感情認識において、いざなみで80.12%、くしなだで84.77%の精度を達成し、以前のものと比べて10ポイント以上の改善を実現したとする。

　産総研では今後、新たな方言音声データセットの構築などを通じて、地域や世代の違いによって音声AIの性能が低下する問題の改善に取り組むほか、少量データを活用した音声AIの構築/普及に貢献していくとしている。