ニュース

Google、100以上の言語を自動認識して字幕化できる音声AI

USMのトレーニングパイプライン

 Googleは3月6日(米国時間)、100以上の言語を自動で認識して字幕化したり翻訳したりできる音声AI「Universal Speech Model(USM)」を発表した。現在、研究者向けにUSM APIにアクセスできるリクエストを受付中だ。

 これはGoogleが掲げている1,000言語イニシアチブに向けての第一歩とされる取り組み。300以上の言語で、1,200万時間の音声と、280億文のテキストでトレーニングされた、20億のパラメータを持つ最先端の音声AIとなる。英語や北京語(中国語)といった広く話されている言語のみならず、アムハラ語、セブアノ語、アッサム語といったリソース不足の言語でも、自動音声認識(ASR)するという。

 従来の「教師あり学習」アプローチでは、音声データに対し手動でラベル付けを行なう必要があり、時間とコストがかかるほか、幅広い表現を欠く言語で既存の文字起こしソースを収集することが困難で、スケーラビリティに欠けていた。

 一方、「自己教師あり学習」では音声データのみの活用が可能で良いアプローチとなるが、言語の範囲と品質の拡大には計算効率の高い方法でモデルを改善する必要がある点が課題となっていた。

 USMではトレーニングパイプラインの最初の段階ではBEST-RQを使用し、大量の教師なし音声データを使用。そしてオプションの2つ目の段階で、多目的の教師あり事前トレーニングを使用し、追加のテキストデータからの知識を組み込める。そして最終段階でダウンストリームのタスクを微調整する。事前トレーニング中に得た知識により、ダウンストリームタスクから少量の教師付きデータのみで高品質を達成できるという。

 その結果、YouTubeの73言語/3,000時間未満の教師ありデータを用いて事前トレーニングしただけであるにもかかわらず、平均30%未満の単語エラー率を達成。英語に限定すると、内部の最先端モデルと比較しても相対的に6%低かった。さらに、18言語に限定し、40万時間以上のラベル付きデータでトレーニングされた大規模モデルであるWhisper(large-v2)と比較しても平均で32.7%相対的に低い単語エラー率を実現した。

 一方で自動音声翻訳機能についても、限られた教師付きデータにおいて、Whisperを上回る品質を実現したとしている。

YouTubeのキャプションにおける単語エラー率(低いほど良い)
CORAL(アフリカ系アメリカ人の英語)、SpeechStwe(英語)、FLEURS(102言語)のWhisperと比較しても低い単語エラー率を達成
自動音声翻訳の性能(高いほど良い)