ニュース

Google、話者の声質を維持したまま変換できる音声翻訳技術「Translatotron」

~文章化を行なわず音声間で直接変換

Translatotronのアーキテクチャ

 米Googleは15日(米国時間)、テキスト化を行なわずに音声間の直接翻訳を実現する新翻訳システム「Translatotron」を発表した。

 音声翻訳では、通常、音声をテキスト化する自動音声認識、テキストを翻訳先言語に翻訳する機械翻訳、翻訳テキストの音声を生成するテキスト音声合成(TTS)という3つのタスクに分割し、一連のシステムとして動作させる(カスケード変換)ことで翻訳を実現している。

 今回Googleでは、テキスト化を行なわずに、直接音声から音声の変換を行なう単一のシーケンスtoシーケンスモデルに基づく新しい翻訳システム「Translatotron」を開発した。

 システムはタスクの分割を避けることで、旧来の音声翻訳システムと比べて、より速い推論速度や、音声認識と翻訳間の複合エラーの回避、名前や固有名詞など翻訳の必要がない単語の扱いの改善、元の話者の声を維持した翻訳音声の生成を可能にするといった利点があるとしている。

 Translatotronは、ソーススペクトログラムを入力として受け取り、翻訳したコンテンツのスペクトログラムを翻訳先言語で生成する「シーケンス間ネットワーク」に基づいており、出力スペクトログラムを時間領域波形に変換する「ニューラルボコーダ」と、元の話者の声の特性を維持して翻訳音声合成を行なう「スピーカーエンコーダ」の別々に訓練されたモデルも利用する。

 シーケンス間モデルの訓練では、ターゲットスペクトログラムを生成するのと同時に、マルチタスクオブジェクティブを利用して元および翻訳先トランスクリプトの予測が行なわれ、学習後の推論処理では、トランスクリプトやそのほかの中間テキスト表現は使用されない。

 機械翻訳の品質を測定するBLEUスコアでは、従来のカスケード変換よりも少し低い結果となっているが、サンプルとして公開されている翻訳結果は同様の品質になっており、Googleによれば、Translatotronは初めてエンドツーエンドの音声間直接翻訳を実現したモデルであり、未来の音声合成システム研究に役立つことを期待するとしている。