ニュース

Meta、音声とテキスト両対応の翻訳AI「SeamlessM4T」

SeamlessM4T

 Metaは22日(米国時間)、音声とテキストに両対応した翻訳用のマルチモーダルAIモデル「SeamlessM4T」を発表した。同AIモデルは現在、研究者や開発者向けに提供を開始しているほか、翻訳を試すことができるデモページも公開している。

 SeamlessM4Tは、約100言語のテキストおよび音声を認識でき、翻訳結果をテキストまたは音声で出力できるマルチモーダルAIモデル。なお、音声出力に対応する言語は日本語を含む36言語。

 同社はこれまで、200言語をサポートするテキストからテキストへの翻訳モデル「No Language Left Behind (NLLB)」や、文字体系を持たない福建語に対応した音声から音声への翻訳システム「Universal Speech Translator」、1,100以上の言語に対応する音声認識モデル「Massively Multilingual Speech(MMS)」などを開発しており、今回のSeamlessM4Tは、これらのプロジェクトで得られた知見を統合して開発されたAIモデルとなる。

 同社はマルチモーダル翻訳データセット「SeamlessAlign」のメタデータの提供も開始している。