特集

英語が苦手な筆者も驚愕、Google「ライブ翻訳」は2〜3秒で日本語が届く驚きの実力

Googleのライブ翻訳

 昭和世代の筆者は……というと主語が大き過ぎるかもしれないが、正直なところ英語が苦手だ。学生時代ずっと英語の授業を受けてきたものの(学んでいたとは言いがたい)、読むほうはある程度こなせるが、聞くのと話すのは不得手。海外のYouTube動画を視聴する際は、必ず字幕をオンにしている。

 そんな筆者が以前から頼りにしているのが「Google翻訳」だ。海外取材などで細かなニュアンスを把握できないときには、最終手段として活用している。

 さて、そのGoogle翻訳が先日、大幅にアップデートされた。イヤフォンやヘッドフォンを通じてリアルタイム翻訳を聞ける「ライブ翻訳」機能が、日本のAndroidおよびiOS版アプリ向けに提供開始されると発表されたのだ(ただし、記事執筆時点では筆者のiPhoneでは利用できなかった)。

 というわけで今回は、このライブ翻訳がどの程度実用的なのか、実際に試してみた。一目で内容が分かる動画も用意したので、導入を検討している方の参考になれば幸いだ。

英語の音声が2~3秒後には日本語で再生される

 ライブ翻訳の動作を確認してもらうためには、動画を見ていただくのが分かりやすいだろう。下の動画は、YouTubeで公開されている「Introducing Gemini's speech-to-speech translation capabilities」の再生映像に、ライブ翻訳でリアルタイム翻訳している様子をスマートフォン(Google Pixel 10 Pro Fold)の「スクリーンレコード」で録画し、重ね合わせたものだ。この動画を見れば、話者の発声後にどの程度の速さで翻訳音声が再生されるのか、またその翻訳精度はどのくらいかを確認できる。

 上記の動画では、英語の音声がほぼリアルタイムで日本語に変換され、音声で出力される様子を確認できる。注目すべきはその「変換スピード」だ。速いときには話者の発声から2~3秒後には翻訳音声が再生されている。これはほぼ同時通訳といっても差し支えないレスポンスだ。しかも、会話中にスマホを操作する必要はない。このスピード感こそが、これまでの「翻訳アプリ」と今回の「ライブ翻訳」を分ける明確な境界線といえる。

速いときには話者の発声から2~3秒後には翻訳音声が再生される

設定は簡単、イヤフォンを接続し、Google翻訳をインストールするだけ

 設定方法は極めてシンプルだ。基本的にはGoogle翻訳をインストールするだけでいい。今回のテストにあたっては、スマホ「Google Pixel 10 Pro Fold」とイヤフォン「Google Pixel Buds Pro」のファームウェアを最新バージョンにアップデートした状態で、Google翻訳をインストールした。それ以外は特に設定することなく、画面の左下に「ライブ翻訳」のアイコンが表示された。このアイコンをタップすれば、すぐにライブ翻訳機能を利用可能だ。

テスト前にスマホ(左)とイヤフォン(右)のファームウェアは最新バージョンにアップデートしている
最新バージョンのGoogle翻訳をインストールすれば、「ライブ翻訳」のアイコンが現れる
これはiPhone版のGoogle翻訳。記事執筆時点ではライブ翻訳のアイコンが表示されなかった
今回のテスト前に、イタリア語、スペイン語、ドイツ語、フランス語、韓国語、中国語の言語をダウンロードしている。これらの言語データをあらかじめダウンロードしておけば、オフライン環境でも各言語間で翻訳機能を利用可能だ

 なお、今回はテストのためにGoogle純正のワイヤレスイヤフォンであるGoogle Pixel Buds Proを使用しているが、他社製のイヤフォンやヘッドフォンでも利用可能だ。iPhoneに提供されているシステム標準の翻訳機能は、現時点では特定のAirPodsシリーズなどに限定されているが、Google翻訳アプリであればサードパーティ製品でも利用できる点は、アドバンテージといえる。

Google翻訳のライブ翻訳はサードパーティ製ヘッドフォンでも利用可能
ライブ翻訳モードには、イヤフォンを使う「聞き取っています(リスニング)」、スマートフォンのスピーカーを使用する「会話」、音声を再生しない「テキストのみ」の3種類が用意されている。イヤフォンが接続されると、「聞き取っています(リスニング)」が有効化される

ライブ翻訳をさまざまな用途に使って分かったこと

 ここからは、実際にさまざまなシーンでライブ翻訳を使って見えてきた、実際の使い勝手をお伝えしたい。まず、会話における翻訳スピードについては十分な性能を備えていると感じた。今回は動画音声でのテストだが、話者が発声してから翻訳音声が届くまで2~3秒とタイムラグが短い。お互いがライブ翻訳を使用する環境さえ整えれば、使用感は非常にスムーズだ。

 一方で、Googleの公式ブログでも紹介されている「外国語のTV番組や映画の鑑賞」については、少し注意が必要。ニュース番組のようにキャスターが抑制的に話す言葉であれば問題ないが、映画の日常シーンなどで早口でしゃべり続ける場面では、徐々に翻訳音声が遅れていってしまう。翻訳音声の再生スピードが、映画のセリフの速さに追いつかないことが原因のようだ。

ジョージ・A・ロメロ監督の『ナイト・オブ・ザ・リビングデッド』を再生しながらライブ翻訳を使ってみたが、セリフの多いシーンでは徐々に翻訳音声が遅れていってしまう

 また、最新機種であるGoogle Pixel 10 Pro Foldであっても、テスト中に翻訳が止まってしまうことがあった。膨大な音声データをリアルタイムで解析、翻訳、音声合成する作業は、負荷が高いのだろう。プロセッサがもう一世代進化すれば、こうした状況下でもより安定したパフォーマンスを発揮できるようになるのかもしれない。

 ダメ元で音楽を再生しながらの翻訳も試してみたが、こちらは今回成功しなかった。伴奏の音に邪魔をされて、声を正確に認識するのが難しいのだろう。ライブ翻訳は現時点では、「話し声」に特化した技術だと捉えるべきだ。

 一方、技術的に注目したいのは、声の性質の再現。声の高低などに合わせて、適切な声色の翻訳音声で再生してくれる。さらに「ささやき声」などにも対応しており、翻訳音声もそのニュアンスを再現する。単に言葉を置き換えるだけでなく、話者の特徴を伝えるレベルに達している点は実用的だ。

冒頭のテスト動画を確認すると、「ささやき声」の部分で翻訳音声の声質が変化しているのが分かる

 ただし、音声側の再現度が高いからこそ、スマートフォンの画面表示(UI)には改善の余地がある。現在のライブ翻訳では、話者が異なってもすべて同じ色のテキストで表示される。声で個人を判別できているのであれば、視覚的にも色分けされていれば、画面上でも状況を把握しやすくなるはずだ。

 また、話者が入れ替わってもテキストが連続して表示されるため、誰が何を発言したのかを視覚的に追うのが難しい。チャットアプリのように、話者ごとに表示領域を分けてくれると、後からテキストを見返した際の利便性が格段に向上するだろう。

話者の言語が変わると新たな表示領域に移行するが、同じ言語の場合は話者が変わってもそのまま表示されていく

 色分けをしないのは諸般の事情があるのかもしれないが、ツールとしての実用性を考えれば、なんらかの視覚的な区別を導入した方が良いと考える。

言葉の壁を意識せず交流できる時代がもう目の前まで来ている

 現状では、映画内での掛け合いのような早口においては遅延が発生しているし、翻訳精度も完璧とはいえない。しかし、声のニュアンスを再現する機能まで実装されており、リアルタイム翻訳ツールとしては完成形に近づいているというのが率直な感想だ。

 今後、プロセッサのさらなる進化によって処理能力が向上すれば、こうした課題は解消されるはずだ。3月末にはXに自動翻訳機能が本格導入され、日本人ユーザーと海外ユーザーの交流が広がっている。もちろん、多言語を自ら操れる方がより正確で密接なコミュニケーションが取れるのは確かだ。しかし、実用性という点では、言葉の壁を意識せず交流できる時代がもう目の前まで来ているといえるだろう。