山田祥平のRe:config.sys

AIが変える同時通訳サービスとデバイスの今

 PCに持ってほしい新たな付加価値としてのAI。それは、PCと人との新しい関係性の発見でもある。われわれは、正面にPC、片手にスマホ、そしてイヤフォンという三種の神器を持っている。それぞれがそれぞれの役割を果たしている。

AIに期待する通訳の役割

 昨年(2025年)はAI、そしてAIエージェントに関する話題が世の中を席巻した。ChatGPT、いわゆるチャッピーが女子高校生や主婦といった層にまで浸透し、いい意味でも悪い意味でも人々の暮らしに影響を与え始めてきている。

 個人的には、AIに頼りたいことの1つとして「通訳」の仕事がある。仕事での外国語話者との会話、セミナーや講演などの聴講などは、今なおイヤフォンを介して人間の同時通訳者の音声を聴くことが多いが、逐次通訳だけが提供されることも少なくない。逐次通訳は単純計算で内容を伝えるのに2倍の時間がかかるのがやっかいだ。

 海外旅行に出れば、ポジティブな意味での物見遊山であちこちを観光する。予算の関係もあってずっと日本語話者のガイドに同行してもらうわけにもいかないので、たいてい現地ツアーなどに参加する。そのほうが安上がりでもあるからだ。ガイドの話者は英語なので、理解のためには工夫が必要だ。また、買い物や食事などでも外国語話者とのコミュニケーションは必要だ。

 そんなわけで、AIの通訳仕事には大きな期待を寄せている。

 AIの同時通訳に期待するのはまず、相手のしゃべった外国語を日本語に翻訳することだ。こちらが喋るのは片言の英語でもなんとかなる。最悪の場合でもイエスとノーで答えればいいし、身振り手振りを交えて、欲しいもの、見たいもの、食べたいものの名詞を並べて提示するだけでも大丈夫だ。

 でも、その前に相手の話す内容を理解する必要がある。日本語は文末決定性の強い言語なので、相手の発話から日本語への翻訳が始まるまでのタイムラグが大きくなりがちだ。逆方向の場合はもっとそうだが、そのあたりの問題も解決しなければならない。

サービスとデバイスが百花繚乱

 翻訳デバイスにはいろいろある。異なる言語話者の双方向の会話をサポートするものとしてはなんといってもポケトークが有名で、その専用デバイスはあちこちで目にする。その一方で、たとえばTimekettleのようなベンダーによる翻訳イヤフォンもユニークな同時通訳体験を提供してくれる。専用デバイスによるテンポのよさは今のところ体験としてはピカイチではないだろうか。

 スマホの汎用アプリもある。もっともおなじみなのはなんといってもGoogle翻訳だろう。逐次での変換に加えて、会話モードも用意されている。2言語の自動判別機能もあるし、オフラインでも機能する。ただ、途中で通訳を投げ出すようなところがあって使いこなしは一筋縄ではいかない。

 相手が一方的に外国語をしゃべるようなシーンでは、SamsungのGalaxyシリーズが搭載している独自通訳アプリのリスニングモードがいい仕事をする。これはこれで進化を続けてほしい。

 また、有料サービスではあるが、120分/月までは無料のAI文字起こしサービスNottaは、直近でスマホ単体でのリアルタイム同時通訳をサポートするようになった。また、以前のポケトーク同時通訳は、Sentioと呼ばれるサービスとなり、ブラウザを使っての同時通訳サービスを提供している。こちらは30分/月までは無料だ。

AI文字起こしサービスと要約と翻訳サービスをまとめて請け負う

 昨年は、AI文字起こしサービスがいろいろ出てきて、薄型のノートテイカーデバイスを提供するベンダーもたくさんあった。それらのうち、Nottaや、Mobvoi TicNoteなどがライブ文字起こしとリアルタイム翻訳機能を付加価値として提供するようになり、単なる録音デバイスでの後から文字起こしに留まらないサービスを模索しているようだ。

 ライブ文字起こしは専用デバイスでの利用は難しく、どうしてもスマホの広い画面と専用アプリに頼ることになる。形態を含めた専用デバイスの位置づけを再構築しなければならなくなるだろう。

 さらに、イヤフォンベンダーの動きも見逃せない。間抜けなことに暮れになってから気がついたのだが、モバイルガジェットベンダー大手のAnkerが、いつのまにか同社のイヤフォンデバイス設定アプリのSoundcoreをアップデートし、それに実装された同社のAI「Anka」が飛躍的な進化を遂げていた。イヤカフ型のイヤフォンAeroFit 2もアップデートされ、リアルタイム翻訳がサポートされるようになっていたのだ。

 調べてみると、昨年秋に更新されていたようだが、イヤフォン用のアプリというのはいったん設定してしまうと、改めて使う機会が激減して、新機能の追加などに気がつきにくく見落としていた。

 SoundcoreアプリはiOSならApp Store、AndroidならGoogle Playストアで簡単に入手できる。Anker製品の所有者でなくても誰でも登録できてインストールができ、同社のAIであるAnkaのサービスを利用できる。いわゆるチャットサービスが主なようだが、リアルタイム翻訳機能も提供されている。少なくとも今のところは無制限の無料利用ができるようだ。

 Ankerは、AI翻訳機能の提供にあたってMicrosoft Azure AIと提携していることを公表している。そして、Azure AIの音声・翻訳サービスのバックエンドには、OpenAIのGPT-4oが「Azure OpenAI Service」として使われている。

 実際に使ってみると、音声認識後の翻訳結果は実用になるくらいにはテンポよく翻訳結果が表示される。少なくとも、文字で読むだけなら、十分に実用的な翻訳アプリだといえる。だが、テキストが生成されたあと、音声合成のプロセスではひっかかりを感じる。表示したことをそのまま発話すればいいだけなのにと思うが、クラウドとのデータの行き来で遅延が増幅されているようだ。

 数秒の遅れが常態化しているので、同時通訳というには無理があるようにも感じる。ChatGPTなどのLLMベースのシステムでは、文が完結してから音声合成に回す必要があるため、テキスト出力と音声出力の間に構造上のラグが生じやすいのかもしれない。

 最速クラスの専用ハードウェアTimekettleなどとは比較にならない。ただ、Anker以外のイヤフォン装着時にも使える同時通訳音声再生なので、今後の進化を期待したいところだ。だが、このレベルのリアルタイム翻訳が無償サービスとして気軽に手に入るというのは驚異だ。試してみる価値は十分にあるので、ぜひ。なにしろ失望しても金銭的被害はゼロなのだから。

 いずれにしても、Ankerによる新たなフリーミアム戦略の一環としてのSoundcoreだが、なぜか日本ではプレスリリースが出ていないなど、あまり大きな話題にはなっていない。Ankerのプラットフォーマーとしてのリブランディングにつながるものかもしれず、ちょっと注目しておきたいと思う。

 今年は、AIによる翻訳シーン周辺はかなりおもしろくなりそうだ。もちろん、最高峰サービスとしてのDeepLのリアルタイム翻訳からも目が離せない。

 初夢を見る前から妄想が膨らむ。そのくらいでちょうどいい。

 ということで、あけましておめでとうございます。どうか今年もご愛読くださいますよう。