山田祥平のRe:config.sys
ウェアラブル通訳が耳元でささやく
2024年12月7日 06:18
他国語話者とのコミュニケーションにおけるAI活用だが、ウェアラブルデバイスでの利用が実用に近づいている。眼鏡で字幕もそう遠くはない。その未来感が新しい当たり前として、ぼくらの暮らしに浸透していく。今回は、耳元でささやくウェアラブル通訳Timekettleを試してみた。
通訳もウェアラブルに
前回は、海外旅行での観光ガイドとのやりとりで各種のデバイスを使ってみた。いろいろな問題点を発見できたが、その実用性がかなり高いことも実感できたし、今後、さらに身近な存在になっていくであろうことも想像できる。
もっとも、スマホのような汎用機よりも専用機の方が向いているようなムードもある。「言葉の壁をなくす」を企業ミッションとするポケトークは、専用端末の優位性として、学校などの教育現場でスマホが禁止されていること、また、スマホそのものが高額すぎることから専用端末のニーズが高まっていることを挙げる。個人用のスマホは業務で使用するのが難しいし、他人とシェアすることも難しい。物流の現場では、倉庫内へのスマホ持ち込みが禁止されているといった状況もある。だからこそ、専用機としてのポケトークは着実に売上を伸ばしているようだ。
逆に、業務ではない一般市民のためのカジュアルな通訳ニーズは、スマホのAI活用の具体的で実用的なユセージモデルとして期待され、各社がこの分野に注力している。今後はオンデバイスAIがキーとなるだろう。
前回、メキシコ旅行での観光ガイドコミュニケーションでの使い勝手を紹介したが、結果として、現時点での最強ソリューションはGalaxy AI通訳のリスニングモードだと感じた。とにかくオフラインで使えるのはうれしい。モバイルネットワークの利用であれほど圏外に悩まされるとは思っていなかったので、オフラインでも使えることはとても重宝した。
ただ、相手の言葉が瞬断するのをトリガーに翻訳するのでコミュニケーションがどうしても逐次的になってしまう。逐次的同時通訳といった印象だ。この問題はほかのソリューションでも同様で、今後のさらなる進化を期待したい。また、翻訳は文字で音声ではない。だから話している相手の顔や表情に注目して集中できないというデメリットがある。
Google翻訳の会話モードは、翻訳がかなりリアルタイムでスムーズだ。翻訳をスタートするタイミングがGalaxy AIのそれよりもかなり早い。だが、スマホと相手を視線が行ったりきたりで表情に注目できないのはGalaxy AIと同じだ。
これらのソリューションのいいとこ取りを追求しているのがTimekettleのイヤフォン型翻訳機だ。同社は中国深センの企業で2016年の創業だ。個人的に同社の製品を知ったのは日本のSB C&S社が初代の「WT2 Plus」を扱い始めた2019年だった。このデバイスはTimekettleが2017年に世に問うた同社最初の製品だった。他言語話者との会話において、イヤフォンを相手に渡して装着してもらうことで、イヤフォンに内蔵されたマイクで拾った互いの言語を相手の言語に相互に通訳し、相手のイヤフォンに届けるという画期的な製品だった。まさに耳元でささやく同時通訳デバイスをめざしていた。
ただ、2017年当時のデバイス技術ということもあったし、同時通訳のタイムラグも大きく、その実用度はちょっと中途半端で、個人的にはそのまま存在を忘れてしまっていた。
ところが、今回、同社の最新製品としてIFA 2024で発表された「W4 Pro」が11月29日にMakuakeでクラウドファンディングをスタートし、順調にサポーターを増やしているようだ。今回のメキシコ旅行には間に合わなかったが、帰国後、発売前の製品を試用することができた。
第一印象として、タイムラグはかつてとは比較にならないほどに短縮されている。そうはいってもゼロにはならない。プロの同時通訳者によるそれとは比較にならない。それでも5秒程度のラグなのでちょっとした会話なら十分に役にたつ。ただ、他国語映画を字幕なしで楽しむというのは無理そうだ。
完全ワイヤレスのオープンタイプデバイスがほぼ同時通訳
デバイスとしての「W4 Pro」はオープンタイプのイヤーカフ型イヤフォンで、装着時にも耳穴を塞がず、環境音がそのまま聞こえるタイプのものだ。両耳利用と片耳利用の両方が想定されている。イヤフォンデバイスは片方ずつバッテリ内蔵の1対の充電ケースに収納されている。左右個別のケースは両方を重ね合わせるようにして持ち運ぶ。ケースにはUSB Type-Cポートが装備され、そこから内蔵バッテリを充電するようになっている。
耳をふさがないオープンなイヤフォンの質が高まったことも功を奏している。オープンタイプで耳穴をふさがず、環境音がしっかりと聞こえるので、コミュニケーションにおける空間疎外感がないのはいい。このタイプの完全ワイヤレスイヤフォンデバイスの進化は、Timekettleのようなソリューションにとっても追い風だ。
イヤフォンの左右はアクセント色で識別するが、靑が左、緑が右と、ちょっと違和感がある。これは素直に赤を右、白を左にして欲しかったところだ。
イヤフォン自体は片耳16.1gでけっこう重い。だが着け心地は悪くない。また、ケースも重くイヤフォンを入れた状態では188gある。気軽にポケットにつっこんで持ち運ぶというサイズ感ではない。オープンタイプのイヤーカフ型イヤフォンとしては、HUAWEIのFreeClipなどが、他デバイスを寄せ付けない圧倒的な使いやすさと軽快さで定評がある。できることならあのくらいを目指してほしいとも思う。
正直なところ、ほかのイヤフォンデバイスとの接続もサポートされるようならもっとよかった。自分の愛用デバイスを使いたい。場合によってはヘッドフォンを使った方がいいようなケースもありそうだ。ただ、ビジネスモデルとして難しいのかもしれない。
スマホとはBluetoothでペアリングすることで、一般的なオーディオデバイスとして機能する。通話などにも対応可能だ。両耳に装着して音楽を楽しむこともできる。W4 Proはその音質も悪くない。
スマホとペアリングした状態で、さらに専用アプリのTimekettleと接続することで、通訳機能が使えるようになる。
イヤフォンにはマイクが内蔵されている。装着している自分の声を拾うためのもので、クリアな音声を取得するためのノイズキャンセリング機能も実装さされている。
対応言語は40ヶ国語で、さらに細かくアクセントを指定できる。たとえば英語1つとってもイギリス、アイルランド、米国、カナダ、オーストラリア、ニュージーランド、シンガポール……と、14ものアクセントを選べて翻訳精度を高めることができる。また、通訳後の音声は男性、女性を選択でき、そのしゃべり方の速度も0.6倍速、0.8倍速、等速、1.2倍速を選択できる。
モードとしては会話通訳と音声通訳が用意されている。
まず、会話通訳モードは2人での1対1でのコミュニケーションのためのものだ。左右のイヤフォンのどちらかを相手に渡して装着してもらい、会話を始める。インタビューなどを想定しているようだ。それぞれの話者の発声をイヤフォンに内蔵されたマイクが拾い、指定言語に同時通訳して相手のイヤフォンに届けることで、異なる言語同士での1:1コミュニケーションを可能にする。これはこれで役にたつが、買い物や観光などの行きずりに近い一般的なコミュニケーションの現場で、私物のイヤフォンを他人につけてもらうというのはなかなか難しいかもしれない。
もう1つの機能である音声通訳モードは「傍聴通訳」と「通話と動画通訳」の2種類の機能がある。聞こえる他国語を自分の言語に翻訳してイヤフォンで再生する。相手の音声はスマホで取得集音するので、狙った話者にスマホを向ける必要がある。この行為は相手の音声を拾いたいという意志を示すことができるので、仕組みを相手に説明もしやすく分かりやすい。集音品質はスマホのノイズキャンセリング機能やビームフォーミングなどにも依存するようだ。また、アプリで「発言」を指示すると、自分の声をイヤフォンマイクが拾い、それを通訳して他国語に翻訳してスマホで再生する。
音楽再生時の一時停止や再開、傍聴通訳でのリスニングと発言の切り替えについてはイヤフォンのタップ操作でできると取扱説明書には記載されているが、少なくとも発売前の実機ではできなかった。
「通話と動画通訳」は動画やオンライン会議アプリなどほかのアプリの音声再生にかぶせるように同時通訳音声が聞こえる。相手の音声が完全に消えてしまうわけではなく臨場感がある。この機能だけは1カ月に300分までという制約があるが500分を1,500円で追加購入も可能だ。
どちらか片方のイヤフォンを装着するだけで、ほとんどすべての機能が使える。スペックではイヤフォン片方あたりのバッテリ駆動時間は約6時間となっているので、片方ずつを使えば倍の時間の駆動ができることになる。使っている間にイヤフォンの再充電ができるので実際にはもっと長く使える。ただし、マイク位置の関係で右イヤフォンを左耳に装着するというのは難しい。何よりも、アプリを開いたスマホの画面をオフにすると、キリのいいところで通訳をやめてしまう。もちろん再開もできない。この仕様についてはもう少し議論すべきだろう。丸一日装着しっぱなしでいて、必要なときにイヤフォン操作だけで通訳機能を開始できるのが理想だ。
意識の変化と変わるべき観光現場
実際に使ってみてどうかというと、聞こえてくる外国語が、5秒ほどのタイムラグで流ちょうな日本語になって耳元で再生されるというのは実に未来感がある。
しかも、特定の言語間ではオフライン利用も可能だ。あらかじめそのためのデータをダウンロードしておく必要があり、2カ国語までは無料となっている。それ以上の言語の組み合わせのダウンロードは1,500円分のクーポンの購入が必要だ。といっても現時点での日本語対応言語は英日と中日の2パターンだけなので実質無料ということになるが、製品の正式発売までにはもっと多くの言語に対応してほしいところだ。
今回、メキシコ旅行で試せなかったのは残念だったが、十分に実用になると思う。通訳結果は文字と音声ですべて保存され、AIによる要約などもできるようになっている。会議などでの利用でも重宝するかもしれないし、セミナーなどでも役にたつだろう。
今回の旅行で感じたのは、多くの人々が、スマホの通訳ソリューションにすでに慣れ親しんでいることだ。スマホを向ければ抵抗なく話してくれるし、それが文字や音声の外国語に翻訳されることに驚くこともなく、もはや便利な当たり前として受け止めている。スマホはカラオケなどで使うマイクと同じなのだ。ホテルのフロント、レストランのウェイター、スーパーの従業員、そして観光ガイドと、あらゆる職業のプロフェッショナルが、AIによる翻訳を抵抗なく受け入れてくれる。この環境の変化は重要だ。
余談だが今回の旅行ではGoogle翻訳のカメラ機能も頻繁に使った。カメラで撮影したテキストを翻訳アプリのホームに送信することで読みやすい状態で翻訳結果が得られる。Googleレンズの翻訳よりもフローが使いやすい。博物館や美術館などの展示説明は基本的にテキスト主体なので重宝した。こうしたことができるようになったのだから、施設の学芸員やキュレーターは、解説等の提供にもっと熱心になってほしいものだ。展示会を一巡すれば一冊の本を読んだような気になれるほどのインタラクティブで充実した解説が欲しい。安くない入館料をとっているのだから、自国語、外国語に限らず、観光地や施設への来訪者が充実した情報を得られるITは、まだまだ工夫ができるはずだ。そういう時代に柔軟に対応できるキュレーターのスマートな仕事を期待したい。