山田祥平のRe:config.sys

AIがもたらす同時通訳の新しい当たり前

山田祥平

2023年11月11日 06:18

　周辺で聞こえる音声が、全部、母国語で聞こえたらどんな世界観なんだろう。ポケトーク株式会社が「ポケトーク for BUSINESS 同時通訳」のWebブラウザ版の提供を開始、通訳の世界の刷新をもくろむ。AIが同時通訳の当たり前を変えようとしているのだ。

もうAIには追いつけないし追いつく必要もない

　ポケトーク株式会社の松田憲幸氏(同社代表取締役社長)は、中学生になったときから英語を勉強してきたが、その実力は、ポケトークなど、今の機械通訳のレベルにはとうてい及ばないし、あと40年努力しても追いつくのは無理だと断言する。

　これはぼく自身もその通りだと思う。最初は使いものにならないように感じたインターネットでの翻訳もそこそこ実用十分なレベルになってきているし、文章の翻訳のみならず、ポケトーク同時通訳のようなサービスの登場で、音声を認識し、それを文字起こしし、さらに異なる言語に翻訳して文字を表示、必要なら音声でも読み上げるようなほぼリアルタイムのソリューションが手軽に使えるようになってきた。短いセンテンスをその場で通訳する逐次通訳のスマート化は広く知られるようになってきているが、そのちょっと先の未来がそこにある。

　ポケトークの開発が始まったのは2001年からだそうだが、今は、同社の社是でもある「言葉の壁をなくす」が「言葉の壁が崩れてきた」くらいに、それなりの手応えがある結果を出せているのではないかと松田氏はいう。

　同氏は、今、グローバル人材が足りないことを憂い、通訳案内士試験の受験者数が減っていることなども懸念する。人間がやらないのであれば、AIにやらせるしかないのだが、そのテクノロジーは役に立って使えるレベルまで到達していなかった。だが、今回は違うと松田氏。

　これまでのアプリ版「ポケトーク for BUSINESS 同時通訳」については、つい先日も、この連載で紹介したばかりだ。Windows版とmacOS版が用意されていたが、これまでのユーザーからは改善要求として、スマホやタブレットで使いたいというニーズが数多く寄せられていたのだという。ITセキュリティの観点から、特別なアプリを入れることができないといったケースもたくさんあったらしい。

　松田氏は、首脳会談での通訳環境を一般の人に広めたいという。TVでお馴染みの各国要人同士の首脳会談だが、多くの場合、それぞれの要人の背後に同時通訳者がつき、相手の外国語を聞いて、それをフィスパリング、つまり、ささやき声の自国語で伝える。これによって、互いに話している言語にかかわらず、互いの母国語同士でのコミュニケーションが成立する。もちろん、そのためにはとても優れた同時通訳者が必要だ。そのコストもすごそうだ。誰もが手に入るわけではない環境ではある。

　でも、ポケトークならそれに近いことができるかもしれない。

聞こえる外国語を母国語で読む

　目に見える文字、聞こえてくる音声、視聴覚に訴えるさまざまな文字や音声の情報が、すべて母国語だったら、どんなイメージなんだろうと考えたことがある。

　聞こえてくるボーカル入りの音楽はすべて日本語、映画を見ても役者は日本語を流ちょうに喋り、街を歩けば、若者が日本語文字をプリントしたTシャツを着て闊歩する。そして何より、目に入る広告、看板、標識などが、すべて日本語だとしたら……。

　極端にいうとこんな感じだ。アメリカやイギリスなどで、英語がネイティブな国では、人々がそんな環境の中で暮らしているのだろう。そのフィーリングは日本語ネイティブの世界に生きている我々には想像が難しい。

　ポケトーク同時通訳を使うことで、聞こえてくる外国語の音声は、日本語として読めるようになる。首脳会談のようにイヤフォンで聴くこともできる。松田氏は首脳会談を例に挙げたが、誰もが専任の同時通訳を四六時中脇に待機してもらえるはずがない。というか、普通の人にはそれは不可能だ。

　このサービスを有効にしておくと、周辺で聞こえる言葉が次々に文字になって表示されていく。音声認識のアルゴリズム的に、ちょっとしたノイズや物音を誤認識して文字にしてしまうようなこともあるが、それはご愛敬というものか。

　個人的には、話者の地声をストレートに聞きたいし、発声の語調も知りたい。それに2つの音声ストリームを同時に聴くというのは慣れていないし、なかなか難しい。首脳とは場慣れのレベルが違うのだ。だからといって話者の音声ストリームを遮断して合成音声の吹き替えを聴くというのもなんだかなと思う。現実的には文字表示での使い勝手がよさそうだ。

　AIが、ことばの語調をエレガントに伝えられるようになるまでには、まだ時間がかかるだろう。同じように「ありがとう」と通訳するにしても、嬉しそうなThank youと、ありがた迷惑のThank youの語調を使い分けられるようになるのはいつ頃なんだろう。

　だから、それまでは同時通訳は字幕でいいと思う。本当はMR対応のヘッドマウントディスプレイでもつけて、映画の字幕というか、コミックの吹き出しのように現実世界に通訳後の字幕がスーパーインポーズされるというのがいいのかもしれない。その場合は縦書きもおもしろそうだ。今回のブラウザ対応によって、ポケトーク同時通訳の応用範囲は大きく拡がる。ブラウザ対応のメガネさえあれば、すぐにそれができるようになるからだ。

　もっとも、ぼくらは字幕の表示に最適で手軽なデバイスを常時持ち歩いている。スマホがそうだ。スマホがあって、そこで稼働するブラウザがあれば、ポケトーク同時通訳を使ってすぐに環境音の字幕化ができる。スマホのマイクのノイズキャンセリング機能は格段によくなったし、オンライン会議用のエコーキャンセル機能つきスピーカーフォンなどを使うことで、機械が認識しやすい音声情報を入力することができる。良質な音声の入力によって翻訳の精度はさらにあがるという。最近、進化の著しい、ノートPCのノイズ/エコーキャンセルマイクの性能は、こういう場面でも役にたつ。コロナはいったいどこまで人間の暮らしを豊かにするのだろう……。

　ポケトーク同時通訳では、発話から字幕の表示までに2～3秒かかる。もちろん相手はしゃべり続ける。ある程度外国語が理解できると、そのタイムラグが気になり始める。セキュリティという観点では、秘密の会議の音声情報がクラウドに伝送され、それが音声認識され、さらに翻訳されて戻ってくるという伝送の流れの中でのデータ漏洩を気にする立場のユーザーもいるかもしれない。オンデバイスで処理するエッジAIが求められているのは、打てば響くレスポンスとローカル処理に閉じることのセキュリティニーズが高まっているからだ。そのあたりのことも視野に入れつつ開発を継続してほしい。

　ブラウザ対応は、できたてのホヤホヤで、まだこなれていない部分も多い。Androidスマホは、フォントサイズと表示サイズを個別に段階的にズームできるし、Android 14では、そのサイズ調整幅も拡張された。だが、ポケトーク同時通訳のブラウザ対応サービスイン時点では、フォントサイズや表示サイズによっては、ボタン類が表示領域からはみだして表示しきれずに操作不能になるなど、サービスイン前の評価が不十分でお粗末な印象を受ける。同サービスのみならず、ほかのアプリやサービスでもそれなりに見かける現象だが、せっかくのユニバーサルな世界観が台無しだ。ここは早急に対応してほしい。

　なお、今回の刷新で、月額費用がアプリ版時代の2,200円から3,300円へと改定されている。30分までは無料で使える点は以前と同様だ。アプリ内購入での課金がやっかいなスマホのストア事情などの点からも、対応デバイス拡充手段としてブラウザへの移行が検討されたのだろう。

　ポケトークのビジネスモデルは、専用端末を購入すれば通信経路を自前で調達する限りは永年無料というものだったが、サービスとしてのポケトーク同時通訳はサブスクリプション制を選んだ。専用端末で使う本家のポケトークについては現行通り、通信を自前で調達する限り、通訳サービスは従来同様、無償で提供されるそうだ。