山田祥平のRe:config.sys

セミナーを聴き、セミナーを読む

 人間ができないわけではなくても、信頼できる機械に任せられることは任せてしまえれば、トータルでの生産性やQOLは向上する。その実践と繰り返しで産業は進化してきた。

 AIはその可能性をさらに拡大して人間を助けるはずだと思う。これまでの機械が及ばなかったフィールドでの活用が期待されるからだ。たとえば翻訳や通訳もそんなフィールドの1つだ。

AIが観るコンテンツを読むコンテンツにトランスフォーメーション

 機械翻訳や通訳の進化は著しい。自分自身は何十年も外国語とつきあっているのに、ちっとも上達しない。異国語の勉強にそれほど熱心じゃないから当たり前といえば当たり前なのだが、横着にもそこに苛立ちを感じながら、AIはすでにそんな自分を追い越してしまっている。精度云々というところに言及すれば、現時点では平気でウソをつかれているかもしれないし、非の打ち所のない美しい日本語が得られるわけでもないが、それも時間の問題だろう。

 現時点で手に入るソリューションはいくつかのユースケースが想定されている。外国語と日本語相互の変換という点では文章として記された言葉を別の言語に書き換える翻訳と、発話された言葉を別の言語に言い替える通訳がある。また、通訳には、逐次と同時がある。ここでは、逐次と同時を含む通訳ソリューションについて考えてみたい。ほしいのは同時通翻訳の世界観による読む対話だ。

 デバイスを使った通訳ソリューションについては、なんといってもソースネクストのnの存在が圧倒的だ。2017年に発売され、「言葉の壁をなくす」をコンセプトに、この市場を開拓してきた。専用ハードウェアが提供されているほか、スマホアプリも提供されている。まさに、飛ぶ鳥を落とす勢いだ。

 また、スマホはスマホでGoogleのAI戦略がすごい。毎年秋恒例のPixel新シリーズとして発売されたばかりの「Pixel 8」シリーズも、AIによるコンピュテーショナルフォトグラフィーの著しい進化が注目されている。だが、リアルタイム翻訳の機能はプラットフォーム全体で活用できる便利なAIソリューションとして、既存機種でも利用できる。

 UI/UXそのものには、まだまだ改良の余地はあると思うが、たとえば、音声が再生されているところでは、それを翻訳して任意の言語の字幕で表示する「リアルタイム翻訳」は役に立つ。Pixel 6以降で使えるこの機能は、チャットアプリ、カメラで撮影した写真の翻訳、動画やビデオ通話、音声メッセージなど、メディアが再生する音声の自動字幕起こし、また、Googleアシスタントの通訳モードなどとして機能する。

 YouTubeは多くの場合自動翻訳の機能が使えて、任意の言語の字幕を出すことができる。スマホのリアルタイム字幕では、音声を認識してそれを翻訳してくれる。まさに、洋画の字幕のようなイメージだ。

 日本のTV番組ではテロップが濫用に近いかたちで使われ、音声がなくてもコンテンツの意味を把握することができるのはご存じの通りだ。スマホの自動翻訳もそんな感じで、音声つきのコンテンツを文字化する。いわば聴覚の翻訳風味視覚化だ。それによって映像コンテンツは視聴するコンテンツから読むコンテンツにトランスフォーメーションする。そこにあるのが翻訳/通訳AIがもたらすトランスレーションという仕事だ。

気になるズレをどう解決するか

 洋画を字幕で見るのは慣れていて、そんなに違和感を感じることはない。それに洋画の字幕は耳から入ってくる異国語と、きちんと同期している。だから視聴覚が一致する。だが、自動翻訳での字幕化ではわずかとはいえタイムラグがある。耳で聴いている言葉と目で読んでいる言葉がずれてしまい視覚と聴覚、知覚が混乱してしまう。まったく分からない言語ならともかく、少なくとも英語なら多少は理解できるばかりに、それがあだになるわけだ。

 逐次通訳ならこういう問題は起こらない。タイムラグが当たり前として受け入れられているからだ。逐次通訳での対話は、片方が喋り終わり、それが通訳されて相手に伝わり終わるまでは、次の言葉を発しないというのがルールだ。ポケトークもそうだし、Googleがスマホ用に提供しているGoogle翻訳の通訳機能、また、Googleアシスタントの通訳機能などは、そうやって使うように設計されている。ワンターンは長くても1分程度だ。

 よく、逐次通訳が介入する現場で、勢いあまった話者が長くしゃべりすぎてしまい、通訳から中断を要求される場面にでくわすが、そんなイメージだ。要するに、逐次通訳は対話のためのものであり、言語の方向を含めて、人間が介入しなければ、スムーズな対話にはならない。すべてをAIに任せることができるまでには、まだ、それなりの時間がかかりそうだ。

長い講演の翻訳はまだまだ

 異なる言語が混在する現場には、1人の話者が一方的に話を続けるシチュエーションがたくさんある。大学の講義、会社役員の社員に向けた訓示、著名人のセミナー、企業カンファレンスの基調講演などは、かなりの長時間、1人の話者がしゃべりっぱなしだ。たいていの場合、こうしたスピーチではあらかじめ予定された原稿をもとに話すことが多く、論理的な整合性がとれているので、翻訳/通訳には向いているはずなのだが、こうした現場で役立つ通訳ソリューションはなかなか見当たらない。

 1時間以上も続く英語のスピーチを、まるで映画の字幕のように日本語表示して読むことができれば便利だ。たとえば、クラウドサービスのnをPCで使えば、環境音を音声入力し、それをリアルタイムで翻訳することもできる。

 現場の環境音をとらえ、それを音声認識して文字化、さらに翻訳して日本語で表示する。こういうことができる環境がアプリになったものが「ポケトーク for BUSINESS 同時通訳」だ。アプリそのものは無料で配布され、1カ月あたり30分までの利用が無料ができる。それ以上が必要な場合は、1カ月分の利用量として2,200円のクーポンを購入するシステムになっている。なお、利用にはインターネット接続が必要だ。

 PCからの再生音、またはPCのマイクが拾った環境音、またはその両方を通訳して字幕表示し、必要ならば、合成音声で発話させることもできる。また、自分がしゃべった日本語をオンライン会議アプリのカメラ画像にスーパーインポーズすることができる。

 セミナーや講演などで使う場合は、環境音を聴くように設定し、聴講中は、PCの画面をチラチラ見ていればいい。生の環境音でセミナーの内容を把握しつつ、ちょっと聞き取れなかった部分などを文字で確認してフォローアップすることができる。表示領域のサイズは自由になるので、比較的たくさんの文字を表示できる。このことで、振り返りもしやすいし、リアルで聞こえる音声とのタイムラグもあまり気にならない。エディタなどでメモをとりながら、同時翻訳結果をスクロールさせているだけでいい。

 文字で読むと、日本語としてはひどいもんだが、自分の言語の理解力で得られる情報量よりは明らかに多いとも思うし、何より、記録が残って、あとで確認できる。

 音声認識した文字起こしデータと、その翻訳結果はTSVという拡張子のファイルにログとして残すことができる。CSVがデータをカンマで区切るのに対して、この形式はタブでくぎられている。「ポケトーク for BUSINESS 同時通訳」は、フレーズごとに、秒単位での翻訳日時、翻訳元言語、翻訳元テキスト、翻訳先言語、翻訳先テキストがTSV形式で保存され、Excelなどを使って簡単に表示することができる。ただ、音声は記録に含まれないので、曖昧で元の音声を確認したいときにはお手上げだ。

 だから、保険のために、スマホのレコーダーアプリを使って音声を録音し、それを文字起こしして保存するようにしている。このアプリが文字起こししたテキストデータは、それをそっくりそのままGoogle翻訳にでも投げれば、聴講していたセミナーの荒訳が瞬時にできあがる。認識後のデータを比較すればAIの勘違いも分かる。

 マイクの音声を拾って音声認識して、それを文字化、翻訳するというソリューションなので、まさにスマホにはうってつけなのだが、寡聞にして、スマホアプリにこうしたシンプルなことができるものを寡聞にして知らない。ソースネクストには、「ポケトーク for BUSINESS 同時通訳」のスマホアプリもぜひ用意していただきたいものだ。技術的な問題は何もないと思う。

 また、現時点の仕上がりを見る限り、若干の不安定さが見られ、環境音が曖昧なときに無意味な翻訳テキストが羅列される場合が散見される。このあたりのブラッシュアップを求めたい。

言葉の壁を超えて

 近い将来は、外国語を学ぶことに意味がなくなる時代が来るといったことが予測されたりするのだが、そんなことは絶対にないとは思う。コミュニケーションは、AIを介在させることなく、ダイレクトに行なえた方がいいに決まっている。そこからうまれる絆の価値は何者にも代えがたいはずだ。

 その一方で、実務上、あらゆる言語に範囲を拡げて情報を集める必要があるような場合には、プロンプトエンジニアリングを修得し、情報の海に出て行かなければならない。

 英語ネイティブなビジネスマンやエンジニアなどの最大の強みは英語を勉強しなくてもいいことなのだそうだ。必須とされる英語を勉強しなくてもいいのでその分の時間を他のことに使えるわけだ。確かにそうかもしれない。だが、AIがうまく機能して、その領域に達し、人間がシームレスにAIの能力を活用できるようになれば、ちょっと異なる未来が出現するかもしれない。たぶん、何語であっても自然言語を認識して、任意の言語に変換するAIの能力が人間のそれを超えるのに、そう時間はかからないだろう。他言語の話者と楽しく話ができたらきっと楽しい。そんな未来なら、早くやってきてほしい。