山田祥平のRe:config.sys

その日本語はAIに聞いてくれ

 正しい日本語の読みを入力すれば、それを正しい漢字かな交じりの文字列に変換する。それが日本語入力システムの仕事だった。その当たり前がちょっとずつ変わろうとしている。昭和の終わりから、今、終わろうとしている平成の歴史のなかで生まれようとしている新しい当たり前とは。

かな漢字変換システムを越えて

 当初、PCにおける日本語入力システムは、デバイスドライバとしてOSに組み込んで使われていた。それ以前は、日本語ワープロソフトなど、アプリの一機能としてビルトインされていたのだが、編集機能と日本語入力機能が分離され、OSの機能の拡張として使われるようになったのだ。

 当時は単に「かな漢字変換システム」と呼ばれることが多かった。そして今は独立したIMEモジュールとしてOSと強く結びつきキーボード上にない文字の入力に必須の存在となっている。IMEの存在がOSのマルチ言語対応を支えているといってもいい。

 ジャストシステムのKTISは日本語入力のパイオニアだし、双璧ともいえるバックス社のVJEは最初からデバイスドライバとして開発された。

 KTISはKTIS2を経てATOK3になり、その後、初代の「一太郎」のリリースされた1985年、独立した日本語変換システム「ATOK4」となった。

 ジャストシステムが毎年末に新製品発表会を開催し、翌年2月に新世代のアプリケーション製品群を発売するようになって久しい。もちろん今年(2018年)も「一太郎2019」と「ATOK」が発表された。新しいATOKは「ATOK32」に相当する。ほぼ平成とともにだ。

 個人的にセンセーショナルだと感じたのは、この新世代のATOKに搭載された「漢字絞り込み変換」と「地名の入力支援」だ。

 たとえば、漢字絞り込み変換では、「たかすぎしんさくのしん」の読みで「晋」、同様に「けいおうのけい」で「慶応の慶」や「京王の京」、「こうくうきのこう」で「航空機の航」などを提案する。そこにあるのはATOKと人間の対話だ。

 また、読みがあいまいな場合の変換に対応するための「地名の入力支援」では、たとえば「まいかた」を「枚方」(地名のひらかた)に変換する。それを知るまでなんとなく「枚」を「牧」と思い込んでいたのはないしょだ。道理で「まきかた」では変換してくれないはずだ……。

 なぜこれが画期的だったか。これまでの日本語入力システムでは、正しい日本語を正しい読みとして入力したときに、その文脈や、語句同士の結びつきをチェックすることで変換精度を高めてきた。読みは絶対だというのが前提だ。これは、正しい日本語を知っている入力者の期待に応えることを最終目的にしてきたことを意味する。

 つまり、変換結果が正しいかどうかを判断するのはあくまでも読みを入力した人間であり、その人間が正しくないと判断すれば次候補を要求する。その手間を最小限にするために、最初の候補としてもっとも確からしい候補を提示することを日本語入力システムはめざしてきたのだ。そういう意味でも「かな漢字変換システム」が日本語入力のアイデンティティだったといっていいだろう。

 もっとも、最近は、かな漢字変換システムが読みの間違いを指摘するようにもなっている。ATOKには、誤りチェック、表現の洗練、敬語、用語・用例などを指摘する校正支援モードが用意されている。たとえば「まとをえる」という読みを変換しようとすると、とりあえず「的を得る」を候補として出した上で、「当を得る/的を射るの誤用」であると指摘したりする。

 さすがにその指摘の強さは環境設定で選べるようになっているし、最近は「ごようたつ」を変換しても、すんなりと「御用達」が候補に出てなんの指摘もなくなっている。

AIまかせの日本語入力

 正しい読みを正しい漢字かな交じりに変換するのが「かな漢字変換システム」であるとすれば、ATOKはある時点で「日本語入力システム」を目指すようになったといえる。最終的に正しく美しい日本語が入力できるのならその材料としての「読み」は曖昧であってもいいという考え方だ。

 かな漢字変換は入力された読みに相当する漢字かな交じり文字列を辞書から選び出して候補として提示する。このときに、すでに入力済みの文章のコンテキストから、もっとも正しいであろう候補を最優先で提示するのに加え、ユーザーが確定した語句を学習して次回の変換に役立てる。

 変換のための辞書以外にATOKは電子辞典検索の機能を持ち、別途提供される電子辞典を検索する仕組みが実装されている。もともとはAMET(ATOK Multi Engine Transfer)として、ATOKにデータベースとのインターフェイスを持たせ、さまざまな情報を取りに行く仕組みの1つだったが、いまは単なる電子辞典検索機能や「ATOKダイレクト」と呼ばれるプラグインのシステムに発展しているようだ。

 AMETがATOKに実装されたのはずいぶん前のことで、当時がいつだったかどうにも思い出せないのがもどかしいが、かな漢字変換システムが辞書引きに使えることに驚いたことは確かだ。今回の新しいATOKには、そのときと同じくらいにセンセーショナルな印象を受けた。

 つまり、最終的にATOKは正しい日本語の入力のために正しい読みを入れる必要がない世界を目指しているようにも見える。たとえば、今でいうところのボットのように、ユーザーとシステムが会話しながら最終的な文章を作っていくようなイメージだ。

 そこまでいかなくても「うれしい」の変換候補に「楽しい」、「喜ばしい」、「ウキウキ」、「ワクワク」が予測変換されても今はもう誰も驚かないのではないか。

 だったら入力中に「とうきょうとのじんこうは」と入れて変換キーを叩くと「東京都の人口は」と出た上で「(推計13,839,323人2018年8月1日現在東京都調べ)」などと出てくると便利だと思ったことはないだろうか。

 こんな変換が進化していくと「あやまりたい」と入れるとATOKが誰にどんなことをどうあやまるのかなどを尋ねてきて適当に返事をすれば見事な謝罪文ができあがるような現代版の「直子の代筆」的なソリューションもできあがりそうな様相だ。ATOKとはアプローチは異なるがMicrosoft IMEの予測入力における「りんな変換」などの動きも興味深い。世のなかはそちらの方向に動いているということなのかもしれない。

 もっとも、初等教育の現場などでこれでは困るという論調もあるはずだ。これについてはATOK開発の陣頭指揮をとるジャストシステムの下岡美由紀氏(ソリューションストラテジー事業部企画開発グループ)も慎重で、今なお、日本語入力システムがどうあるべきかを考えながら、あまり派手に喧伝することなくさまざまな機能の実装を考えているようだ。

IMEの将来

 日本語入力システムの将来を考えたときに、最終的には、Googleなどの検索システム的なものに収束していくんじゃないかと個人的には思っている。あるいはSiriやAlexa、Cortanaか。Googleの検索ボックスに入れる単語はすでにWebサイトを検索するためだけのものではなくなっているのはご存じのとおりだ。「明日の天気は」、「1+2」、「NH7」、「300ドル」などを入れてみれば、単なるWebページの検索ではないGoogleの使い道がわかるはずだ。

 今、ATOKへの呼びかけトリガーも最終出力も、それらはあくまでも文字列であることが前提だ。将来はそれが日本語文字列だけではなくなる可能性もあるし、最終出力が画像や音声、さらには動画といった拡張も考えられる。もっと将来は匂いや味なども、特殊なデバイスで再現できるようになるかもしれない。

 そうなると、ATOKがGoogleのような検索システムと区別がつかないような存在になる可能性もあるし、単にATOKからGoogleアシスタントを使ってなんらかの結果を呼び出せるようになるだけでもその用途は広がる。こうしてIMEはPCを使う人間にもっとも近い部分でその存在感を高めていく。

 今、スマートスピーカーによるAIとの音声による対話が未来のコンピューティング、とくにアンビエントコンピュータの方向性を示唆しているが、キーボードという基本的な部分を抑えたATOKのようなシステムが同様のAI連携をはたせば、世界はまた1つ大きく変わることになるだろう。

 今回のATOKはちょっと違う。新しい世界に起こる変化の兆しを見せてくれた。なかの人はきっとすでにそこに気がついているに違いない。