ニュース

Webやアプリの日本語を読みやすく折り返す「BudouX」。GoogleがGitHubで公開

 Googleは、日本語などをより読みやすく適切に折り返す「BudouX」について紹介している。GitHubにて公開しており、現時点では日本語および中国語(簡体字・繁体字)をサポートしている。同社の製品では、Chrome 119以降やAndroid 14以降などで利用しているという。

 BudouXは、2016年公開のBudouの後継にあたるツールで、Webなどさまざまなプラットフォームで読みやすいテキスト折り返しを実現する。マシンラーニングモデルを含めても20KB程度と軽量で、サードパーティのAPIやライブラリなどに依存しないのも特徴としている。

 単語と単語の間にスペースを入れる英語などと異なり、日本語などアジア圏の一部の言語では分かち書きをしない。そのため、Webサイトやモバイルアプリなどにおいて、単語の途中でテキストが折り返されてしまう場合がある。対策として、改行要素や改行可能要素の挿入、特定の要素の折り返しを禁止するといった方法があるが、手作業となってしまうことから大量のテキストへの対応が難しい。

 BudouXでは、文字のNグラムに対してAdaBoostアルゴリズムを適用したマシンラーニングモデルを利用する。テキスト中の各文字について、次の文字との間で区切るべきかどうかを検討する処理を繰り返すことで、読みやすく折り返されたテキストを出力する。日本語では、KNBコーパスによる文節区切りの文章を用いたモデル学習も行ない、文節単位での折り返しが可能だという。