ニュース

大規模言語モデルは英語で使用するのが安価で有利になる傾向。オックスフォード大学

 オックスフォード大学の研究グループは、大規模言語モデル(LLM)において、使用する言語によりコストや処理時間などに差が生じているとして、論文「Language Model Tokenizers Introduce Unfairness Between Languages」を発表した。

 論文によると、LLMにおける入力された文章をモデルに読み込ませるために分割する「トークン化」の段階で、必要なトークンの数に差が生じているという。同じ文章を異なる言語に翻訳してトークン化したところ、他言語間で最大15倍ものトークンの数の差が生じたという。

 論文では、ChatGPTやGPT-4などで使用される17のトークナイザにおいて、言語間のトークン化の効率差を調査しており、トークン化の種類に関わらず他言語よりも少なくとも4倍はトークンの数が多くなる不利な言語が存在しているほか、英語がトークン化において他言語よりも効率的な傾向があることが判明したという。

 トークン化での効率差は、コストや処理時間などにおいて差を生じさせる。たとえば、LLMの商用サービスでは、トークンやUnicode文字ごとに課金されるため、言語によっては英語ユーザーよりも4倍以上のコストを負担することになる。

 トークンの数は処理時間に直結するため、言語によっては英語の2倍以上の時間がかかるほか、トークン化の効率的な言語のユーザーはそうでない言語のユーザーに比べて、より長い文章を処理したり生成したりできるため、サービスの質に差が生じてしまう。

 研究グループは、次世代のLLMでは使用する言語によって差が生じないトークナイザを使用するべきだとしている。