ニュース
大規模言語モデルは英語で使用するのが安価で有利になる傾向。オックスフォード大学
2023年7月31日 15:07
オックスフォード大学の研究グループは、大規模言語モデル(LLM)において、使用する言語によりコストや処理時間などに差が生じているとして、論文「Language Model Tokenizers Introduce Unfairness Between Languages」を発表した。
論文によると、LLMにおける入力された文章をモデルに読み込ませるために分割する「トークン化」の段階で、必要なトークンの数に差が生じているという。同じ文章を異なる言語に翻訳してトークン化したところ、他言語間で最大15倍ものトークンの数の差が生じたという。
論文では、ChatGPTやGPT-4などで使用される17のトークナイザにおいて、言語間のトークン化の効率差を調査しており、トークン化の種類に関わらず他言語よりも少なくとも4倍はトークンの数が多くなる不利な言語が存在しているほか、英語がトークン化において他言語よりも効率的な傾向があることが判明したという。
トークン化での効率差は、コストや処理時間などにおいて差を生じさせる。たとえば、LLMの商用サービスでは、トークンやUnicode文字ごとに課金されるため、言語によっては英語ユーザーよりも4倍以上のコストを負担することになる。
トークンの数は処理時間に直結するため、言語によっては英語の2倍以上の時間がかかるほか、トークン化の効率的な言語のユーザーはそうでない言語のユーザーに比べて、より長い文章を処理したり生成したりできるため、サービスの質に差が生じてしまう。
研究グループは、次世代のLLMでは使用する言語によって差が生じないトークナイザを使用するべきだとしている。
楽天市場 売れ筋ランキング
Amazon売れ筋ランキング
Anker Soundcore P40i (Bluetooth 5.3) 【完全ワイヤレスイヤホン/ウルトラノイズキャンセリング 2.0 / マルチポイント接続 / 最大60時間再生 / PSE技術基準適合】ブラック
¥7,990
Anker Soundcore Life P2 Mini【完全ワイヤレスイヤホン / Bluetooth5.3対応 / IPX5防水規格 / 最大32時間音楽再生 / 専用アプリ対応】ブラック
¥4,490
イヤホン bluetooth ワイヤレスイヤホン 48時間の再生時間 重低音 LEDディスプレイ表示 小型/軽量 IPX7防水 ブルートゥース 接続瞬時 Hi-Fi ブルートゥースイヤホン Type-C 急速充電 ぶるーとぅーすイヤホン iPhone/Android/Pad適用 スポーツ/通勤/通学/WEB会議 (ホワイト)
¥39,999
Anker Soundcore Liberty 4(Bluetooth 5.3)【完全ワイヤレスイヤホン/ウルトラノイズキャンセリング 2.0 / 3Dオーディオ / ワイヤレス充電/マルチポイント接続/外音取り込み / 最大28時間再生 / ハイレゾ / IPX4防水規格 / ヘルスモニタリング/PSE技術基準適合】ミッドナイトブラック
¥14,990
Apple AirPods Pro 2 + 延長2年 AppleCare+ for Headphones - AirPods Pro
¥42,792
by Amazon 天然水 ラベルレス 500ml ×24本 富士山の天然水 バナジウム含有 水 ミネラルウォーター ペットボトル 静岡県産 500ミリリットル (Smart Basic)
¥1,173
い・ろ・は・すラベルレス 2LPET ×8本 【Amazon.co.jp限定】
¥1,104
コカ・コーラ い・ろ・は・す天然水ラベルレス 560ml ×24本
¥2,131
by Amazon 炭酸水 ラベルレス 500ml ×24本 強炭酸水 ペットボトル 500ミリリットル (Smart Basic)
¥1,512
キリン 自然が磨いた天然水 ラベルレス 水 2リットル 9本 国産 天然水 ミネラルウォーター ペットボトル 軟水
¥2,722