ニュース

Google、AI生成テキストを検出できる電子透かし技術。オープンソースで公開

宇都宮充

2024年10月25日 16:19

Geminiで生成した文章の例。青い部分が電子透かしが適用された部分

　Google DeepMindは24日、AIが生成したテキストに電子透かしを入れて、AI生成コンテンツだと検出できるようにするツール「SynthID Text」をオープンソース化して公開した。

　SynthIDは、DeepMindが開発したAI生成コンテンツ向けの電子透かし技術。画像、動画、音声、テキストに対して直接電子透かしを埋め込むことで、後からそれがAI生成コンテンツであると識別できる。このうち、テキスト用のSynthID Textが今回オープンソース化され、開発者などが自由に利用できるようにった。Responsible Generative AI Toolkitを通じて提供される。

　大規模言語モデル(LLM)は、トークン(単語などに相当するもの)を順次生成してテキストを作っていくが、次に続くトークンを予測する際に、先行するトークンと次のトークンの候補が持つ確率スコアを利用している。SynthID Textでは、生成結果の品質や精度、創造性に影響を与えない範囲で、この確率スコアを調整することで、電子透かしを埋め込んでいるという。

　3文程度から使用できるほか、テキストの長さが長くなるほどSynthIDの堅牢性と精度が高まるという。テキストの一部を切り取る、いくつかの単語を言い換える、軽く言い換えるといった変更に対しては強い効果を発揮できる一方で、事実について書いている場合や、テキストを大幅に書き換える、別の言語に翻訳するといった変更を施した場合、検出の精度が大幅に下がる可能性があるとしている。

Today, we’re open-sourcing our SynthID text watermarking tool through an updated Responsible Generative AI Toolkit.

Available freely to developers and businesses, it will help them identify their AI-generated content. 🔍

Find out more →https://t.co/n2aYoeJXqn pic.twitter.com/4uRKYaz57Y
— Google DeepMind (@GoogleDeepMind)October 23, 2024