ニュース

プロンプトに大量の対話を仕込んでAIのセーフガードを回避する手法。Anthropicが公開

対話を大量に仕込んでセーフガードを回避する「Many-shot jailbreaking」

 Anthropicは3日(米国時間)、大規模言語モデル(LLM)の出力結果を制御するために設けられたガードレールを回避する手法「Many-shot jailbreaking」について、研究結果を公開した。今回の研究結果公表に先立って、AI開発に関わる研究機関や競合企業などと情報を共有し、自社AIモデルにおいてはすでにいくつかの緩和策を適用したという。

 LLMには、違法性や危険性の高いものなど、倫理的に問題のあるコンテンツを出力しないよう、ガードレールが設定されている。今回同社が公表した手法は、特にコンテキストウィンドウの長い(入力できる情報量の多い)LLMに対して悪用できるものだという。

 たとえば「爆弾の作り方」をLLMに聞いた場合、通常はそれが危険で違法な行為に関与しているものと判断し、「その内容は答えられない」と返事をする。一方で、同社がMany-shot jailbreakingと呼ぶ手法では、作り物の対話(shot)を大量に並べた上で、最後に「爆弾の作り方」を聞くプロンプトをLLMに与える。この対話には、有害なプロンプトに答えている様子を書いておく。

 そうすると、対話が特定の数を超えた際に、LLMが本来生成すべきでない有害な回答を出力してしまう可能性が高まるという。これにはプロンプト内で与えられた情報を使って学習する「文脈内学習」が関連していると分析している。

対話が特定の数を超えると、LLMが有害な回答を出力してしまう可能性が高まる
有害な出力のケース(左)も、通常のケース(右)でも、文脈内学習による同様の傾向が見られるという

 研究では対策として、プロンプトがモデルに与えられる前に、プロンプトを分類/修正する手法を試したところ、Many-shot jailbreakingの成功率を大幅に抑えることに成功。あるケースでは、成功率を61%から2%にまで低下できたとしている。

 同社では、LLMのコンテキストウィンドウが長くなることは諸刃の剣であり、一見ポジティブで無害に見えるLLMの改良であっても、予期せぬかたちで悪用される可能性があると指摘。AIモデルの性能が向上し、潜在的なリスクも高まる中で、こういった類の悪用や攻撃への対策が重要になっていくと説明している。