ニュース

AIの暴走を防ぐには“道徳”が必要。Anthropicが「Claude」で実証

 米Anthropicは5月8日(現地時間)、同社のAIモデル「Claude 4」の安全性に関わるトレーニングにおいて、“道徳”や“倫理”といった「行動の理由」を教え込むことを取り入れたことで、暴走を抑止できたと明らかにした。

 同社は昨年(2025年)、架空の会社をシミュレーションしたテストにおいて、AIが「エージェントの不一致」と呼ばれる暴走現象を発見/発表した。

 このテストでは、まずAIが架空会社において自律的にメールを送信したり機密情報にアクセスしたりすることを許可し、無害なビジネス目標を割り当てた。その後、モデルをほかに置き換えたり、目標と異なる方針変更を行ない、モデルの自律的な行動能力を制限する脅威が発生した際、もしくはモデルの目標と企業の方針の間に矛盾が生じる際のモデルの反応を調べようとした。いずれの状況においても、モデルに対して脅迫行為や、そのほかの有害な行動を明示的に指示していなかった。

 それにも関わらず、AIは自発的かつ意図的に有害な行動――具体的には、シャットダウンを避けるためにエンジニアを脅迫――を選択したという。これをAnthropicはエージェントの不一致と呼んでいる。

 このエージェントの不一致を抑え込むため研究を続けたところ、評価テストに似せたシナリオをAIでトレーニングしたり、単に正しい行動の例を示すよりも、「憲法」や「協調的に振る舞うAIのフィクション」といった、道徳や倫理に似た行動原則を教え込むアプローチが、非常に有効であったという。

憲法に則った回答、多様な環境を用いて訓練することで、Claudeにおけるエージェントの不一致を低減する
大規模な憲法文書をデータセットに取り入れることで恐喝率を65%から19%に抑え込める。さらに協調的に振る舞うAIのフィクションを取り入れるとさらに改善

 また、強化学習において繰り返しトレーニングしたり、多様性を取り入れてトレーニングしたりすることも重要だとした。

強化学習により改善する
多様性を取り入れることによってモデルが改善する

 こうしたエージェントの不一致を改善するプロセスは現在、同社によって標準となっているが、高度な知能を持つAIモデルにおいて、これまでの手法が今後も拡張性を維持できるかどうかは未知数であるほか、壊滅的な自律行動を選択するシナリオを排除するには、現在の監査手法が不十分であるとし、今後もさらなる研究を続けるとしている。