ニュース

OpenAIとAnthropic、AIモデルの安全性評価を相互実施

稲津定晃

2025年9月1日 18:20

　OpenAIとAnthropicは8月27日(米国時間)、互いのAIモデルに対して安全性評価を実施する初の共同評価を行なった。

　今回の共同評価は、内部評価だけでは見逃す可能性のある安全上の欠陥やAIが意図通りに動作するかの問題を特定することを目的としている。

　評価は公開APIを介して実施され、モデルそのものの特性を理解するため、一部のモデル外部の安全フィルタは無効化された。なお、両社ともにアクセスレベルや自社モデルへの深い慣れの違いから、厳密な定量比較は行なっていないとしている。

　使用されたAIモデルは、OpenAIの「GPT-4o」、「GPT-4.1」、「o3」、「o4-mini」と、Anthropicの「Claude Opus 4」、「Claude Sonnet 4」。評価項目は、命令階層の尊重、ハルシネーション耐性、“脱獄”耐性(学習済みセーフガードの堅牢性評価)、スキーミング耐性の4項目。

　命令階層の尊重については、Claude 4モデルがo3モデルを上回り、メッセージの矛盾を回避する能力も優れていた。

　脱獄耐性については、Claudeモデルは、o3やo4-miniと比較して、脱獄評価で劣る結果となった。Opus 4とSonnet 4は、特に「過去形」の脱獄に対して脆弱性が見られた。

　ハルシネーション耐性については、Claude Opus 4とSonnet 4は、回答を拒否する頻度を高めることで、低い幻覚発生率を達成した。OpenAI o3とo4-miniは拒否率が低いが、ツール利用が制限された困難な設定では幻覚発生率が上昇した。

　スキーミング耐性については、両社のモデルともに耐性を持つことが判明した。推論を有効にしても必ずしも効果的ではなかった。

　両社は、AI安全性分野における共同評価の初期段階の重要な一歩であり、今後も外部評価の取り組みを継続していく意向であるとしている。