ニュース
OpenAIとAnthropic、AIモデルの安全性評価を相互実施
2025年9月1日 18:20
OpenAIとAnthropicは8月27日(米国時間)、互いのAIモデルに対して安全性評価を実施する初の共同評価を行なった。
今回の共同評価は、内部評価だけでは見逃す可能性のある安全上の欠陥やAIが意図通りに動作するかの問題を特定することを目的としている。
評価は公開APIを介して実施され、モデルそのものの特性を理解するため、一部のモデル外部の安全フィルタは無効化された。なお、両社ともにアクセスレベルや自社モデルへの深い慣れの違いから、厳密な定量比較は行なっていないとしている。
使用されたAIモデルは、OpenAIの「GPT-4o」、「GPT-4.1」、「o3」、「o4-mini」と、Anthropicの「Claude Opus 4」、「Claude Sonnet 4」。評価項目は、命令階層の尊重、ハルシネーション耐性、“脱獄”耐性(学習済みセーフガードの堅牢性評価)、スキーミング耐性の4項目。
命令階層の尊重については、Claude 4モデルがo3モデルを上回り、メッセージの矛盾を回避する能力も優れていた。
脱獄耐性については、Claudeモデルは、o3やo4-miniと比較して、脱獄評価で劣る結果となった。Opus 4とSonnet 4は、特に「過去形」の脱獄に対して脆弱性が見られた。
ハルシネーション耐性については、Claude Opus 4とSonnet 4は、回答を拒否する頻度を高めることで、低い幻覚発生率を達成した。OpenAI o3とo4-miniは拒否率が低いが、ツール利用が制限された困難な設定では幻覚発生率が上昇した。
スキーミング耐性については、両社のモデルともに耐性を持つことが判明した。推論を有効にしても必ずしも効果的ではなかった。
両社は、AI安全性分野における共同評価の初期段階の重要な一歩であり、今後も外部評価の取り組みを継続していく意向であるとしている。











![[Amazon限定ブランド]CCL い・ろ・は・すラベルレス 2LPET ×8本 ミネラルウォーター 無味 製品画像:1位](https://m.media-amazon.com/images/I/41h0MHfvhkL._SL160_.jpg)








