ニュース

OpenAI、Fable 5とMythos 5超えうたう「GPT-5.6」発表。ただし、米政府要求で限定公開

 OpenAIは6月26日(米国時間)、次期フラグシップモデル「GPT-5.6」シリーズを発表した。ただし現在は米国政府の要請により、当初予定していたオープンアクセスではなく、限定プレビューとしての公開となっており、APIとCodexを通じて、厳選されたパートナーおよび組織に対して提供している。近いうちに、ChatGPT、CodexおよびAPIを利用するすべてのユーザーに展開する予定。

 「GPT-5.6 Sol」はフラグシップモデル。新たに「Max」推論エフォートを導入し、深く推論する時間を最大限に確保できる。また、「Ultra」モードも導入し、サブエージェントを活用することで複雑な処理を高速化できるという。

 一方、「Terra」は日常業務向けでバランスが取れたモデル、そして「Luna」は高速かつ手頃な価格を実現したモデルとして展開する。

 このうち最上位のSolは、コーディングにおいては、計画、反復、およびツール連携を必要とするコマンドラインワークフローをテストする「Terminal-Bench 2.1」において、競合の「Mythos 5」や「Fable 5」を超える性能を達成したとしている。

Terminal-Bench 2.1

 生物学ワークフローでも幅広い改善を実現し、長期的なゲノミクスおよび定量的生物学分析をするベンチマーク「GeneBench v1」では、より少ないトークン数でGPT-5.5より優れた結果を達成できたとしている。

GeneBench v1

 さらに、サイバーセキュリティ分野では、ベンチマーク「ExploitBench」において、約3分の1のトークンで競合の「Mythos Preview」と同等の性能を達成。「ExploitGym」も同様に高い性能を示した。

ExploitBench
ExploitGym

 いずれのモデルも、意図的もしくは適応的な悪用に対して、モデルごとに設定が異なる多層的な対策を採用し、実際の攻撃を想定した負荷テストも実施。これにはモデルに組み込まれた保護機能、生成時のリアルタイムチェック、アカウントレベルのシグナル、差別化されたアクセス制御、監視、強制および継続的なテストなどが含まれる。

 中でも、汎用的なジェイルブレイク攻撃を発見することを目的として、自動レッドチーム演習に、A100相当のGPUで70万時間以上の処理時間を費やした点を強調。これには、人間のテストだけでは網羅できないほど多くの攻撃パターンが含まれており、障害パターンを早期に特定し、脆弱性発見から対処までの時間を短縮できたという。さらに、第三者のテスターと協力して、人間の専門家による大規模なレッドチームテストを実施し、自動化テストを補完している。