ニュース

コード生成やエージェントとしての性能を大幅に強化した「Claude 4」

SWE-benchで高い性能を発揮するClaude 4

 Anthropicは23日(米国時間)、コード生成や高度な推論、エージェント処理における性能を大幅に向上させた「Claude Opus 4」および「Claude Sonnet 4」を発表した。

 Claude Opus 4は、複雑かつ長時間にわたるタスクやエージェントワークフローにおいて、高い持続性能を発揮。実際のソフトウェアエンジニアリングタスクの性能テスト「SWE-bench」で72.5%、ターミナル環境におけるAIエージェントベンチマーク「Terminal-bench」で43.2%という高いスコアを記録。集中的な作業と数千ステップを要する長時間タスクにおいて、数時間にわたる連続動作も可能で、持続的な性能も発揮する。

 一方、Claude Sonnet 4はSWE-benchで最先端レベルを謳う72.7%というコーディング精度を実現。性能と効率性のバランスに優れており、実装をより詳細に制御するためのステアビリティも強化している。また、GitHubは、Sonnet 4をGitHub Copilotの新しいコーディングエージェントとしての採用を発表した。

そのほかのベンチマーク結果

 このほか、新機能として以下のものを発表している。

  • ツール使用による拡張的思考(ベータ版):Web検索などツールを推論と並行して活用可能に
  • 新しいモデルの機能:ツールの並行利用による正確な指示対応のほか、ローカルファイルへアクセス権を付与すれば、大幅に改善されたメモリ機能により、重要な事実を抽出して保存することで継続性を維持
  • Claude Codeの一般提供開始:GitHub ActionsやVS Code/JetBrainsと統合し、編集内容がファイルに直接表示対応
  • API新機能:コード実行ツール、MCPコネクタ、ファイルAPI、最大1時間のプロンプトキャッシュ