ニュース

Claude Code品質低下1カ月、原因はバグと設定変更

推論努力のデフォルトをMediumにしていた当時のUI。現在はhigh/xhighに差し戻し済み

 Anthropicは4月23日(現地時間)、過去1カ月にわたってClaude Codeの品質が低下していた問題について、推論努力の引き下げやセッション管理のバグなど3件の原因を公表した。問題はv2.1.116で修正済みで、すべての加入者に対し使用制限をリセットしたという。

 過去1カ月間、一部ユーザーからClaude Codeの品質が低下したとの報告を受け、Claudeのチームは調査を行なった。その結果、Claude CodeとAgent SDK、およびAgent SDK上で動作するCoworkに影響を及ぼす3件の問題が発覚した。モデル自体の劣化はなく、APIや推論レイヤーに影響はなかった。

 具体的な原因は以下の通り。

 3月4日に、Claude Codeのデフォルトの推論努力をhighからmediumに変更した。これはUIがフリーズしたように見えるほど長い遅延を軽減するための変更だったが、同社はこれを「誤ったトレードオフだった」と認めている。ユーザーからはデフォルトではより高い知能を、簡単なタスクでは推論努力を低く設定したいというフィードバックがあり、4月7日に変更を元に戻した。現在はOpus 4.7でxhigh、それ以外のモデルではhighがデフォルトとなっている。この変更はSonnet 4.6/Opus 4.6で影響があった。

 3月26日に、ユーザーがセッションを再開した際の遅延を軽減するため、1時間アイドル状態だったセッションから古い思考を削除する変更を行なった。しかしバグにより、この処理が一度だけでなく、セッションの残りの間、毎ターン繰り返されるようになってしまい、「物忘れがひどく、繰り返しや不適切なツール選択が増えた」という。このバグは4月10日に修正された。この変更はSonnet 4.6/Opus 4.6で影響があった。

 4月16日に、冗長性を軽減するためのシステムプロンプト指示を追加した。しかし、ほかのプロンプト変更と相まってコーディング品質が低下したため、4月20日に復元した。この変更はSonnet 4.6/Opus 4.6/Opus 4.7で影響があった。

 以上のように変更が異なる期間で行なわれ、異なるトラフィックに影響を与えたため、全体的な影響は広範囲にわたって一貫性のない劣化のように見えたという。同社は、これらはユーザーがClaude Codeに期待する体験ではなかったとし、4月23日よりすべての加入者に対し使用制限をリセットしたという。

 再発防止策として、同社はすでにいくつかの対策を実施している。プロンプトの変更を容易にレビュー/監査できる新しいツールを構築したほか、モデル固有の変更が対象モデルだけに適用されるようCLAUDE.mdにガイダンスを追加した。

 今後はさらに、より多くの社内スタッフがClaude Codeの公開ビルドを使用する体制へ移行するほか、社内で使用しているコードレビューツールを改良し、改良版をユーザーにも提供する。システムプロンプトの変更管理も強化し、変更ごとにモデルごとの包括的な評価スイートを実行するとともに、各行の影響を把握するためのアブレーションも継続して実施する。加えて、知能とのトレードオフが生じうる変更については、ソーク期間の設定や段階的なロールアウトで早期発見を図るとしている。

モデルごとの推論努力とコーディング性能の関係