快訊消息,4月23日—Anthropic 的工程團隊確認,過去一個月使用者所報告的 Claude Code 品質退化,源自三項彼此獨立的產品層變更,而非 API 或底層模型問題。這三個問題分別在 4 月 7 日、4 月 10 日和 4 月 20 日修復,目前的最終版本為 v2.1.116。
第一項變更發生在 3 月 4 日。團隊將 Claude Code 的預設推理工作量等級從「high」降低到「medium」,以解決在高推理強度下 Opus 4.6 偶發出現極端延遲尖峰的情況。由於廣泛的使用者投訴效能下降,團隊在 4 月 7 日將該變更回退。目前,Opus 4.7 的預設為「xhigh」,其他模型的預設為「high」。
第二個問題是 3 月 26 日引入的程式錯誤。系統原本設計為在對話不活躍超過一小時後清除舊的推理紀錄,以降低會話復原成本。然而,實作中的缺陷導致該清除動作在後續每一次回合都會重複執行,而不是只執行一次,因而使模型逐步失去先前的推理脈絡。這表現為越來越健忘、重複操作,以及異常的工具呼叫。該錯誤也使每次請求都發生快取未命中,加速了使用者配額的消耗。兩個彼此無關的內部實驗掩蓋了重現條件,使除錯過程延長到超過一週。修復於 4 月 10 日完成後,團隊使用 Opus 4.7 檢查問題程式碼,並發現 Opus 4.7 能夠識別該錯誤,而 Opus 4.6 則不能。
第三項變更於 4 月 16 日與 Opus 4.7 一同推出。團隊在系統提示詞中加入指令,以降低冗餘輸出。數週的內部測試顯示沒有回歸,但在上線後與其他提示詞的互動卻使程式碼品質下降。延長評估後發現,Opus 4.6 與 4.7 的效能均下降 3%,因此在 4 月 20 日回滾。
這三項變更分別在不同時間影響了不同使用者群組,而它們的綜合效果導致普遍且不一致的品質下滑,使診斷更加困難。Anthropic 表示,現在將需要更多內部員工使用與使用者相同的公開建置版本、針對每次系統提示詞修改都執行完整的模型評估測試套件,並實施分階段推出期。作為補償,Anthropic 已重置所有訂閱使用者的使用配額。
Related News