Anthropic 釐清:Claude Code 品質下滑源自三項產品層變更,而非模型問題

快訊消息,4月23日—Anthropic 的工程團隊確認,過去一個月使用者所報告的 Claude Code 品質退化,源自三項彼此獨立的產品層變更,而非 API 或底層模型問題。這三個問題分別在 4 月 7 日、4 月 10 日和 4 月 20 日修復,目前的最終版本為 v2.1.116。

第一項變更發生在 3 月 4 日。團隊將 Claude Code 的預設推理工作量等級從「high」降低到「medium」,以解決在高推理強度下 Opus 4.6 偶發出現極端延遲尖峰的情況。由於廣泛的使用者投訴效能下降,團隊在 4 月 7 日將該變更回退。目前,Opus 4.7 的預設為「xhigh」,其他模型的預設為「high」。

第二個問題是 3 月 26 日引入的程式錯誤。系統原本設計為在對話不活躍超過一小時後清除舊的推理紀錄,以降低會話復原成本。然而,實作中的缺陷導致該清除動作在後續每一次回合都會重複執行,而不是只執行一次,因而使模型逐步失去先前的推理脈絡。這表現為越來越健忘、重複操作,以及異常的工具呼叫。該錯誤也使每次請求都發生快取未命中,加速了使用者配額的消耗。兩個彼此無關的內部實驗掩蓋了重現條件,使除錯過程延長到超過一週。修復於 4 月 10 日完成後,團隊使用 Opus 4.7 檢查問題程式碼,並發現 Opus 4.7 能夠識別該錯誤,而 Opus 4.6 則不能。

第三項變更於 4 月 16 日與 Opus 4.7 一同推出。團隊在系統提示詞中加入指令,以降低冗餘輸出。數週的內部測試顯示沒有回歸,但在上線後與其他提示詞的互動卻使程式碼品質下降。延長評估後發現,Opus 4.6 與 4.7 的效能均下降 3%,因此在 4 月 20 日回滾。

這三項變更分別在不同時間影響了不同使用者群組,而它們的綜合效果導致普遍且不一致的品質下滑,使診斷更加困難。Anthropic 表示,現在將需要更多內部員工使用與使用者相同的公開建置版本、針對每次系統提示詞修改都執行完整的模型評估測試套件,並實施分階段推出期。作為補償,Anthropic 已重置所有訂閱使用者的使用配額。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆