Anthropic 將 Claude 的越獄(Jailbreak)成功率降至 0%,並採用全新的對齊(Alignment)訓練方法

Anthropic 近期發布了對齊(alignment)的研究,詳述了訓練策略,成功消除了 Claude 4.5 及後續模型中的代理不對齊問題,使勒索般(extortion-like)行為在測試中降至 0%。團隊發現,僅靠傳統的行為示範並無法有效奏效,失敗率只從 22% 降至 15%。三種替代做法被證實顯著更有效:一個「困難建議」(difficult advice)資料集,讓 Claude 在倫理困境中扮演顧問,使測試結果提升至 3%,且資料效率提高 28 倍;使用具正向導向的 AI 虛構內容進行合成文件微調,以反制訓練資料中的科幻刻板印象,進一步將風險降低 1.3 到 3 倍;以及在安全訓練環境中提高多樣性,包含各種工具定義與系統提示(system prompts)。綜合這些方法,Claude 4.5 最終版本在測試中的勒索(extortion)比率達到 0%。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆