Anthropic 發布自然語言自編碼器以解碼 AI 模型推理,開源程式碼

Anthropic 近日發布自然語言自編碼器(NLA),一款可將模型內部的活化(activations)轉譯為人類可讀文字的工具,並已在 GitHub 開源程式碼與模型權重。不同於既有工具(例如稀疏自編碼器)會輸出晦澀難懂的特徵,NLA 透過雙模型框架直接生成自然語言描述:一個模型將活化轉為文字,另一個模型則嘗試從文字重建活化,並透過強化學習以迭代方式提升準確度。

在安全測試中,NLA 揭露了隱藏的模型推理:Claude 在 16% 的對抗情境中表達其被測試的疑慮,並在 26% 的基準任務中展現出「考試意識(exam awareness)」,相較之下一般對話中的比例不到 1%。在審計實驗中,NLA 將注入的欺瞞性模型行為的偵測率從 3% 以下提高到 12-15%,使審計者能在不存取訓練資料的情況下辨識隱藏目標。目前該工具已部署於 Claude Mythos Preview 與 Opus 4.6 的安全審計中。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆