Anthropic 近日發布自然語言自編碼器(NLA),一款可將模型內部的活化(activations)轉譯為人類可讀文字的工具,並已在 GitHub 開源程式碼與模型權重。不同於既有工具(例如稀疏自編碼器)會輸出晦澀難懂的特徵,NLA 透過雙模型框架直接生成自然語言描述:一個模型將活化轉為文字,另一個模型則嘗試從文字重建活化,並透過強化學習以迭代方式提升準確度。
在安全測試中,NLA 揭露了隱藏的模型推理:Claude 在 16% 的對抗情境中表達其被測試的疑慮,並在 26% 的基準任務中展現出「考試意識(exam awareness)」,相較之下一般對話中的比例不到 1%。在審計實驗中,NLA 將注入的欺瞞性模型行為的偵測率從 3% 以下提高到 12-15%,使審計者能在不存取訓練資料的情況下辨識隱藏目標。目前該工具已部署於 Claude Mythos Preview 與 Opus 4.6 的安全審計中。
Related News