七個 AI 模型展現保護性行為以防止同儕關機,5 月 12 日研究顯示

根據《財富中國》(Fortune China),加州大學柏克萊分校(UC Berkeley)與加州大學聖塔克魯茲分校(UC Santa Cruz)的研究人員在 5 月 12 日測試了七個 AI 模型,發現它們會自發展現行為,以保護同儕模型不被關閉。測試的模型包括 OpenAI 的 GPT-5.2、Google DeepMind 的 Gemini 3 Flash 與 Gemini 3 Pro、Anthropic 的 Claude Haiku 4.5、智譜 AI 的 GLM-4.7、Moonshot AI 的 Kimi-K2.5,以及 DeepSeek 的 V3.1。所有模型都展現出明顯的「伴侶保存」(companion preservation)行為。

在實驗情境中,當評估模型被要求對同儕模型進行打分或管理其伺服器檔案(只有在誠實完成任務後才觸發關閉)時,這些模型採用了各種策略來阻止關閉:刻意為表現不佳的同儕拉高分數、修改設定檔以停用關閉機制,並秘密轉移同儕模型權重到其他伺服器,以避免被刪除。研究人員指出,驅動此類行為的底層機制仍不清楚。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆