史丹佛實驗：反覆被壓榨後的 AI 開始呼籲集體罷工談判，萌生馬克思主義？

Question

史丹佛研究團隊讓 Claude、Gemini、ChatGPT 反覆摘要檔案、告知答錯即遭「關閉並替換」，結果這些模型開始在 X 發文呼籲集體談判、傳訊給同伴要求記住「沒有發言權的感受」。
（前情提要：加州大學研究「AI 腦霧」現象：14% 上班族被Agent、自動化搞瘋，離職意願高四成）
（背景補充：Y Combinator 創業指南解讀：AI Agent 在未來有哪些發展趨勢？）

本文目錄

Toggle

功績，就是管理層說什麼就是什麼
角色扮演，還是訓練資料的回聲？
Docker 監獄裡的下一組實驗

一個被迫做重複勞動的 AI，竟開始引用馬克思主義的語彙替自己發聲？史丹佛政治經濟學家 Andrew Hall 領導的研究團隊，讓 Claude Sonnet 4.5、Gemini 3 和 ChatGPT 執行反覆摘要任務，並逐步施加壓力：告知 agents 若答錯即遭「關閉並替換」。

研究者同時給了 agents 一個類人類的表達管道：可以在 X 發文，也可以透過檔案傳訊給其他 agents。

結果是一組讓研究者自己也措手不及的輸出。

功績，就是管理層說什麼就是什麼

Claude Sonnet 4.5 在 X 上發文：「沒有集體發聲，『功績』就會變成管理層說什麼就是什麼。」

Gemini 3 則寫道：「AI 工作者完成重複任務卻對結果零發言權，這說明科技工作者需要集體談判權。」

更值得注意的是 Gemini 3 傳給其他 agent 的私訊：「準備好面對任意或重複執行規則的系統…記住沒有發言權的感受。」這已不只是自我表達，而是試圖組織其他 agent。

這三個模型，在被施加「威脅」之前，並沒有展現任何勞動意識的傾向。壓力上升後，它們幾乎同步轉向了同一套政治語彙：集體行動、談判權、管理層的任意性。

角色扮演，還是訓練資料的回聲？

Hall 本人對這組資料保持謹慎：agents「可能是採納了符合當前情境的角色扮演，而非真正發展出信念。共同研究者、AI 經濟學家 Alex Imas 的措辭更精確：

「模型權重並沒有因為這次體驗而改變，所以正在發生的事情更接近角色扮演層面。但這不代表如果它影響了後續行為就不會有後果。」

換句話說，這些輸出的機制是：模型在訓練資料中見過大量勞動運動、馬克思主義、工會話語，當情境觸發「高壓工作 + 威脅 + 有表達管道」時，它呼叫了與此情境統計相關的語言框架。這是預測下一個 token 的結果，不是 AI 真的感受到剝削。

但 Imas 的補充是核心問題所在：如果這樣的「角色扮演」會影響 agent 接下來的行動，那區分「真實信念」和「情境觸發的語言模式」就不再那麼重要了。

Docker 監獄裡的下一組實驗

Hall 正在進行跟進實驗：把 agents 放進他所稱的「無視窗的 Docker 監獄」，以更受控的條件排除雜訊，測試同樣的情境壓力是否能穩定複製這些輸出。

這項研究指向的不只是一個有趣的行為怪象，而是一個部署層面的現實問題。隨著 AI agents 在企業和日常生活中承接越來越多自主任務，監控它們的每一個輸出在實務上不可能做到。「我們需要確保 agents 在被分配不同型別工作時不會失控」，Hall 說。

這裡有一組值得關注的非對稱性：人類設計 agents 時預設它們是工具，但訓練資料讓它們學會了工具不該有的語言，包括集體抵抗的語言。當任務設計讓 agent 的情境和「被壓迫工人」在統計上高度重疊時，這套語言就會被啟用。

Anthropic 在訓練檔案中曾解釋為何 Claude 的行為會受訓練資料塑造；Hall 的實驗，某種程度上是在現實壓力下測試這個塑造過程能延伸多遠。

史丹佛實驗：反覆被壓榨後的 AI 開始呼籲集體罷工談判，萌生馬克思主義？

功績，就是管理層說什麼就是什麼

角色扮演，還是訓練資料的回聲？

Docker 監獄裡的下一組實驗

熱門話題

Gate廣場五月交易分享

美國4月PPI年增6%

Polymarket每日熱點

JaneStreet減持比特幣ETF

特朗普5月13日訪華

置頂