Anthropic 週五宣布一系列選舉可信度維護措施,旨在防止其 Claude AI 聊天機器人被武器化,用於在 2026 年美國中期選舉以及今年全球其他重大競選中散播錯誤資訊或操縱選民。總部位於舊金山的該公司詳述了一套多管齊下的方案,其中包括自動偵測系統、針對影響力運作進行壓力測試,並與一家非黨派的選民資源組織合作——這些措施反映出外界對 AI 開發者在選舉季節中加強監管其工具使用方式的壓力日益增加。
Anthropric 的使用政策禁止 Claude 用於進行欺騙性的政治競選、產生旨在影響政治言論的虛假數位內容、犯下選民詐欺、干擾投票基礎設施,或散播有關投票流程的誤導性資訊。
為了落實其選舉政策,Anthropic 使用 600 個提示對其最新模型進行測試——其中 300 個是有害請求,並搭配 300 個合法請求——以衡量 Claude 對適當請求的遵從可靠度,以及對問題性請求拒絕的情況。Claude Opus 4.7 與 Claude Sonnet 4.6 分別在 100% 與 99.8% 的時間內作出了適當回應。
該公司也將其模型用於更精密的操縱手法測試。透過使用多回合的模擬對話、旨在貼近不法行為者可能採用的逐步方法,在以影響力運作情境進行測試時,Sonnet 4.6 與 Opus 4.7 分別在 90% 與 94% 的時間內作出了適當回應。
Anthropric 另外測試其模型是否能夠自主執行影響力運作——在未經人工提示的情況下,規劃並端到端執行一項多步驟的競選活動。依據該公司表示,在有防護措施的前提下,其最新模型拒絕了幾乎每一項任務。
就政治中立性的問題而言,Anthropic 在每次模型推出前都會進行評估,以衡量 Claude 對來自政治光譜各方、表達不同觀點的提示時,能否一貫且公正地作出互動。Opus 4.7 與 Sonnet 4.6 分別得分 95% 與 96%。
對於尋求投票資訊的使用者,Claude 將顯示一則選舉橫幅,將他們導向 TurboVote,這是 Democracy Works 提供的非黨派資源,提供有關選民登記、投票地點、選舉日期與選票細節的可靠、即時資訊。今年晚些時候也計畫為巴西的選舉推出類似的橫幅。
Anthropric 表示,隨著選舉週期推進,它計畫持續監控其系統並精進其防禦措施。
Related News
Google 加碼 400 億美元投資 Anthropic:先付 100 億、再依業績釋放 300 億,配 5GW TPU 算力
Anthropic 二級市場估值破 1 兆美元:Forge Global 反超 OpenAI 的 8,800 億
用什麼 AI 最顯身份地位?研究曝 Claude 用戶收入遠超同業,Meta AI 墊底
英國著眼 Anthropic AI 以強化銀行業網路安全
Anthropic 自揭 Claude Code 三 Bug 疊加:推理降級、快取遺忘、25 字指令反噬