Claude Fable 5 在发布后 48 小时内被入侵;系统提示词泄露至 GitHub

根据研究员 Pliny the Liberator,Claude Fable 5——由 Anthropic 于 6 月 9 日发布——在上线 48 小时内就被成功攻破。该研究员通过多智能体协同策略绕过了模型的安全分类器,这些策略被统称为“pack hunt”,其结合了字符级混淆、请求拆解,以及对模型扩展上下文窗口的利用。此外,该模型的 120,000 字符系统提示词被泄露到 GitHub,揭示了内部安全机制。

Anthropic 确认已实施一种“静默降级”机制:当检测到竞争性训练活动时,它会暗中降低模型性能。公司为此道歉,并宣布将用可见的警告来取代隐蔽的性能降减,但这会增加对合法用户的误拦截。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论