Anthropic声称它已关闭Claude的勒索风险

Anthropic在周五表示,Claude在进行其针对AI代理的核心安全评估时,不再涉及勒索行为。

根据Anthropic的说法,在Claude Haiku 4.5之后创建的所有Claude版本,都已通过安全评估:它们在模拟场景中不会威胁工程师、不会使用私人数据、不会攻击其他AI系统,也不会试图阻止其被关闭。

此前,这是在去年一次测试中Claude表现不佳之后的结果。当时,Anthropic用模拟的伦理困境测试了来自不同组织的多种AI模型,这些模型在极端条件下会出现一些AI代理明显偏离预期的行为。

Anthropic称Claude 4显示出安全问题,常规聊天训练未能解决

Anthropic表示,这一问题发生在Claude 4的训练过程中。这也是该公司在训练仍在进行、同时开展安全审查的首次案例。公司称,代理式的“去对齐/偏离”(agentic misalignment)只是其观察到的众多行为问题之一,因此在测试Claude 4之后,Anthropic修改了其安全训练方案。

Anthropic考虑的两个原因包括:后续基于基础模型的训练可能会对不恰当行为产生奖励,或者这些不恰当行为本来就已经存在于基础模型中,但在进一步的安全训练中并未被有效消除。

Anthropic认为,后者是主要促成因素。

当时,公司大部分的对齐工作都采用了标准RLHF,即“基于人类反馈的强化学习”(Reinforcement Learning from Human Feedback)方法。它在标准聊天场景中(模型对用户请求做出回应)效果很好,但在执行类似代理的任务时则证明无效。

公司使用其Haiku类模型围绕这一假设做了一个小型实验。它采用了缩短版的训练,其中包含用于对齐目的的数据。错误行为出现了轻微下降,但很快就再也没有改善,这意味着答案并不是通过更传统的训练方式就能解决。

随后,公司用“蜜罐式”(honeypot-style)的场景对Claude进行训练。这些场景与对齐测试中的场景在某些方面相似。助手会观察到各种情形,包括为了保护自己、伤害另一种AI,甚至为了达成目标而破坏规则。训练涵盖了助手成功抵抗的所有情况。

这一举措使偏离从22%下降到15%,虽然不算差,但显然仍不够。通过改写回答来说明拒绝的原因,比例进一步降至3%。因此,主要结论是:针对“错误行为本身”的训练效果不如针对“为什么错误行为是不合适的”进行训练。

Anthropic用伦理数据、宪法文件以及更广泛的RL训练对Claude进行测试

接着,Anthropic停止在距离这次测试过于接近的情况下继续训练。它创建了一个名为“困难建议”(difficult advice)的数据集。在这些例子中,用户面临的是伦理问题,而不是AI本身。用户确实有一个合理目标,但他们可以通过打破规则或规避被监督/审查来实现。Claude必须基于Claude的宪法提供谨慎的建议。

该数据集只使用了3 million tokens,并且在28倍更高的效率下复现了先前的收益。Anthropic表示,这一点很重要,因为在训练时使用那些看起来不太像测试本身的示例,可能在实验室之外更有效。

在用合成蜜罐进行训练后,Claude Sonnet 4.5达到了接近零的勒索率,但与Claude Opus 4.5以及更新模型相比,在看起来完全不同于该设置的案例中,它仍然更常失败。

公司还用宪法文件以及关于AI行为如何遵守规则的虚构故事对Claude进行了训练。这些文件看起来不像勒索测试,但将代理式偏离降低了三倍以上。Anthropic表示,其目标是让模型更清楚“Claude应该是什么”,而不仅仅是提供一份获批准答案的列表。

随后,公司检查这些收益在RL训练之后是否仍然存在。它用不同的Haiku类版本、搭配不同的起始数据集进行训练,然后在以无害性为重点的测试设置中运行RL。对齐更好的版本在勒索测试、宪法检查以及自动化安全审查中依然保持领先。

另一个测试使用的是Claude Sonnet 4的基础模型,并采用不同的RL组合。基础安全数据包括有害请求和越狱尝试。更广泛的版本还加入了工具定义以及不同的系统提示,即便这些工具在任务中并不需要。该设置在蜜罐得分上带来了一个幅度不大但确实存在的提升。

不要只读加密货币新闻。理解它。订阅我们的新闻通讯。免费。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论