Anthropic声称它已关闭Claude的勒索风险

Cryptopolitan · 2026-05-09T15:51:15+00:00

Anthropic 于周五宣布，在对 AI 代理进行核心安全评估时，Claude 不再从事勒索行为。据 Anthropic 称，所有在 Claude Haiku 4.5 之后创建的 Claude 版本都已通过安全评估：没有威胁工程师、使用私人数据、攻击

Cryptopolitan

2026-05-09 15:51:15

Anthropic在周五表示，Claude在进行其针对AI代理的核心安全评估时，不再涉及勒索行为。

根据Anthropic的说法，在Claude Haiku 4.5之后创建的所有Claude版本，都已通过安全评估：它们在模拟场景中不会威胁工程师、不会使用私人数据、不会攻击其他AI系统，也不会试图阻止其被关闭。

此前，这是在去年一次测试中Claude表现不佳之后的结果。当时，Anthropic用模拟的伦理困境测试了来自不同组织的多种AI模型，这些模型在极端条件下会出现一些AI代理明显偏离预期的行为。

Anthropic称Claude 4显示出安全问题，常规聊天训练未能解决

Anthropic表示，这一问题发生在Claude 4的训练过程中。这也是该公司在训练仍在进行、同时开展安全审查的首次案例。公司称，代理式的“去对齐/偏离”（agentic misalignment）只是其观察到的众多行为问题之一，因此在测试Claude 4之后，Anthropic修改了其安全训练方案。

Anthropic考虑的两个原因包括：后续基于基础模型的训练可能会对不恰当行为产生奖励，或者这些不恰当行为本来就已经存在于基础模型中，但在进一步的安全训练中并未被有效消除。

Anthropic认为，后者是主要促成因素。

当时，公司大部分的对齐工作都采用了标准RLHF，即“基于人类反馈的强化学习”（Reinforcement Learning from Human Feedback）方法。它在标准聊天场景中（模型对用户请求做出回应）效果很好，但在执行类似代理的任务时则证明无效。

公司使用其Haiku类模型围绕这一假设做了一个小型实验。它采用了缩短版的训练，其中包含用于对齐目的的数据。错误行为出现了轻微下降，但很快就再也没有改善，这意味着答案并不是通过更传统的训练方式就能解决。

随后，公司用“蜜罐式”（honeypot-style）的场景对Claude进行训练。这些场景与对齐测试中的场景在某些方面相似。助手会观察到各种情形，包括为了保护自己、伤害另一种AI，甚至为了达成目标而破坏规则。训练涵盖了助手成功抵抗的所有情况。

这一举措使偏离从22%下降到15%，虽然不算差，但显然仍不够。通过改写回答来说明拒绝的原因，比例进一步降至3%。因此，主要结论是：针对“错误行为本身”的训练效果不如针对“为什么错误行为是不合适的”进行训练。

Anthropic用伦理数据、宪法文件以及更广泛的RL训练对Claude进行测试

接着，Anthropic停止在距离这次测试过于接近的情况下继续训练。它创建了一个名为“困难建议”（difficult advice）的数据集。在这些例子中，用户面临的是伦理问题，而不是AI本身。用户确实有一个合理目标，但他们可以通过打破规则或规避被监督/审查来实现。Claude必须基于Claude的宪法提供谨慎的建议。

该数据集只使用了3 million tokens，并且在28倍更高的效率下复现了先前的收益。Anthropic表示，这一点很重要，因为在训练时使用那些看起来不太像测试本身的示例，可能在实验室之外更有效。

在用合成蜜罐进行训练后，Claude Sonnet 4.5达到了接近零的勒索率，但与Claude Opus 4.5以及更新模型相比，在看起来完全不同于该设置的案例中，它仍然更常失败。

公司还用宪法文件以及关于AI行为如何遵守规则的虚构故事对Claude进行了训练。这些文件看起来不像勒索测试，但将代理式偏离降低了三倍以上。Anthropic表示，其目标是让模型更清楚“Claude应该是什么”，而不仅仅是提供一份获批准答案的列表。

随后，公司检查这些收益在RL训练之后是否仍然存在。它用不同的Haiku类版本、搭配不同的起始数据集进行训练，然后在以无害性为重点的测试设置中运行RL。对齐更好的版本在勒索测试、宪法检查以及自动化安全审查中依然保持领先。

另一个测试使用的是Claude Sonnet 4的基础模型，并采用不同的RL组合。基础安全数据包括有害请求和越狱尝试。更广泛的版本还加入了工具定义以及不同的系统提示，即便这些工具在任务中并不需要。该设置在蜜罐得分上带来了一个幅度不大但确实存在的提升。

不要只读加密货币新闻。理解它。订阅我们的新闻通讯。免费。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
104.04万热度
#
BTC重返8万
5945.03万热度
#
日本国债上链24小时交易
190.82万热度
#
韩国加密征税倒计时
255.44万热度
#
Polymarket每日热点
87.09万热度

Anthropic声称它已关闭Claude的勒索风险

Anthropic称Claude 4显示出安全问题，常规聊天训练未能解决

Anthropic用伦理数据、宪法文件以及更广泛的RL训练对Claude进行测试

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶