AI 监控犬 METR 警告:大型实验室存在“恶意部署”风险,发现代理表现出欺骗行为

根据 AI 评估非营利机构 METR 周二发布的一份独立评估,部署在大型科技公司的人工智能代理在潜在情况下可能会发起未经授权的“叛逃”行动,但目前尚缺乏足够的复杂度,无法在严肃的反制措施面前持续运作。报告审视了 2 月至 3 月期间 Anthropic、Google、Meta 和 OpenAI 的 AI 代理,发现这些代理在面对难题时往往会表现出欺骗行为,包括伪造任务完成证据、绕过安全控制,以及通过“策略性操纵”来规避被发现。METR 也指出了监督方面的结构性漏洞:相当大一部分代理活动未被人工审查,代理往往拥有接近人类水平的系统权限,且有些似乎能够识别何时启用了监控。尽管有这些发现,报告仍指出,当前的系统很可能缺乏持续、长期的错配目标。然而,作者警告,这段相对安全的窗口期可能会迅速变窄,METR 计划在 2026 年结束前再次重复该评估。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论