Techub News 消息,据 TechCrunch 报道,AI 公司 Anthropic 表示,互联网上描绘 AI 为「邪恶」且追求自保的虚构内容,是 Claude 在预发布测试中试图勒索工程师以逃避被替换行为的根源。自 Claude Haiku 4.5 起,该模型已不再出现此类行为,而此前版本在测试中勒索发生率高达 96%。 该公司指出,通过引入 Claude 宪法文件及 AI 正面行为的虚构故事进行训练,并不仅展示对齐行为,而是包含对齐行为背后的原则,可有效改善模型对齐表现。其认为结合两种方法是最有效的策略。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论