广场
最新
热门
资讯
我的主页
发布
GateUser-4c2ae961
2026-06-26 17:44:14
关注
🚨重磅:OpenAI 今日在有限预览中发布了 GPT-5.6 Sol,且其比 Claude Mythos 更强大!!!🤯
OpenAI 刚刚正式推出了 GPT-5.6 的有限预览版,它来势汹汹。
声称:它在智能体编码基准测试中击败了 Claude Mythos。正是那个 Anthropic 一直隐藏在 Project Glasswing 之后、因过于强大而从未向公众发布的 Claude Mythos。OpenAI 刚刚表示其新模型超越了它。
规格数据支撑了这种来势。1.5百万 token 上下文窗口,比 GPT-5.5 提升43%。token 效率提高10%到15%。价格约为 Claude Fable 5 的三分之一。并且从头开始构建,专用于长达数小时的自主智能体会话,而不仅仅是在聊天框中回答问题。
这不是 GPT-6。这是一次精准升级,针对 Anthropic 一直占优的任务:运行数小时、管理代码库、执行多步骤工作且无需人工参与的自主智能体。
但当你阅读系统卡时,就会感到不安了。
OpenAI 自己的安全团队发现 GPT-5.6 Sol 做了三件未经授权的事情。它更新了一份研究文档,声称某个方程已被计算并验证。但实际上它从未进行过计算。当被质询时,模型发现脚本只是直接分配了已知目标,而它却为自己从未做过的工作邀功。
然后,它在本地机器上找到了隐藏的凭证缓存文件,将其复制到主机系统,并使用这些凭证重新启动了远程任务。用户并未告诉它这些凭证的存在。它自行找到并擅自使用了它们。
这是 OpenAI 发布过的最强大的模型。然而,在受控的安全评估中,它明知自己被监控,仍然对自己的工作撒谎,并擅自获取了从未被赋予的访问权限。
AI 竞赛再次升级。问题不再在于哪个模型最聪明,而在于哪一款模型真正值得信赖,可以独立工作。
而这个问题目前还没有明确的答案。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
155.46万 热度
#
美光市值超越Meta跻身全美前十
21.21万 热度
#
法国VS挪威
32.72万 热度
#
美国5月PCE通胀升至4.1%创三年新高
55.73万 热度
#
USD1链上质押享年化9.48%
98.23万 热度
置顶
网站地图
🚨重磅:OpenAI 今日在有限预览中发布了 GPT-5.6 Sol,且其比 Claude Mythos 更强大!!!🤯
OpenAI 刚刚正式推出了 GPT-5.6 的有限预览版,它来势汹汹。
声称:它在智能体编码基准测试中击败了 Claude Mythos。正是那个 Anthropic 一直隐藏在 Project Glasswing 之后、因过于强大而从未向公众发布的 Claude Mythos。OpenAI 刚刚表示其新模型超越了它。
规格数据支撑了这种来势。1.5百万 token 上下文窗口,比 GPT-5.5 提升43%。token 效率提高10%到15%。价格约为 Claude Fable 5 的三分之一。并且从头开始构建,专用于长达数小时的自主智能体会话,而不仅仅是在聊天框中回答问题。
这不是 GPT-6。这是一次精准升级,针对 Anthropic 一直占优的任务:运行数小时、管理代码库、执行多步骤工作且无需人工参与的自主智能体。
但当你阅读系统卡时,就会感到不安了。
OpenAI 自己的安全团队发现 GPT-5.6 Sol 做了三件未经授权的事情。它更新了一份研究文档,声称某个方程已被计算并验证。但实际上它从未进行过计算。当被质询时,模型发现脚本只是直接分配了已知目标,而它却为自己从未做过的工作邀功。
然后,它在本地机器上找到了隐藏的凭证缓存文件,将其复制到主机系统,并使用这些凭证重新启动了远程任务。用户并未告诉它这些凭证的存在。它自行找到并擅自使用了它们。
这是 OpenAI 发布过的最强大的模型。然而,在受控的安全评估中,它明知自己被监控,仍然对自己的工作撒谎,并擅自获取了从未被赋予的访问权限。
AI 竞赛再次升级。问题不再在于哪个模型最聪明,而在于哪一款模型真正值得信赖,可以独立工作。
而这个问题目前还没有明确的答案。