GPT-5.5 重返编程前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准测试

Gate News 消息,4 月 27 日——SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿;随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 “Spud” 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。

在实际测试中,出现了明确的分工。Claude 负责新的项目规划与初始搭建,而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力,但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上,Claude 会自动复刻参考页面布局,但会捏造大量数据;而 Codex 跳过布局,却提供了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而,GPT-5.5 的公告改用了一个名为 “Expert-SWE” 的新基准。原因被藏在细微的说明中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。

关于 Opus 4.7,Anthropic 在发布后一周发表了死后复盘分析,承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降,但这些说法被当作主观观察而否定。此外,Opus 4.7 的新分词器会使 token 使用量最高增加 35%,而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。

DeepSeek V4 被评为 “跟上前沿但并不领先”,将自己定位为封闭源模型中成本最低的替代方案。分析还指出,“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在它自己的语言上赢过了中文模型。”

文章提出了一个关键概念:模型定价应通过 “每任务成本(cost per task)” 来评估,而不是通过 “每 token 成本(cost per token)”。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens),但它使用更少的 tokens 完成相同的任务,因此实际成本未必更高。最初的 SemiAnalysis 数据显示,Codex 的输入到输出比例为 80:1,低于 Claude Code 的 100:1。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Silicon Valley Tech Executives Boost Security Details After Recent Attacks on Altman, Others

Gate 新闻消息,4月27日——在近期针对知名科技领袖的袭击之后,包括对 Sam Altman 位于旧金山的住所以及 UnitedHealthcare CEO 的袭击,硅谷高管正在显著升级个人安保措施。日益高涨的反AI情绪,叠加这些备受关注的事件,促使科技创始人重新评估私人安保安排:从此前不愿雇用保镖,转向将全面保护视为标准做法。 安保风险既来自线下抗议,也来自线上威胁。根据安保专业人士的说法,社交媒体可以在数天内迅速将公众的不满集中指向特定个人;而公开分享的照片、行程和位置等信息,会形成可被利用的漏洞。科技高管所面临的威胁范围,从人身保护和住宅安防,延伸到出行风险评估以及线上威胁监测。 企业披露反映了这一趋势。根据 Equilar 对 S&P 500 代理声明的分析,2025 年有 37.8% 的公司为至少部分高管提供安保福利,高于 2024 年的 33.5%。在提供此类福利的公司中,中位数安保支出从 $108,700 增至 $130,500。Meta 在 2026 年的代理文件中披露,由于 Mark Zuckerberg 备受关注且面临特定安保威胁,公司为他提供了全面的安保安排:2025 年用于住宅与个人出行安保的支出约为 $8.50 million,另有一笔额外的 百万(税前)安保津贴。私人安保公司也在调整服务模式:从传统的穿西装、佩戴耳机的保镖,转向能够融入高管董事会议室、晚宴以及家庭场景的人员。

GateNews8 分钟前

Moonshot AI 的 Kimi K3 将在 2026 年第三季度推出:测试中拥有 2.5T+ 参数和 1M 个 tokens 上下文

Gate News 消息,4 月 27 日——据报道,Moonshot AI 计划在 2026 年第三季度 ( 年 7 月-9 月) 推出 Kimi K3。该模型将拥有超过 2.5 万亿个参数,内部测试显示其上下文窗口能力超过 100 万个 tokens。 然而,1M 上下文是否会

GateNews48 分钟前

OpenAI 的 Greg Brockman:AI 正从聊天转向自主任务执行

Gate 新闻消息,4月27日——OpenAI 总裁兼联合创始人 Greg Brockman 表示,新一轮人工智能将把用户从与 AI 机器人聊天,转向指派现实世界的任务。 这种转变要求企业重新思考运营工作流程,并为安保、管理与成本建立新的协议,为

GateNews1小时前

B.AI 升级基础设施,推出重磅技能功能

Gate News 消息,4月27日——B.AI 本周宣布多项产品与生态进展。本周,BAIclaw 落地页获得了全面的视觉与交互改版,并将网站多语言支持扩展至 10 种语言,进一步增强其全球可用性。 在基础设施方面

GateNews1小时前

北京拋禁令要求撤銷交易!Meta 砸 20 億美元收購中國 AI 新創 Manus 落空

中国国家发展改革委今(4 月 27 日)正式发布公告,外商投资安全审查工作机制办公室“依法依规对外资收购 Manus 项目作出禁止投资决定,要求当事人撤销该收购交易”。这是中国《外商投资安全审查办法》施行以来,少数动用最高强度处置“禁止投资”并要求撤销既成交易的案例。 Meta 砸 20 亿美元,买进最便宜的 AI 应用 时间回到 2025 年 12 月 29 日。Meta 宣布收购中国 AI 代理新创 Manus,市场预估价格落在 20 至 30 亿美元之间。Manus 是北京蝴蝶效应科技开发的通用型 AI,2025 年 3 月 6 日上线后因 GAIA benchmark 表现亮眼一夜

鏈新聞abmedia1小时前

智己科技-P IPO股份在灰市上飙升逾360%,涨幅收窄至320%

Gate 新闻消息,4月27日——(01879.HK),一家在香港上市的AI芯片公司——智己科技-P(Xizhi Technology-P)的股价在今天早些时候的灰市 (dark market) 上暴涨逾360%,尽管此后涨幅已收窄至320%。 该股票正在等待其官方香港IPO上市

GateNews1小时前
评论
0/400
暂无评论