GPT-5.5 重回编码前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准

Gate News 信息,4 月 27 日——半导体与 AI 分析公司 SemiAnalysis 发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 的编码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月内首次重返编码模型的前沿,且 SemiAnalysis 工程师如今在 Codex 与 Claude Code 之间交替使用,此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为“Spud”的新预训练方法,代表了 OpenAI 自 GPT-4.5 之后首次扩展预训练规模。

在实际测试中,出现了清晰的分工。Claude 负责新的项目规划与初始搭建,而 Codex 擅长处理对推理要求很高的错误修复。Codex 在数据结构理解与逻辑推理方面表现更强,但在推断用户意图是否模糊方面存在困难。在一个单一仪表板任务上,Claude 会自动复刻参考页面布局,但却编造了大量数据;而 Codex 则跳过布局,却交付了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 的 2 月博客文章敦促行业采用 SWE-bench Pro 作为新的编码基准标准。然而,GPT-5.5 的公告改用一个名为“Expert-SWE”的新基准。原因藏在细则里:GPT-5.5 已被 Opus 4.7 在 SWE-bench Pro 上超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比落后明显。

关于 Opus 4.7,Anthropic 在发布一周后发表了死后分析(postmortem),承认 Claude Code 中有三个在 3 月到 4 月持续数周、影响近乎所有用户的错误。此前多名工程师已报告 4.6 版本出现性能下降,但被否定为主观观察。此外,Opus 4.7 的新分词器会使 token 使用量最多增加 35%,而 Anthropic 公开承认了这一点——本质上等同于一次隐藏的涨价。

DeepSeek V4 被评估为“跟上前沿但不在领跑”,将自己定位为闭源模型中最低成本的替代方案。分析还指出:“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在其母语(中文)上击败了中文模型。”

文章引入了一个关键概念:模型定价应通过“每任务成本”来评估,而不是“每 token 成本”。GPT-5.5 的定价是 GPT-5.4 的两倍 (输入 $5,输出 $30 每百万 token),但它用更少的 token 完成相同的任务,因此实际成本不一定更高。初步的 SemiAnalysis 数据显示,Codex 的输入到输出比为 80:1,低于 Claude Code 的 100:1。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios