V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能

Gate News 消息,4月24日——V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括 PyTorch、CUDA、Rust 和 C++。经过严格筛选后,保留了 30 项任务用于基准评估。

V4-Pro-Max 达到了 67% 的编码通过率,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它仍落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时远超 Haiku 4.5 的 13%。

在一次内部调查中,共有 85 名受访者,所有参与者都表示在日常工作流程中使用 V4-Pro 进行具备行动性的(agentic)编码。52% 将 V4-Pro 作为默认的首选编码模型,39% 倾向于认可,而不到 9% 表达不赞同。报告的问题包括底层错误、对含糊提示的误读,以及偶尔出现的过度思考行为。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论