V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, 30 tarefas foram mantidas para a avaliação do benchmark.

O V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente o Sonnet 4.5 em 47% e chegando perto do Opus 4.5 em 70%. No entanto, fica atrás do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto supera substancialmente o Haiku 4.5 em 13%.

Em uma pesquisa interna com 85 respondentes, todos os participantes relataram usar o V4-Pro para codificação agentic em fluxos de trabalho diários. 52% endossaram o V4-Pro como seu modelo principal padrão de codificação, 39% tenderam à aprovação, e menos de 9% expressaram desaprovação. Os problemas relatados incluíam erros de baixo nível, interpretação incorreta de prompts ambíguos e comportamento ocasional de excesso de pensamento.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários