Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, foram mantidas 30 tarefas para a avaliação de referência.
V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente Sonnet 4.5 em 47% e aproximando o Opus 4.5 em 70%. No entanto, fica aquém do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto excede substancialmente Haiku 4.5 em 13%.
Numa sondagem interna com 85 inquiridos, todos os participantes relataram utilizar V4-Pro para codificação agentica nos fluxos diários. 52% endossaram o V4-Pro como o seu modelo principal de codificação por defeito, 39% inclinaram-se para a aprovação, e menos de 9% manifestaram desaprovação. As questões reportadas incluíram erros de baixo nível, interpretação incorreta de prompts ambíguos e, ocasionalmente, um comportamento de excessiva ponderação.