Mensaje de Gate News, 24 de abril — V4 ha divulgado públicamente datos internos de dogfooding de su modelo V4-Pro. La empresa recopiló aproximadamente 200 tareas de ingeniería del mundo real de más de 50 ingenieros, que abarcan el desarrollo de funciones, correcciones de errores, refactorización y diagnósticos en pilas tecnológicas que incluyen PyTorch, CUDA, Rust y C++. Tras un riguroso filtrado, se conservaron 30 tareas para la evaluación del benchmark.
V4-Pro-Max logró una tasa de aprobación de codificación del 67%, superando significativamente a Sonnet 4.5 con un 47% y acercándose a Opus 4.5 con un 70%. Sin embargo, queda por detrás de Opus 4.5 Thinking (73%) y Opus 4.6 Thinking (80%), mientras que supera sustancialmente a Haiku 4.5 con un 13%.
En una encuesta interna con 85 encuestados, todos los participantes informaron usar V4-Pro para codificación orientada a agentes en flujos de trabajo diarios. El 52% respaldó V4-Pro como su modelo principal predeterminado de codificación, el 39% se inclinó por la aprobación y menos del 9% expresó desaprobación. Los problemas informados incluyeron errores de bajo nivel, la mala interpretación de indicaciones ambiguas y un comportamiento ocasional de sobrepensamiento.
Related News
OpenAI presenta GPT-5.5: 12M de contexto, el índice AA llega al primer puesto, Terminal-Bench 82,7% reescribe el punto de referencia de los agentes
Google Jules abre la nueva lista de candidatos para la versión, y se reposiciona como una plataforma de desarrollo de productos de extremo a extremo
Google amplía la seguridad en la nube Wiz en AWS, Azure y Google Cloud