Según Beating, Prime Intellect ha publicado como código abierto un general-agent, un entorno de entrenamiento de agentes autoevolutivos que usa mecánicas de generación de tareas de doble jugador. El sistema generó automáticamente 4.504 tareas y más de 8.000 herramientas únicas alternando entre un sintetizador de tareas y un solucionador, categorizando los desafíos en cinco niveles de dificultad mediante nueve estrategias, incluidas condiciones de restricción, instrucciones con ruido y acoplamiento entre entidades.
En las pruebas, ajustar finamente un modelo de 30B de parámetros con más de 4.400 trayectorias del entorno mejoró la precisión de la llamada a herramientas del 18,9% al 52,3% en el benchmark BFCL, demostrando la capacidad del marco para generar datos de entrenamiento semánticamente verificados sin depender de conjuntos de datos estáticos anotados manualmente.