Beating informó que Microsoft recientemente publicó como código abierto la familia de modelos Phi-Ground, diseñada para resolver el problema de dónde debe hacer clic la IA en una pantalla de computadora. La versión de 4 mil millones de parámetros, combinada con modelos lingüísticos más grandes para la planificación de instrucciones, superó la precisión de clic de OpenAI Operator y Claude Computer Use en el benchmark Showdown y quedó en el primer lugar entre todos los modelos de menos de 100 mil millones de parámetros en cinco evaluaciones, incluyendo ScreenSpot-Pro.
El equipo se entrenó con más de 40 millones de muestras de datos y descubrió que tres técnicas de entrenamiento comunes usadas en artículos académicos perdieron efectividad a escala. El enfoque clave resultó ser simple: generar coordenadas como números normales, como “523, 417”. Investigaciones previas inventaron vocabularios de posición especializados para coordenadas, pero no lograron escalar. El equipo también descubrió que colocar instrucciones de texto antes de las imágenes mejoró el rendimiento, ya que los modelos podían identificar los objetivos mientras procesaban los píxeles. Además, métodos de aprendizaje por refuerzo como DPO mejoraron la precisión incluso después del ajuste fino.
Related News
NVIDIA abre su socio de IA a largo plazo Deepinfra obtiene una ronda B de 107 millones de dólares para crear una «fábrica de tokens»
Los GPT-5.5-Cyber de OpenAI arman a los defensores cibernéticos
OpenAI lanza GPT-Realtime-2: introduce el razonamiento de GPT-5 en agentes de voz y eleva el contexto a 128K