Microsoft lanza código abierto el modelo Phi-Ground 4B y supera a OpenAI Operator y a Claude en precisión al hacer clic en pantalla

Beating informó que Microsoft recientemente publicó como código abierto la familia de modelos Phi-Ground, diseñada para resolver el problema de dónde debe hacer clic la IA en una pantalla de computadora. La versión de 4 mil millones de parámetros, combinada con modelos lingüísticos más grandes para la planificación de instrucciones, superó la precisión de clic de OpenAI Operator y Claude Computer Use en el benchmark Showdown y quedó en el primer lugar entre todos los modelos de menos de 100 mil millones de parámetros en cinco evaluaciones, incluyendo ScreenSpot-Pro.

El equipo se entrenó con más de 40 millones de muestras de datos y descubrió que tres técnicas de entrenamiento comunes usadas en artículos académicos perdieron efectividad a escala. El enfoque clave resultó ser simple: generar coordenadas como números normales, como “523, 417”. Investigaciones previas inventaron vocabularios de posición especializados para coordenadas, pero no lograron escalar. El equipo también descubrió que colocar instrucciones de texto antes de las imágenes mejoró el rendimiento, ya que los modelos podían identificar los objetivos mientras procesaban los píxeles. Además, métodos de aprendizaje por refuerzo como DPO mejoraron la precisión incluso después del ajuste fino.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios