
El equipo de Alibaba Qwen publicó el 17 de junio Qwen-Robot Suite, un sistema integral de inteligencia encarnada compuesto por tres modelos base: Qwen-RobotNav (navegación móvil), Qwen-RobotManip (manipulación robótica) y Qwen-RobotWorld (simulación del mundo físico). Los tres modelos ya se han liberado como código abierto.
Qwen-RobotNav: cinco tareas unificadas, 15,6 millones de datos de entrenamiento
Qwen-RobotNav integra cinco tareas: seguimiento de instrucciones, navegación a objetivos, búsqueda de objetos, seguimiento de objetivos y conducción autónoma, y ofrece una interfaz parametrizable (presupuesto de tokens, decaimiento temporal, ponderación por imagen). El modelo se entrena con 15,6 millones de muestras; en el benchmark VLN-CE RxR (navegación con visión y lenguaje en entornos reales) logra una tasa de éxito del 76,5%, y en EVT-Bench (seguimiento de objetivos móviles) alcanza el 90%.
Qwen-RobotManip: 38.100 horas de datos de entrenamiento, primer lugar en RoboChallenge Table30-v1
Las formas de representar acciones de diferentes robots son completamente distintas (el brazo robótico Franka usa ángulos articulares, ALOHA usa posiciones y direcciones de la pinza con dos brazos, y los robots humanoides usan coordenadas del cuerpo completo). Alibaba sintetizó aproximadamente 38.100 horas de datos de entrenamiento a partir de una base de datos de robots de código abierto y vídeos humanos, sin depender de la recopilación de datos privados. El modelo ocupó el primer lugar en el benchmark RoboChallenge Table30-v1, superando a los métodos anteriores en un 20%.
Qwen-RobotWorld: 8,6 millones de pares de texto de vídeo; primer lugar en EWMBench y DreamGen Bench
Qwen-RobotWorld es un modelo de mundo de vídeo condicionado por lenguaje que utiliza el lenguaje natural como una interfaz de acción universal: la instrucción «coger una taza roja y verter agua sobre las flores» es aplicable tanto a agentes de pinza como de coche autónomo o de navegación móvil. El conjunto de datos de entrenamiento incluye 8,6 millones de emparejamientos de texto en vídeo y 200 millones de frames, abarcando manipulación (5,9 millones de muestras, 1.300+ habilidades, 20+ morfologías), conducción autónoma (Waymo, NVIDIA PhysicalAI-AD), navegación interior y transferencias humano-robot entre 14 tipos de brazos mecánicos. En las dos pruebas de benchmark, EWMBench y DreamGen Bench, ocupa el primer lugar, y en las pruebas de consistencia física obtiene la puntuación máxima.
Explicación oficial de Qwen: modelos de software, no robots físicos; aún no se han publicado precios ni cronograma
Según la explicación del blog oficial de Qwen, Qwen-Robot Suite es un modelo de software y no un robot físico; el despliegue en escenarios domésticos aún requiere varios años. Alibaba todavía no ha publicado precios, cronograma ni una lista de clientes fuera de los planes piloto. Laboratorios occidentales como Google DeepMind, Nvidia, Figure y Physical Intelligence también persiguen objetivos similares, pero los informes señalan que la mayoría se centra en capacidades individuales de navegación o manipulación, en lugar de un paquete unificado y ensamblable.
Preguntas frecuentes
¿Para qué escenarios se orientan los tres modelos de Qwen-Robot Suite?
Según el blog oficial de Qwen, la orientación de los tres modelos es: Qwen-RobotNav se encarga de la navegación móvil (cinco tareas unificadas); Qwen-RobotManip se encarga de la manipulación robótica entre diferentes robots (compatible con distintas formas de representación de acciones); Qwen-RobotWorld se encarga de la simulación del mundo físico (el lenguaje como interfaz de acción universal). Los tres modelos son independientes entre sí y, combinados, conforman un sistema integral de inteligencia encarnada.
¿La idea de «Android para robots en cualquier momento» la dijo Qwen por su cuenta?
Sí. «El momento Android en el ámbito de los robots» es la descripción de posicionamiento usada por Alibaba Qwen en el momento del lanzamiento, y significa que Qwen-Robot Suite es una plataforma a nivel de sistema operativo, no hardware. Es una expresión de posicionamiento de mercado de Qwen, no una calificación de un tercero.
¿Qwen-Robot Suite se libera como código abierto para el público?
Según el blog oficial de Qwen, los tres modelos se publican totalmente como código abierto. Los datos de entrenamiento de Alibaba provienen de una base de datos de robots de código abierto y de vídeos humanos, sin depender de la recopilación de datos privados; la estrategia de código abierto es uno de los mensajes clave de esta publicación.