
A equipe do Alibaba Qwen lançou em 17 de junho o Qwen-Robot Suite, um sistema completo de IA corpórea composto por três modelos base: Qwen-RobotNav (navegação móvel), Qwen-RobotManip (manipulação robótica) e Qwen-RobotWorld (simulação do mundo físico). Os três modelos já foram disponibilizados como código aberto.
Qwen-RobotNav: cinco tarefas unificadas, 15,6 milhões de dados de treinamento
O Qwen-RobotNav integra cinco tarefas: seguir instruções, navegação por ponto-alvo, busca de objetos, rastreamento de alvos e direção autônoma, oferecendo uma interface parametrizável (orçamento de tokens, decaimento temporal, peso por frame). O modelo foi treinado com 15,6 milhões de amostras; no benchmark VLN-CE RxR (navegação visual e linguística em ambientes reais) obteve 76,5% de acurácia e, no EVT-Bench (rastreamento de alvos móveis), 90%.
Qwen-RobotManip: 38,100 horas de dados de treinamento, 1º lugar no RoboChallenge Table30-v1
As formas de representar ações de diferentes robôs variam de maneira marcante (o braço robótico Franka usa ângulos articulares; o ALOHA de dois braços usa posição e direção das pinças; robôs humanoides usam coordenadas do corpo inteiro). A Alibaba sintetizou cerca de 38,100 horas de dados de treinamento a partir de um banco de dados de robôs de código aberto e de vídeos humanos, sem depender de coleta de dados proprietários. O modelo ficou em 1º lugar no benchmark RoboChallenge Table30-v1, superando métodos anteriores em 20%.
Qwen-RobotWorld: 8,6 milhões de pares de vídeo para linguagem, 1º lugar no EWMBench e no DreamGen Bench
O Qwen-RobotWorld é um modelo de mundo de vídeo condicionado por linguagem: usa a linguagem natural como uma interface de ação universal. O comando “pegue o copo vermelho e despeje água sobre a flor” funciona como instrução para agentes com pinça, carros autônomos ou navegação móvel. O conjunto de dados de treinamento inclui 8,6 milhões de pares de vídeo-texto, além de 200 milhões de frames, abrangendo manipulação (5,9 milhões de amostras, 1.300+ habilidades, 20+ formas), direção autônoma (Waymo, NVIDIA PhysicalAI-AD), navegação em ambientes internos e transferência humano-robô entre 14 tipos de braços mecânicos. Nos dois benchmarks, EWMBench e DreamGen Bench, ficou em 1º lugar, e nos testes de consistência física obteve pontuação máxima.
Explicação oficial da Qwen: modelos de software, não robôs físicos; preços e cronograma ainda não foram divulgados
Pela explicação do blog oficial da Qwen, o Qwen-Robot Suite é um modelo de software, não um robô físico; a implantação em cenários residenciais ainda levará vários anos. A Alibaba ainda não divulgou preços, cronograma ou lista de clientes fora dos planos de piloto. Laboratórios ocidentais como Google DeepMind, Nvidia, Figure e Physical Intelligence também buscam objetivos semelhantes, mas reportes indicam que a maioria foca capacidades individuais como navegação ou manipulação, e não um pacote unificado e montável.
Perguntas frequentes
Para quais cenários cada um dos três modelos do Qwen-Robot Suite foi projetado?
De acordo com o blog oficial da Qwen, as funções dos três modelos são: Qwen-RobotNav responde pela navegação móvel (cinco tarefas unificadas); Qwen-RobotManip responde pela manipulação robótica entre robôs diferentes (compatível com diferentes formas de representar ações); Qwen-RobotWorld responde pela simulação do mundo físico (linguagem como interface de ação universal). Os três modelos são independentes entre si e, juntos, formam um stack completo de IA corpórea.
A “hora do Android dos robôs” é uma descrição dita pela própria Qwen?
Sim. “A hora do Android na área de robôs” é a descrição de posicionamento usada pela Qwen oficial da Alibaba na ocasião do lançamento, indicando que o Qwen-Robot Suite é uma plataforma na camada de sistema operacional, e não um hardware. Essa é uma declaração de posicionamento de mercado da Qwen, e não uma avaliação de terceiros.
O Qwen-Robot Suite é de código aberto para o público?
De acordo com o blog oficial da Qwen, os três modelos foram lançados como código aberto. Os dados de treinamento da Alibaba vêm de um banco de dados de robôs de código aberto e de vídeos humanos, sem depender de coleta de dados proprietários. A política de open source é uma das mensagens centrais do lançamento.