
A equipa do Alibaba Qwen publicou, a 17 de junho, o Qwen-Robot Suite, um stack completo de inteligência incorporada com três modelos base: Qwen-RobotNav (navegação móvel), Qwen-RobotManip (manipulação robótica) e Qwen-RobotWorld (simulação do mundo físico). Os três modelos já foram disponibilizados em open source.
Qwen-RobotNav: cinco tarefas unificadas, 15,60 milhões de dados de treino
O Qwen-RobotNav integra cinco tarefas — instrução e seguimento, navegação para um ponto-alvo, pesquisa de objetos, rastreio de alvos e condução autónoma — fornecendo uma interface parametrizável (orçamento de tokens, decaimento temporal, peso por imagem). O modelo foi treinado em 15,60 milhões de amostras e atingiu 76,5% de sucesso na benchmark VLN-CE RxR (navegação visual e por linguagem em ambientes reais), e 90% na EVT-Bench (rastreio de alvos móveis).
Qwen-RobotManip: 38,100 horas de dados de treino, 1.º lugar no RoboChallenge Table30-v1
As formas de representar ações variam significativamente entre robôs diferentes (o braço robótico Franka usa ângulos articulares; os braços duplos ALOHA usam posição e direção das pinças; os robôs humanoides usam coordenadas de corpo inteiro). A Alibaba sintetizou cerca de 38,100 horas de dados de treino a partir de uma base de dados open source de robôs e vídeos humanos, sem depender de recolha de dados proprietários. O modelo ficou em 1.º lugar na benchmark RoboChallenge Table30-v1, superando métodos anteriores em 20%.
Qwen-RobotWorld: 8,60 milhões de pares de dados em vídeo-texto, 1.º lugar no EWMBench e no DreamGen Bench
O Qwen-RobotWorld é um modelo de mundo em vídeo condicionado por linguagem que utiliza a linguagem natural como uma interface de ação universal: o comando “pegar no copo vermelho e deitar água sobre as flores” é aplicável a agentes de pinça, a carros autónomos ou a agentes de navegação móvel. A base de dados de treino inclui 8,60 milhões de pares vídeo-texto e 2 mil milhões de frames, cobrindo manipulação (5,90 milhões de amostras, 1,300+ competências, 20+ formas), condução autónoma (Waymo, NVIDIA PhysicalAI-AD), navegação interior e transferência humano-máquina entre 14 tipos de braços robóticos. No EWMBench e no DreamGen Bench, ambas as benchmarks ficaram em 1.º lugar, com pontuação máxima nos testes de consistência física.
Explicação oficial da Qwen: modelos de software, não robôs físicos; preços e cronograma ainda não foram divulgados
De acordo com a explicação do blogue oficial da Qwen, o Qwen-Robot Suite é um modelo de software e não um robô físico; a implementação em cenários domésticos ainda exigirá alguns anos. A Alibaba, até ao momento, não divulgou preços, cronograma nem a lista de clientes fora dos projetos piloto. Laboratórios ocidentais como o Google DeepMind, Nvidia, Figure e Physical Intelligence também estão a perseguir objetivos semelhantes, mas as notícias indicam que a maioria se foca em capacidades isoladas de navegação ou manipulação, e não numa suite unificada e facilmente empacotável.
Perguntas frequentes
A que cenários se destinam os três modelos do Qwen-Robot Suite, respetivamente?
De acordo com o blogue oficial da Qwen, as três variantes posicionam-se assim: o Qwen-RobotNav é responsável pela navegação móvel (cinco tarefas unificadas); o Qwen-RobotManip é responsável pela manipulação robótica entre robôs (compatível com diferentes formas de representação de ações); o Qwen-RobotWorld é responsável pela simulação do mundo físico (linguagem como interface de ação universal). Cada um dos três modelos é independente e, em conjunto, formam um stack completo de inteligência incorporada.
A “hora do Android dos robôs” é uma designação que a própria Qwen diz?
Sim. “A hora do Android no mundo dos robôs” é a descrição de posicionamento usada pela Qwen oficial da Alibaba aquando do lançamento, significando que o Qwen-Robot Suite é uma plataforma ao nível do sistema operativo, e não hardware. É uma formulação de posicionamento de mercado da Qwen, não uma avaliação de terceiro.
O Qwen-Robot Suite é disponibilizado em open source para o público?
De acordo com o blogue oficial da Qwen, os três modelos foram disponibilizados em open source na íntegra. Os dados de treino da Alibaba provêm de uma base de dados open source de robôs e de vídeos humanos, sem depender de recolha de dados proprietários; a estratégia de open source é uma das mensagens centrais desta divulgação.