
Nhóm Qwen của Alibaba đã công bố Qwen-Robot Suite vào ngày 17/6, một hệ thống trí tuệ thể hiện thân hình đầy đủ do 3 mô hình cơ sở hợp thành: Qwen-RobotNav (điều hướng di chuyển), Qwen-RobotManip (điều khiển cơ khí), Qwen-RobotWorld (mô phỏng thế giới vật lý). Cả 3 mô hình đều đã được mã nguồn mở.
Qwen-RobotNav: thống nhất 5 nhiệm vụ, 15,6 triệu dữ liệu huấn luyện
Qwen-RobotNav tích hợp 5 nhiệm vụ là theo lệnh, điều hướng theo điểm mục tiêu, tìm kiếm vật thể, bám mục tiêu và lái xe tự chủ, đồng thời cung cấp giao diện có thể tham số hóa (ngân sách token, hệ số suy giảm theo thời gian, trọng số theo từng khung hình). Mô hình được huấn luyện trên 15,6 triệu mẫu, đạt 76,5% ở chuẩn VLN-CE RxR (điều hướng ngôn ngữ và hình ảnh trong môi trường thực) và đạt 90% ở EVT-Bench (bám mục tiêu di chuyển).
Qwen-RobotManip: 38.100 giờ dữ liệu huấn luyện, đứng số 1 trên RoboChallenge Table30-v1
Cách biểu diễn hành động của các robot khác nhau rõ rệt (cánh tay robot Franka dùng góc khớp, hai tay ALOHA dùng vị trí và hướng của kẹp, robot hình người dùng tọa độ toàn thân). Alibaba đã tổng hợp khoảng 38.100 giờ dữ liệu huấn luyện từ các cơ sở dữ liệu robot mã nguồn mở và video của con người, không phụ thuộc vào thu thập dữ liệu riêng tư. Mô hình xếp hạng số 1 trên chuẩn RoboChallenge Table30-v1, vượt qua phương pháp trước đó 20%.
Qwen-RobotWorld: 8,6 triệu cặp dữ liệu video, đứng số 1 ở EWMBench và DreamGen Bench
Qwen-RobotWorld là mô hình thế giới video có điều kiện theo ngôn ngữ, coi ngôn ngữ tự nhiên như một giao diện hành động phổ quát: lệnh như “nhấc cốc màu đỏ và rót nước lên hoa” có thể dùng chung cho tác vụ của kẹp, xe tự lái hoặc tác nhân điều hướng di chuyển. Bộ dữ liệu huấn luyện gồm 8,6 triệu cặp video-văn bản và 200 triệu khung hình, bao trùm điều khiển (5,9 triệu mẫu, 1.300+ kỹ năng, 20+ hình dạng), lái xe tự chủ (Waymo, NVIDIA PhysicalAI-AD), điều hướng trong nhà và chuyển giao người–máy xuyên 14 loại cánh tay robot. Ở hai chuẩn kiểm thử EWMBench và DreamGen Bench, mô hình đều xếp số 1, và bài kiểm thử tính nhất quán vật lý đạt điểm tối đa.
Giải thích chính thức của Qwen: mô hình phần mềm, không phải robot vật thể; giá và lộ trình chưa được công bố
Theo phần giải thích trên blog chính thức của Qwen, Qwen-Robot Suite là mô hình phần mềm chứ không phải robot vật thể, và việc triển khai trong bối cảnh gia đình vẫn cần thêm vài năm. Hiện tại Alibaba cũng chưa công bố giá, lộ trình hay danh sách khách hàng ngoài kế hoạch thí điểm. Các phòng thí nghiệm phương Tây như Google DeepMind, Nvidia, Figure và Physical Intelligence cũng đang theo đuổi mục tiêu tương tự, nhưng các bài báo cho biết phần lớn tập trung vào năng lực đơn lẻ như điều hướng hoặc điều khiển, chứ không phải một bộ công cụ thống nhất có thể lắp ghép.
Câu hỏi thường gặp
Ba mô hình của Qwen-Robot Suite nhắm tới bối cảnh nào?
Theo blog chính thức của Qwen, ba mô hình được định vị như sau: Qwen-RobotNav chịu trách nhiệm điều hướng di chuyển (5 nhiệm vụ được thống nhất); Qwen-RobotManip chịu trách nhiệm điều khiển cơ khí xuyên nhiều robot (tương thích với các cách biểu diễn hành động khác nhau); Qwen-RobotWorld chịu trách nhiệm mô phỏng thế giới vật lý (ngôn ngữ là giao diện hành động phổ quát). Ba mô hình hoạt động độc lập, khi kết hợp lại tạo thành một “stack” trí tuệ thể hiện toàn diện.
“Thời khắc Android của robot” có phải là cách Qwen tự nói không?
Đúng. “Thời khắc Android của lĩnh vực robot” là mô tả định vị do Qwen chính thức của Alibaba sử dụng khi công bố, ngụ ý rằng Qwen-Robot Suite là nền tảng ở lớp hệ điều hành, chứ không phải phần cứng. Đây là cách Qwen thể hiện định vị trên thị trường, không phải đánh giá của bên thứ ba.
Qwen-Robot Suite có được mã nguồn mở công khai không?
Theo blog chính thức của Qwen, cả ba mô hình đều được phát hành mã nguồn mở. Dữ liệu huấn luyện của Alibaba đến từ các cơ sở dữ liệu robot mã nguồn mở và video con người, không dựa vào thu thập dữ liệu riêng tư; chiến lược mã nguồn mở là một trong những thông tin cốt lõi của lần phát hành này.