Alibaba ra mắt ba mô hình Qwen-Robot! Hướng dẫn robot, điều khiển, mô phỏng vật lý một lần là xong

Alibaba Qwen nhóm phát hành Qwen-Robot Suite, bao gồm ba mô hình cơ bản về dẫn đường, điều khiển và mô phỏng thế giới vật lý, đứng đầu trong nhiều bài kiểm tra tiêu chuẩn robot, được xem như là thời điểm của Android trong lĩnh vực robot.
(Tiền sử: Alibaba Qianwen ra mắt mô hình "Qwen3.7-Plus" với giá giảm mạnh, nhưng đổi lại không mở khóa trọng số)
(Bổ sung nền: Meta tiến quân vào robot hình người! Mua lại bí mật startup AI Assured Robot Intelligence, đặt cược vào "tương tác thế giới vật lý" để hướng tới AGI)

Mục lục bài viết

Toggle

  • Qwen-RobotNav: Mô hình dẫn đường năm trong một
  • Qwen-RobotManip: Điều khiển qua nhiều robot
  • Qwen-RobotWorld: Giao diện ngôn ngữ chung
  • So sánh với phòng thí nghiệm phương Tây như thế nào?

(Nguồn: Decrypt, Blog chính thức của Qwen)

Nhóm Qwen của Alibaba đã ra mắt Qwen-Robot Suite vào thứ Ba, một bộ gồm ba mô hình cơ bản tạo thành "hệ thống trí tuệ thể hiện toàn diện". Qwen-RobotNav chịu trách nhiệm di chuyển và dẫn đường, Qwen-RobotManip xử lý điều khiển cơ khí, Qwen-RobotWorld mô phỏng thế giới vật lý. Ba mô hình hoạt động độc lập, kết hợp lại tạo thành "Android thời điểm" trong lĩnh vực robot, là hệ điều hành chứ không phải phần cứng.

Qwen-RobotNav: Mô hình dẫn đường năm trong một

Mô hình dẫn đường tích hợp nhiệm vụ theo lệnh, dẫn đường điểm mục tiêu, tìm kiếm vật thể, theo dõi mục tiêu và tự lái xe, mỗi nhiệm vụ cần chiến lược ghi nhớ thị giác khác nhau. Phần lớn mô hình chỉ tập trung vào một chiến lược duy nhất, Qwen-RobotNav cung cấp giao diện có thể điều chỉnh: ngân sách token, giảm dần theo thời gian, trọng số mỗi khung hình, bộ lập kế hoạch có thể cấu hình lại trong quá trình thực thi.

Mô hình này được huấn luyện trên 15,6 triệu mẫu dữ liệu, đạt tỷ lệ thành công 76,5% trong bài kiểm tra chuẩn VLN-CE RxR (dẫn đường bằng thị giác và ngôn ngữ trong môi trường thực tế), và đạt 90% trong EVT-Bench (theo dõi mục tiêu di động).

Qwen-RobotManip: Điều khiển qua nhiều robot

Các cách thể hiện hành động của các robot khác nhau hoàn toàn khác biệt, robot cánh tay Franka dùng góc khớp, robot hai tay ALOHA dùng vị trí và hướng của kẹp, robot hình người dùng tọa độ toàn thân. Alibaba đã tổng hợp khoảng 38.100 giờ dữ liệu huấn luyện từ cơ sở dữ liệu robot mã nguồn mở và video của con người, không dựa vào dữ liệu riêng tư.

Mô hình đạt vị trí số một trong bài kiểm tra RoboChallenge Table30-v1, vượt qua các phương pháp trước đó 20%.

Qwen-RobotWorld: Giao diện ngôn ngữ chung

Đây là mô hình tham vọng nhất, một mô hình thế giới video dựa trên ngôn ngữ, sử dụng ngôn ngữ tự nhiên làm giao diện hành động chung. "Nhấc cốc đỏ và đổ nước vào hoa" là lệnh, dù là cho kẹp, xe tự lái hay đại diện dẫn đường di chuyển đều có thể dùng chung.

Kho dữ liệu kiến thức thế giới thể hiện bằng thân thể bao gồm 8,6 triệu cặp video- văn bản, 200 triệu khung hình, bao gồm điều khiển (590 nghìn mẫu, hơn 1.300 kỹ năng, hơn 20 dạng thức), tự lái (Waymo, NVIDIA PhysicalAI-AD), dẫn đường trong nhà và chuyển đổi giữa 14 loại robot tay. Mô hình đạt vị trí số một trong hai bài kiểm tra chuẩn EWMBench và DreamGen Bench, và đạt điểm tối đa trong các bài kiểm tra về tính nhất quán vật lý như định luật Newton, bảo toàn khối lượng, động lực học chất lỏng và trọng lực.

So sánh với phòng thí nghiệm phương Tây như thế nào?

Các phòng thí nghiệm phương Tây như Google DeepMind, Nvidia, Figure và Physical Intelligence cũng theo đuổi mục tiêu tương tự, nhưng phần lớn tập trung vào dẫn đường hoặc điều khiển, chứ không phải bộ phần mềm tích hợp có thể lắp ráp. Việc Alibaba tích hợp dọc từ chip đến ứng dụng có nghĩa là họ kiểm soát toàn bộ hệ sinh thái, và tất cả các mô hình này đều mã nguồn mở.

Tuy nhiên, các nhà phát triển cũng nhắc nhở rằng đây là các mô hình phần mềm chứ không phải robot thể chất, việc triển khai thực tế trong các cảnh nhà ở vẫn còn phải mất vài năm nữa. Hiện tại Alibaba chưa công bố giá cả, lịch trình hay danh sách khách hàng ngoài các thử nghiệm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim