アリババのQwenチームは火曜日に、ロボット向けの基盤モデル群であるQwen-Robot Suiteを発表した。同スイートは、統一されたソフトウェアスタックによって、ロボットのナビゲーション、マニピュレーション、そして物理に基づく世界シミュレーションを支えるために設計された3つの基盤モデルのセットだ。企業は2026年6月16日にTwitterでこのスイートを告知し、その技術を同社が「身体化された知能のためのフルスタック」と呼ぶものとして位置づけた。アリババは、ロボティクスにおける重要な課題に対処するためにこれらのモデルを開発した。すなわち、AIエージェントは現在、大規模言語モデルに意思決定を委ねている一方で、物理ロボットには、プロンプトベースの推論ではなく、物理に基づく失敗モードを扱える生成AIシステムが必要になるという点である。このリリースは、チップ、クラウド基盤、AIモデル、アプリケーションにまたがるアリババの垂直統合戦略を表しており、中国における身体化されたAI開発の中で、ロボティクスが最も物理的な表現であるとしている。

Qwen-Robot Suiteは3つの専門モデルを統合

Qwen-Robot Suiteは3つの基盤モデルで構成され、それぞれがロボット知能の異なる側面を担う。Qwen-RobotNavは移動とナビゲーションのタスクを扱う。Qwen-RobotManipは物体のマニピュレーションと物理的な相互作用に対応する。Qwen-RobotWorldは、ナビゲーションとマニピュレーションの双方を可能にする物理をシミュレートする。アリババによれば、各モデルは個別に動作しつつ、組み合わせると一体となったソフトウェアスタックを形成する。企業は、そのアーキテクチャをハードウェアではなく、ロボティクスのためのOSレイヤーだと説明している。

Qwen-RobotNavは、単一のモデル内で5つのナビゲーション・タスクを統合する。指示追従、ポイント・ゴールのナビゲーション、物体探索、ターゲット追跡、自律走行だ。このモデルはパラメータ化されたインターフェースを公開しており、トークン予算、時間減衰、そしてカメラごとの重みを、プランナーが運用中に再構成できる。アリババは、すべてのパラメータにわたってランダム化しながら、15.6百万サンプルでこのモデルを学習させた。

Qwen-RobotManipは、異なるロボット・プラットフォーム間で両立しないアクション表現という課題に対応する。Frankaアームは関節角度で作動するのに対し、ALOHAロボットはグリッパーの位置と姿勢によってアクションを表す。ヒューマノイドロボットは全身の座標を用いる。アリババは、オープンソースのロボットデータセットと人の動画から、これらの両立しないアクション空間をつなぐために、約38,100時間分の学習データを合成した。

Qwen-RobotWorldは、自然言語を普遍的なアクション・インターフェースとして扱う、言語条件付きのビデオ・ワールドモデルとして機能する。モデルは、「赤いコップを取って花に水を注いで」というような指示を、グリッパー、自律走行車両、モバイル・ナビゲーション・エージェントなど、さまざまなロボット種別にわたって処理する。Embodied World Knowledgeコーパスは、マニピュレーション、自律走行、屋内ナビゲーション、人からロボットへの移行シナリオにまたがり、合計2億フレームに相当する200 million framesの8.6百万のビデオ-テキスト・ペアで構成される。

複数のロボティクス評価ベンチで上位ランキングを達成

Qwen-RobotNavは、現実環境における視覚と言語のナビゲーションのベンチマークであるVLN-CE RxRで76.5%の成功を達成した。さらにこのモデルは、移動するターゲットを一貫して追従できるエージェント能力を評価するEVT-Benchで、追跡性能90%を記録した。

Qwen-RobotManipは、RoboChallenge Table30-v1で1位にランクし、従来手法を20%上回った。同モデルの性能は、身体の異種性をまたぐ学習においてアラインメントを最優先するアプローチに由来している。

Qwen-RobotWorldは、EWMBenchとDreamGen Benchの2つのベンチで1位を獲得した。これらは、ワールドモデルが現実的な物理環境を予測・生成できるかを評価するものだ。同モデルはWorldModelBenchとPBenchでオープンソースのすべてのモデルに勝っている。アリババは、ニュートンの法則、質量保存、流体力学、重力を扱う物理整合性テストにおいて、このモデルが完全なスコアを出したと報告している。

学習データは数百万サンプル：オープンソースのロボットデータセットから

アリババは、ナビゲーション・パラメータにまたがってランダム化しながら、Qwen-RobotNavを15.6百万サンプルで学習させた。同社は、ナビゲーション学習のための具体的なソース・データセットは開示していない。

Qwen-RobotManipについては、アリババがオープンソースのロボットデータセットと人の動画から、約38,100時間分の学習データを合成した。同社は、マニピュレーション・モデルの学習において、専有的なデータ収集に依存していないと述べた。

Qwen-RobotWorldのEmbodied World Knowledgeコーパスには、2億フレームにまたがる8.6百万のビデオ-テキスト・ペアが含まれている。コーパスには、20種類以上のロボット形態にまたがる、1,300+のスキルを対象にした5.9百万のマニピュレーション・サンプルが含まれる。自律走行データはWaymo、NVIDIA PhysicalAI-AD、Bench2Driveのデータセットから取得している。屋内ナビゲーションデータはVLNVerseに由来する。人からロボットへの移行データは14本のロボットアームを対象としている。

現実世界のロボット展開はまだ数年先

アリババは、現実世界でのロボット展開はまだ数年先だと述べた。同社は、制御されたデモ環境と、信頼できる現実での運用との間にあるギャップを認めている。RoboCasa365、LIBERO-Plus、RoboTwin-Clean2Randは、現実世界での展開シナリオというよりシミュレーションのベンチマークである。現実世界での展開では、センサーのノイズ、アクチュエータのドリフト、そしてエッジケースといった要素が生じるが、アリババはそれらを継続的な課題として認識している。

これらのモデルは、AgileX、Franka、Universal Robots、Unitreeなどのメーカーのハードウェア上で動作するためのソフトウェアシステムだ。アリババは、料金、具体的な展開時期、またパイロットプログラム以外でどの顧客がアクセスを受けるかについては開示していない。

FAQ

アリババは2026年6月16日に何を発表しましたか？

アリババのQwenチームは火曜日の2026年6月16日に、3つの基盤モデルからなるQwen-Robot Suiteを発表した。ナビゲーションにはQwen-RobotNav、マニピュレーションにはQwen-RobotManip、物理ベースのワールドシミュレーションにはQwen-RobotWorldをそれぞれ使用する。企業は、このスイートをロボティクスにおける身体化された知能のための統一ソフトウェアスタックとして位置づけた。

Qwen-Robotモデルはどんなベンチマーク結果を達成しましたか？

Qwen-RobotNavはVLN-CE RxRで76.5%の成功、EVT-Benchで90%を達成した。Qwen-RobotManipはRoboChallenge Table30-v1で1位にランクし、従来手法を20%上回った。Qwen-RobotWorldは、オープンソースモデルの中でEWMBench、DreamGen Bench、WorldModelBench、PBenchの各部門で1位となり、物理整合性テストでは完全なスコアを記録した。

Qwen-Robotモデルはいつ現実のロボットに展開されますか？

アリババは、現実世界でのロボット展開はまだ数年先だと述べた。同社は、具体的な展開時期、料金、またパイロットプログラム以外でどの顧客がアクセスを受けるかについては開示していない。

ソースを表示

免責事項：本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。