
アリババのQwenチームは6月17日に、3つの基礎モデルで構成される具現知能のフルスタック「Qwen-Robot Suite」を公開した。Qwen-RobotNav(移動ナビゲーション)、Qwen-RobotManip(機械の操作)、Qwen-RobotWorld(物理世界のシミュレーション)からなる。3つのモデルはいずれもオープンソース化されている。
Qwen-RobotNav:5つのタスクを統一、1,560万件の学習データ
Qwen-RobotNavは、指示追従、目的地点ナビゲーション、物体検索、目的追跡、自律走行の5つのタスクを統合し、パラメータ化可能なインターフェース(トークン予算、時間減衰、1ショットあたりの重み)を提供する。モデルは1,560万件のサンプルで学習され、VLN-CE RxRベンチ(実環境の視覚と言語ナビゲーション)で成功率76.5%を達成し、EVT-Bench(移動対象の追跡)では90%に到達した。
Qwen-RobotManip:38,100時間の学習データ、RoboChallenge Table30-v1で1位
異なるロボットの動作表現の仕方はまったく異なる(Frankaのロボットアームは関節角度、ALOHAの両腕はグリッパーの位置と方向、人型ロボットは全身の座標)。アリババはオープンなロボットデータベースと人間の映像から約38,100時間分の学習データを合成しており、非公開のデータ収集には依存していない。モデルはRoboChallenge Table30-v1ベンチで1位となり、従来手法を20%上回った。
Qwen-RobotWorld:860万件の動画コーパス、EWMBenchとDreamGen Benchで1位
Qwen-RobotWorldは言語を条件とする動画世界モデルで、自然言語を汎用の動作インターフェースとしている。「赤いカップを取って花に水を注ぐ」といった指示は、グリッパー、自動運転車、移動ナビゲーションのエージェントいずれにも共通する。学習コーパスには、860万件の動画とテキストのペア、2億フレームを含み、操作(590万件のサンプル、1,300+のスキル、20+の形状)や、自律走行(Waymo、NVIDIA PhysicalAI-AD)、室内ナビゲーション、そして14種類の機械アームにまたがる人機の移送がカバーされている。EWMBenchとDreamGen Benchの2つのベンチマークテストはいずれも1位で、物理整合性テストは満点だった。
Qwen公式の説明:ソフトウェアモデルであって実体のロボットではない。価格とスケジュールは未公開
Qwen公式ブログの説明によると、Qwen-Robot Suiteは実体のロボットではなくソフトウェアモデルであり、家庭内の実環境での実運用にはまだ数年かかるという。アリババは現在、価格、タイムライン、あるいは試験導入の計画以外の対象顧客名簿をまだ公表していない。Google DeepMind、Nvidia、Figure、Physical Intelligenceなどの欧米の研究機関も同様の目標を追っているが、報道では多くがナビゲーションや操作といった単一の能力に注力しており、統一して組み立てられるセットではないとされている。
よくある質問
Qwen-Robot Suiteの3つのモデルはそれぞれどんな場面を対象にしていますか?
Qwen公式ブログによれば、3モデルの位置づけは次のとおりだ。Qwen-RobotNavは移動ナビゲーション(5つのタスクを統一)を担当し、Qwen-RobotManipは複数のロボットにまたがる機械操作(異なる動作表現方式に対応)を担当し、Qwen-RobotWorldは物理世界のシミュレーション(言語を汎用の動作インターフェースに)を担当する。3つのモデルはそれぞれ独立しており、合わせることで具現知能のフルスタックを構成する。
「ロボットAndroidの時刻」という定位はQwen自身が言ったものですか?
はい。「ロボット領域のAndroidの時刻」は、アリババQwen公式が公開時に用いた位置づけの説明で、Qwen-Robot Suiteはハードウェアではなく、OS層のプラットフォームであることを意味する。これはQwenの市場における位置づけの表現であり、第三者による評価ではない。
Qwen-Robot Suiteはオープンソースとして公開されていますか?
Qwen公式ブログによると、3つのモデルはいずれもすべてオープンソースとして公開されている。アリババの学習データは、オープンなロボットデータベースと人間の映像に由来しており、非公開のデータ収集には依存していない。オープンソース戦略は、今回のリリースの中核メッセージの1つだ。