Alibaba pousse Qwen dans le réel avec trois modèles pour robots

Robot humanoide creme en gros plan
Image d'illustration. Alibaba lance Qwen vers la robotique. — ADN

Avec Qwen-Robot, Alibaba sort du pur logiciel et attaque la robotique. Navigation, manipulation et monde simulé, le tout déjà en pilotes clients.

Alibaba a lancé Qwen-Robot Suite, sa première famille de modèles pour robots, avec trois briques distinctes pour la navigation, la manipulation et la prédiction du monde physique. La suite est déjà testée chez certains clients entreprise de Alibaba Cloud. Derrière l’annonce, il y a un point plus intéressant encore, la volonté de relier les modèles généralistes Qwen à de vraies actions robotisées.

Alibaba ne se contente plus de faire tourner Qwen dans une fenêtre de chat. Avec Qwen-Robot Suite, le groupe chinois formalise son entrée dans l’IA incarnée, celle qui doit percevoir, raisonner puis agir dans un environnement réel. Le point qui saute aux yeux, c’est la découpe du problème. Pas un modèle unique censé tout faire, mais trois couches reliées entre elles. C’est plus sobre, et franchement plus crédible quand on parle de robotique.

Trois briques, trois rôles bien séparés

La suite réunit Qwen-RobotManip, un modèle VLA pour convertir vision et langage en actions physiques, Qwen-RobotNav pour la navigation en langage naturel, et Qwen-RobotWorld, un world model vidéo chargé d’anticiper l’évolution d’une scène. Alibaba présente l’ensemble comme une extension des capacités multimodales de Qwen vers le monde physique, avec mobilité, manipulation et compréhension de dynamiques réelles.

La manipulation, là où Alibaba avance ses chiffres

C’est sur Qwen-RobotManip que Alibaba met le plus de matière. Le modèle repose sur Qwen 3.5-4B VL et a été entraîné sur plus de 38 000 heures de données open source, entre dépôts robotiques, vidéos de manipulation humaine et jeux synthétiques humain-robot. Il a aussi été validé sur des plateformes comme AgileX et Franka. Sur les benchmarks, la société revendique une première place sur EBench, 69,4 % sur RoboTwin-Clean2Rand Hard et 72,0 % sur RoboTwin-IF. L’autre chiffre à retenir est ailleurs, jusqu’à trois fois mieux en transfert cross-embodiment que les précédents meilleurs systèmes, donc moins de réentraînement quand on change de matériel. Les détails techniques supplémentaires sont résumés par TechNode.

Navigation et agentique, le vrai sujet derrière le produit

Qwen-RobotNav a été entraîné sur 15,6 millions d’échantillons couvrant planification de trajectoire et raisonnement vision-langage. Pendant l’inférence, son module de planification choisit dynamiquement le mode de navigation sans réentraînement spécifique. C’est ce qui lui permet de servir de moteur de navigation, mais aussi d’interface unifiée pour des systèmes agentiques sur tâches longues, y compris l’EQA, quand un agent doit répondre à une question sur un lieu physique. Une autre source décrit une démo sur un Unitree Go2 avec matériel NVIDIA Jetson Thor et une seule caméra basse résolution, dans un appartement inconnu, avec 196 millisecondes de latence d’inférence. Elle évoque aussi Qwen-RobotClaw, un framework interne qui orchestre mémoire, contexte et appels aux modèles robots. Ces éléments figurent dans ce compte rendu du 17 juin 2026: TheElec.

Le world model comme couche de simulation

Qwen-RobotWorld a été entraîné sur 8,6 millions de paires vidéo-texte, soit plus de 200 millions d’images, couvrant plus de 20 types d’embodiments et 500 catégories d’action. Son rôle, prédire des futurs visuels cohérents avec les lois physiques, générer des données synthétiques et simuler des trajectoires avant exécution. En robotique, ce n’est pas un détail.

Pourquoi cette annonce compte maintenant

La suite est déjà en pilotes chez des clients entreprise de Alibaba Cloud, et Alibaba a aussi ouvert Chat2Robot, une plateforme web d’évaluation temps réel, avec un support actuel de Qwen-RobotManip sur 50 tâches issues de RoboTwin-Clean. Le vrai signal est là, Qwen comme planificateur de haut niveau, les modèles robots comme moteurs d’exécution. Le passage du langage à l’action devient un produit.