RLWRLD promet un modèle centré sur la main, la mémoire et le contact. Les résultats sont intéressants, mais l’économie du déploiement reste floue.
RLWRLD avance une thèse simple avec RLDX-1 : le vrai goulet d’étranglement des humanoïdes n’est plus la perception générale, mais la manipulation fine sous contrainte physique. Mi-mai 2026, l’entreprise a annoncé un score de 70,6 sur RoboCasa, une avance de 10,7 points sur Isaac GR00T N1.6 sur le benchmark GR-1 Tabletop, et 70,8% de réussite sur une tâche réelle de versement de café. La partie technique est documentée, la compatibilité multi-robots aussi. Le chiffre qui manque encore, c’est celui qui sépare une belle démo d’une activité industrielle : coût de déploiement, volume, marge.
RLWRLD a peut-être choisi le bon angle. Depuis deux ans, la robotique humanoïde adore montrer des robots qui voient, parlent, pointent un objet. Le travail utile, lui, commence souvent quand il faut saisir, corriger la prise, sentir une variation de poids, se souvenir de l’étape précédente. C’est exactement le créneau que RLDX-1 vise.
La main redevient le vrai sujet
Début mai 2026, RLWRLD a présenté un modèle de fondation pour la manipulation dextre lors de son événement à San Francisco. L’entreprise parle de tâches riches en contact, comme verser, saisir ou utiliser un outil, et fait tourner le même socle sur l’humanoïde WIRobotics Allex, le bras Franka Research 3 et la plateforme OpenArm. Ce choix n’a rien d’anodin, parce qu’un modèle enfermé dans un seul corps finit vite en démonstrateur plus qu’en produit.
Junghee Ryu, directeur général de RLWRLD, a résumé le pari sur scène en expliquant que l’IA robotique était restée coincée sur la vision et le langage, alors que les robots doivent « saisir, sentir et tenir ». La formule est juste. En 2023, RT-2 de Google DeepMind avait marqué une étape pour les modèles VLA, ces systèmes qui relient vision, langage et action, mais la manipulation fine sous contrainte physique restait largement ouverte.
Interesting Engineering rapporte aussi une démo parlante, le tri de chaussettes noires sur convoyeur par un robot d’Enactic. Ce n’est pas le genre d’exercice qui fait un montage viral parfait, mais c’est le bon type de difficulté. Le robot doit suivre le mouvement, décider vite et garder du contexte en mémoire.
Des résultats meilleurs que GR00T, avec des limites connues
Les chiffres annoncés par RLWRLD ne sont pas anecdotiques. Sur GR-1 Tabletop, l’entreprise dit battre Isaac GR00T N1.6 de 10,7 points. Sur RoboCasa Kitchen, elle revendique 70,6, présenté comme le premier score au-dessus de 70 pour un modèle vision-langage-action sur ce benchmark long horizon, c’est-à-dire des tâches composées de plusieurs étapes successives. Et sur une tâche réelle de versement de café avec Allex, le taux de réussite monte à 70,8%.
Selon les détails techniques publiés par The Robot Report, RLDX-1 existe en trois checkpoints de 8,1 milliards de paramètres, dont des versions adaptées à ALLEX et à la plateforme DROID. La même source ajoute un gain de fréquence d’inférence de 16,3 à 22,1 Hz grâce à l’interface de cognition, soit environ 35% de mieux. Pour une boucle de contrôle robotique en temps réel, ce n’est pas cosmétique.
Sauf que ces résultats viennent de la société elle-même, sur ses protocoles et ses choix de tâches. Il manque encore le test qui calme tout le monde, la reproduction indépendante sur une flotte hétérogène, avec taux d’échec, temps de reprise et dérive après plusieurs heures.
Une architecture pensée pour plusieurs corps, pas pour un seul robot
Le cœur de RLDX-1, c’est le MSAT, pour Multi-Stream Action Transformer, un transformeur d’action à flux multiples. Au lieu de mélanger d’emblée la vidéo, la mémoire, le langage, le couple moteur et le tactile dans une seule séquence, RLWRLD leur donne des voies séparées avant une fusion par attention conjointe. L’idée est saine, parce que le risque classique d’un transformeur unique est simple, une modalité domine l’apprentissage et les autres deviennent décoratives.
Le modèle embarque aussi un VLM, un modèle vision-langage, spécialisé robotique à partir de Qwen3-VL 8B, un module de mouvement pour capter vitesse et rotation, un module de physique pour le torque, c’est-à-dire le couple mesuré dans les articulations, et une mémoire glissante pour suivre la progression d’une tâche. RLWRLD affirme qu’en l’absence de capteurs de force, la branche sensorielle se coupe proprement pour retomber en mode vision seule. Là encore, bon choix d’ingénierie.
Autre détail utile, l’entreprise dit avoir amplifié ses données avec du synthétique, environ cinq fois plus de volume, pour un gain moyen de 9,2% sur GR-1 Tabletop. Elle revendique aussi plus de 200 démonstrations par heure via capture de main humaine et retargeting logiciel, c’est-à-dire la conversion du geste humain vers la cinématique de la main robotique.
Ce mélange entre données synthétiques, mémoire et signaux physiques va dans le bon sens. Les vidéos seules ne disent pas quand un objet commence vraiment à glisser entre les doigts.
Le signal Nvidia existe, le modèle économique non
NVIDIA est partout dans ce lancement. RLWRLD dit avoir entraîné sur des GPU Hopper, simulé avec Isaac Sim et Isaac Lab, puis déployé en inférence sur Jetson AGX Thor avec TensorRT. Amit Goel, responsable écosystème robotique et IA embarquée chez NVIDIA, a même qualifié RLWRLD de partenaire central dans l’écosystème physical AI que construit le groupe. Pour une jeune société, ce tampon compte.
RLWRLD cite aussi des investisseurs et partenaires corporate, de SK Telecom à LG Electronics, en passant par CJ Logistics, KDDI, ANA Holdings, Mitsui Chemicals et Shimadzu Corporation. L’entreprise dit mener plus de dix projets de preuve de concept et de transformation robotique avec de grands groupes. Bon. Mais aucun montant levé, aucun revenu, aucun coût par intégration, aucun volume de robots déployés.
C’est là que l’analyse se bloque. En 2024, un cobot standard se vendait grosso modo entre 30 et 50 k€ par unité, quand les humanoïdes annoncés visaient plutôt environ 18 à 28 k€ (20 à 30 k$) chez Tesla, autour de 139 k€ (150 k$) estimés pour Figure 02, et environ 185 k€ (200 k$) pour Apollo. Si RLDX-1 améliore vraiment la manipulation, il faut maintenant dire sur quel matériel, à quel coût total système, et avec quelle marge.
On a déjà vu ce film. Honda a arrêté ASIMO en 2018 après avoir prouvé la valeur symbolique de l’humanoïde sans trouver son économie industrielle. RLWRLD a un angle plus concret, la main avant la chorégraphie, mais le passage du benchmark au compte d’exploitation n’apparaît toujours pas. Pour l’instant, le fait le plus solide reste celui-ci, l’entreprise annonce plus de dix projets avec de grands comptes, pas un seul déploiement à l’échelle.