Uni-LaViRA : une architecture unifiée de navigation robotique sans entraînement sur trajectoires

Publié le 29 mai 2026 à 02h06 — Mis à jour le 30 mai 2026 à 07h37

D'après arXiv (27 mai 2026 à 02h00)

Résumé

Des chercheurs présentent Uni-LaViRA, une architecture d’agent unifié qui traduit langage, vision et actions robotiques pour la navigation. Sans aucun entraînement sur des trajectoires de robots, le système se déploie en zéro-shot sur quatre familles de tâches et quatre robots hétérogènes, avec des résultats comparables aux modèles de fondation entraînés sur des millions d’exemples.

Les faits

L’article « Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation » s’attaque au problème de la navigation incarnée, où un agent doit convertir des instructions en langage naturel et des observations visuelles en une suite d’actions spatiales permettant de déplacer un robot dans un environnement inédit. Les auteurs rappellent que ce domaine croise vision, compréhension du langage naturel et robotique, et qu’il est devenu un banc d’essai central pour l’intelligence incarnée. Le travail part d’un constat critique sur la tendance dominante des deux dernières années : la généralisation en navigation incarnée repose surtout sur des modèles de fondation vision-langage-action entraînés sur des collections toujours plus vastes de trajectoires de robots. Chaque génération de ces modèles augmente massivement données et calcul, avec des gains de performance et de couverture de tâches, misant ainsi sur une « loi d’échelle » de la navigation incarnée. Les auteurs proposent une alternative structurelle avec Uni-LaViRA. Ils soutiennent que, pour la navigation, la généralité peut être obtenue par une décomposition adéquate du problème en une unique « traduction Langage-Vision-Actions Robotiques ». Dans cette formulation, une « action langage » produit une commande directionnelle au niveau sémantique, tandis qu’une « action vision » fournit une cible visuelle au niveau pixel. Les deux sorties se situent dans le « manifold » de sortie naturel des grands modèles de langage multimodaux préentraînés, ce qui permet de raisonner sur la tâche par agent plutôt que d’apprendre à partir de données de robot. Uni-LaViRA est présenté comme une architecture agentique unifiée qui étend ce principe à quatre grandes familles de tâches — VLN-CE, ObjectNav, EQA et Aerial-VLN — ainsi qu’à quatre robots réels hétérogènes : un robot à roues, un quadrupède, un humanoïde et un drone auto-construit (UAV), le tout en mode zéro-shot. Deux mécanismes de boucle d’agent rendent cette unification praticable : la « TODO List Memory » réécrit à chaque étape une checklist structurée des sous-objectifs restants, tandis que le « Second Chance Backtrack » ramène le robot à un état antérieur à l’erreur pour conditionner le plan suivant sur la sous-trajectoire échouée. Sans aucun effort d’entraînement, Uni-LaViRA atteint 60,7 % de taux de réussite (SR) sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,00 % sur OpenUAV. Les auteurs soulignent que ces scores égalent ou dépassent des modèles de fondation pour la navigation qui consomment des millions d’exemples et des milliers d’heures GPU.

Pourquoi c’est important

Uni-LaViRA remet en cause la trajectoire actuelle de la navigation incarnée, fondée sur des modèles gigantesques et des volumes massifs de données de trajectoires robotiques. En montrant qu’une structuration fine de la décision en traduction Langage-Vision-Actions peut suffire à généraliser, ce travail suggère une voie moins dépendante de l’escalade de données et de calcul. L’architecture unifiée opérant en zéro-shot sur quatre familles de tâches et quatre robots hétérogènes illustre le potentiel des grands modèles de langage multimodaux comme noyau de raisonnement pour la robotique. Les résultats chiffrés obtenus sans entraînement de trajectoires, comparables à ceux de modèles de fondation coûteux, en font une proposition structurante pour repenser la conception de systèmes de navigation robotique généralistes.

Questions fréquentes

Qu’est-ce que Uni-LaViRA ?

Uni-LaViRA est une architecture d’agent qui traduit langage, vision et actions robotiques pour la navigation, sans entraînement sur des trajectoires de robots.

Quelles tâches de navigation sont couvertes ?

Uni-LaViRA est appliqué à quatre familles de tâches : VLN-CE, ObjectNav, Embodied Question Answering (EQA) et Aerial-VLN.

Sur quels robots réels Uni-LaViRA est-il déployé ?

Le système est déployé en zéro-shot sur quatre robots hétérogènes : un robot à roues, un quadrupède, un humanoïde et un UAV auto-construit.

Quels mécanismes d’agent permettent la navigation ?

Deux mécanismes sont décrits : la TODO List Memory, qui maintient une checklist de sous-objectifs, et le Second Chance Backtrack, qui ramène le robot à un état pré-erreur pour se corriger.

Quels résultats Uni-LaViRA obtient-il sans entraînement ?

Sans entraînement, Uni-LaViRA atteint notamment 60,7 % SR sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,00 % sur OpenUAV.

Source

arXiv

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.