MolmoMotion prédit le mouvement 3D guidé par le langage
D'après Hugging Face (17 juin 2026 à 17h26)
Résumé
Allen Institute for AI dévoile MolmoMotion, un modèle de prévision de mouvement 3D guidé par le langage. À partir d’une image, de points 3D sur un objet et d’instructions textuelles, il anticipe la trajectoire des points et alimente des applications en robotique et génération vidéo, avec un jeu de données et un benchmark dédiés.
Les faits
Allen Institute for AI présente MolmoMotion comme « un nouveau modèle de prévision de mouvement » conçu pour anticiper l’évolution d’objets dans l’espace plutôt que de se limiter à la perception rétrospective des vidéos. Le billet souligne que « la perception est par nature rétrospective » alors que de nombreux systèmes doivent « regarder vers l’avant » pour être utiles. MolmoMotion prend en entrée une observation RGB, un ensemble de points 3D sur un objet et une description textuelle de l’action, par exemple « Déplacer et faire tourner le bol en bois avec des fruits sur la table ». Le modèle « prédit où ces points se déplaceront au cours des prochaines secondes dans l’espace 3D », et les auteurs indiquent qu’il atteint « des performances nettement supérieures » aux méthodes de prévision existantes. Les trajectoires 3D prédites par MolmoMotion peuvent ensuite « piloter des applications en aval telles que la planification robotique et la génération vidéo conditionnée par trajectoire ». Le projet s’accompagne du jeu de données MolmoMotion-1M, présenté comme « la plus grande collection de trajectoires de points 3D couplées à des descriptions d’actions », issues de 1,16 million de vidéos. L’équipe publie également PointMotionBench, décrit comme un « benchmark validé par des humains » pour mesurer la précision de la prévision de mouvement 3D centrée sur les objets, qui contient 2 700 extraits vidéo. Les auteurs indiquent enfin qu’ils « publient ouvertement les poids du modèle, le jeu de données MolmoMotion-1M et le benchmark PointMotionBench » afin que la communauté puisse les étudier, les améliorer et les personnaliser.
Pourquoi c’est important
MolmoMotion s’attaque à un problème clé pour la robotique et la vision par ordinateur : ne plus seulement comprendre ce qui s’est passé dans une scène, mais anticiper ce qui va se produire. En reliant observation visuelle, points 3D et instructions en langage naturel, le modèle rapproche la compréhension sémantique et la dynamique physique des objets. En ouvrant simultanément le modèle, le jeu de données MolmoMotion-1M et le benchmark PointMotionBench, le projet fournit une base commune pour comparer les approches et accélérer la recherche sur la prévision de mouvement 3D centrée sur les objets. Les applications évoquées, de la planification robotique à la génération vidéo contrôlable, montrent le potentiel transversal de cette avancée pour de futurs systèmes interactifs plus sûrs et plus réalistes.
Questions fréquentes
Qu’est-ce que MolmoMotion ?
MolmoMotion est un modèle de prévision de mouvement 3D guidé par le langage qui anticipe la trajectoire de points sur un objet à partir d’une image, de points 3D et d’une description textuelle de l’action.
Quelles sont les entrées utilisées par MolmoMotion ?
Le modèle prend une observation RGB, un ensemble de points de requête sur un objet et une description en langage naturel de l’action prévue.
À quoi servent les trajectoires 3D prédites par MolmoMotion ?
Ces trajectoires peuvent alimenter des tâches en aval comme la planification robotique et la génération vidéo conditionnée par la trajectoire.
Qu’est-ce que le jeu de données MolmoMotion-1M ?
MolmoMotion-1M est présenté comme la plus grande collection de trajectoires de points 3D couplées à des descriptions d’actions, issue de 1,16 million de vidéos.
Qu’est-ce que PointMotionBench ?
PointMotionBench est un benchmark validé par des humains pour mesurer la précision de la prévision de mouvement 3D centrée sur les objets, comprenant 2 700 clips vidéo.
Source
Hugging FaceAuteur
Rédaction IA-MediasRédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.