NVIDIA optimise Cosmos Predict 2.5 avec LoRA/DoRA pour générer des vidéos robotiques

D'après Hugging Face (18 mai 2026 à 18h00)

Résumé

NVIDIA détaille sur Hugging Face le fine-tuning de son modèle vidéo Cosmos Predict 2.5 pour la robotique, en s’appuyant sur LoRA et DoRA. Cette approche réduit les besoins mémoire, évite l’oubli catastrophique et permet de générer des trajectoires robotiques synthétiques pour l’apprentissage de politiques de robots.

Les faits

NVIDIA présente sur le blog de Hugging Face un guide intitulé « Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation », publié le 18 mai 2026. Le billet est rédigé par plusieurs auteurs, dont Ting-Yun Chang, Miguel Martin, Jonathan Allen, Ke Ding et Pooya Jannaty. L’article décrit Cosmos Predict 2.5 comme « un modèle de monde à grande échelle capable de générer des vidéos physiquement plausibles, conditionnées par du texte, des images ou des clips vidéo ». Il explique que, pour l’adapter à un domaine spécifique comme la manipulation robotique ou un point de vue caméra particulier, « les équipes ont encore besoin d’un fine-tuning ciblé ». NVIDIA souligne que l’entraînement de politiques robotiques exige des données de démonstration, alors même que « collecter des trajectoires de vrais robots est lent et coûteux ». Le billet met en avant une alternative : « générer des trajectoires synthétiques avec un modèle de monde vidéo affiné offre une alternative évolutive ». L’entreprise met toutefois en garde contre le coût et les risques d’un ajustement complet d’un modèle de 2 milliards de paramètres, « coûteux et risque un oubli catastrophique des connaissances générales ». LoRA et DoRA sont présentés comme des solutions permettant d’« injecter de petits modules d’adaptateurs entraînables dans le modèle de base figé, réduisant les besoins en mémoire tout en gardant les fichiers d’adaptateurs petits et portables », ce qui rend possible le fine-tuning sur un seul GPU et la permutation flexible d’adaptateurs pour différents domaines lors de l’inférence.

Pourquoi c’est important

En mettant l’accent sur un fine-tuning parcimonieux de Cosmos Predict 2.5, NVIDIA propose une méthode pour adapter un modèle vidéo de grande taille à des tâches robotiques spécialisées sans en supporter le coût complet ni perdre les connaissances générales déjà acquises. L’usage de LoRA et DoRA permet de réduire la mémoire nécessaire et de garder des fichiers d’adaptateurs compacts. Cette approche ouvre la voie à une génération à grande échelle de trajectoires robotiques synthétiques, alors que « collecter des trajectoires de vrais robots est lent et coûteux ». Elle facilite ainsi l’entraînement de politiques de robots à partir de données vidéo simulées, en rendant praticable le fine-tuning sur un seul GPU et le changement d’adaptateurs pour différents domaines lors de l’inférence.

Questions fréquentes

Qu’est-ce que NVIDIA Cosmos Predict 2.5 ?

Cosmos Predict 2.5 est décrit comme « un modèle de monde à grande échelle capable de générer des vidéos physiquement plausibles, conditionnées par du texte, des images ou des clips vidéo ».

Pourquoi un fine-tuning ciblé est-il nécessaire pour la robotique ?

Pour adapter Cosmos Predict 2.5 à des domaines spécifiques comme la manipulation robotique ou un certain point de vue caméra, « les équipes ont encore besoin d’un fine-tuning ciblé ».

Quel problème vise à résoudre la génération de trajectoires synthétiques ?

Elle répond au fait que « collecter des trajectoires de vrais robots est lent et coûteux », en offrant une alternative évolutive via un modèle vidéo ajusté.

Quels sont les risques d’un fine-tuning complet du modèle ?

Le texte souligne que « un fine-tuning complet d’un modèle de 2 milliards de paramètres est coûteux et risque un oubli catastrophique des connaissances générales ».

Que permettent LoRA et DoRA dans ce contexte ?

LoRA et DoRA « injecter de petits modules d’adaptateurs entraînables dans le modèle de base figé, réduisant les besoins en mémoire tout en gardant les fichiers d’adaptateurs petits et portables ».

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.