NVIDIA Cosmos 3 : un omni-modèle ouvert pour le raisonnement et l’action en IA physique

D'après Hugging Face (1 juin 2026 à 06h44)

Résumé

NVIDIA lance Cosmos 3 sur Hugging Face, présenté comme un omni-modèle unifié pour l’IA physique. Basé sur une architecture Mixture-of-Transformers, il regroupe génération de monde, raisonnement physique et génération d’actions, visant des usages en robotique, véhicules autonomes et environnements intelligents, sans multiplier les modèles et pipelines d’inférence.

Les faits

NVIDIA annonce Cosmos 3, décrit comme « le premier omni-modèle ouvert pour le raisonnement et l’action en IA physique », désormais disponible sur la plateforme Hugging Face. Le billet de blog souligne que « NVIDIA Cosmos 3 est là – et il est disponible sur Hugging Face aujourd’hui ». Cosmos 3 est présenté comme une avancée majeure dans les « world foundation models (WFMs) pour l’IA physique », avec « un seul omni-modèle unifié qui combine la génération de monde, le raisonnement physique et la génération d’action dans un seul modèle ». Le texte insiste sur la fin de la fragmentation des outils : « plus besoin de jongler entre différents modèles et pipelines d’inférence – Cosmos 3 fait tout ». Par rapport aux précédentes versions de Cosmos, la principale évolution est son statut d’omni-modèle, « construit sur une architecture Mixture-of-Transformers (MoT) ». Auparavant, les développeurs devaient « travailler avec des modèles distincts pour différentes capacités comme la génération de monde (Cosmos Predict), la génération contrôlée (Cosmos Transfer), la compréhension de scène (Cosmos Reason) et la génération de politiques (Cosmos Policy) ». Désormais, « Cosmos 3 permet tout cela dans un seul modèle qui peut raisonner et générer différentes modalités dans un passage avant unifié ». Le billet met en avant que l’on peut « maintenant faire tout cela à partir d’un seul modèle » et explique pourquoi cela compte pour l’IA physique : Cosmos 3 vise à aider à « construire des systèmes d’IA physique capables de comprendre le monde réel. Pas seulement des pixels et des tokens, mais le mouvement, la causalité, la physique et l’action ». Les cas d’usage évoqués incluent « l’entraînement d’un robot à plier du linge », la construction d’« une simulation de conduite autonome » ou encore la génération de « données d’entraînement synthétiques pour des scénarios de sécurité en entrepôt ».

Pourquoi c’est important

En unifiant génération de monde, raisonnement et actions dans un seul omni-modèle, Cosmos 3 s’attaque directement à l’un des principaux obstacles des systèmes d’IA physique : la nécessité de coordonner plusieurs modèles spécialisés et pipelines d’inférence. L’architecture Mixture-of-Transformers est présentée comme le socle technique permettant cette unification multimodale. En rendant Cosmos 3 disponible sur Hugging Face, NVIDIA positionne ce modèle comme une brique de base pour des applications très concrètes, de la robotique domestique à la simulation pour véhicules autonomes en passant par la sécurité industrielle. L’accent mis sur la compréhension du « mouvement, de la causalité, de la physique et de l’action » indique une volonté de rapprocher l’IA des contraintes du monde réel, au-delà de la simple manipulation de pixels ou de tokens.

Questions fréquentes

Qu’est-ce que NVIDIA Cosmos 3 ?

Cosmos 3 est un omni-modèle de NVIDIA pour l’IA physique, qui combine génération de monde, raisonnement physique et génération d’action dans un seul modèle, disponible sur Hugging Face.

En quoi Cosmos 3 diffère-t-il des versions précédentes de Cosmos ?

La principale différence est que Cosmos 3 est un omni-modèle basé sur une architecture Mixture-of-Transformers, remplaçant plusieurs modèles distincts (Predict, Transfer, Reason, Policy) par un unique modèle unifié.

Quels types de tâches Cosmos 3 peut-il gérer ?

Cosmos 3 est conçu pour la génération de monde, la génération contrôlée, la compréhension de scène et la génération de politiques d’action, au sein d’un même modèle et d’un passage avant unifié.

Quels sont les cas d’usage visés par Cosmos 3 ?

Le billet cite l’entraînement de robots à plier du linge, la simulation de conduite autonome et la génération de données d’entraînement synthétiques pour des scénarios de sécurité en entrepôt.

Pourquoi Cosmos 3 est-il important pour l’IA physique ?

Cosmos 3 vise à permettre des systèmes d’IA capables de comprendre le monde réel, en prenant en compte le mouvement, la causalité, la physique et l’action, plutôt que de se limiter à des pixels ou des tokens.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.