NVIDIA accélère l'IA générative avec NeMo AutoModel

Publié le 25 juin 2026 à 22h16

D'après Hugging Face (24 juin 2026 à 18h00)

Résumé

NVIDIA présente NeMo AutoModel sur Hugging Face, une bibliothèque ouverte bâtie sur Transformers v5 qui promet un fine-tuning MoE plus de trois fois plus rapide.

Les faits

NVIDIA publie sur Hugging Face un billet de blog intitulé « Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel », consacré à l'accélération du fine-tuning des modèles Transformers grâce à NeMo AutoModel. NVIDIA NeMo AutoModel est décrit comme une bibliothèque ouverte faisant partie du framework NVIDIA NeMo, conçu pour construire des modèles d’IA générative personnalisés à grande échelle. La bibliothèque s’appuie directement sur Transformers v5, en ajoutant notamment l’Expert Parallelism, DeepEP fused all-to-all dispatch et des kernels TransformerEngine, tout en exploitant le chargement dynamique des poids de v5 pour étendre ces optimisations à un ensemble croissant de familles de modèles. Selon NVIDIA, NeMo AutoModel offre « 3,4 à 3,7 fois plus de débit d'entraînement » et « 29 à 32 % de mémoire GPU en moins » pour le fine-tuning de modèles MoE par rapport à Transformers v5, en utilisant la même API from_pretrained() : une seule ligne d’import, sans autres changements de code. Sur Qwen3-30B-A3B et Nemotron 3 Nano 30B-A3B, cela se traduit par ce gain de débit d’entraînement et de réduction de mémoire GPU par rapport à la meilleure configuration Transformers v5.

Pourquoi c’est important

L’approche de NVIDIA avec NeMo AutoModel est présentée comme une « évolution naturelle » pour les utilisateurs de Hugging Face qui cherchent à passer à l’échelle sur l’entraînement de modèles, en leur offrant un chemin de mise à niveau sans friction depuis Transformers v5. En se limitant à un simple changement de ligne d’import pour obtenir un modèle plus de trois fois plus rapide et plus économe en mémoire GPU, NeMo AutoModel illustre la convergence entre les outils de l’écosystème Hugging Face et les optimisations matérielles et logicielles de NVIDIA pour le fine-tuning de grands modèles MoE.

Questions fréquentes

Qu’est-ce que NVIDIA NeMo AutoModel ?

NeMo AutoModel est une bibliothèque ouverte du framework NVIDIA NeMo pour construire des modèles d’IA générative personnalisés à grande échelle.

Quel est le gain de performance annoncé pour le fine-tuning MoE ?

NVIDIA annonce 3,4 à 3,7 fois plus de débit d'entraînement et 29 à 32 % de mémoire GPU en moins par rapport à Transformers v5.

NeMo AutoModel nécessite-t-il des changements de code importants ?

NVIDIA indique qu’il suffit de modifier une ligne d’import, en conservant la même API from_pretrained(), sans autres changements de code.

Sur quels modèles les gains sont-ils observés ?

Les gains annoncés concernent notamment Qwen3-30B-A3B et Nemotron 3 Nano 30B-A3B, comparés à la meilleure configuration Transformers v5.

Sur quoi repose NeMo AutoModel dans l’écosystème Hugging Face ?

NeMo AutoModel se construit directement sur Transformers v5 et exploite son chargement dynamique des poids pour étendre les optimisations.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.