NVIDIA détaille le fine-tuning de Nemotron 3.5 ASR pour langues, domaines et accents

Publié le 4 juin 2026 à 18h06 — Mis à jour le 4 juin 2026 à 18h08

D'après Hugging Face (4 juin 2026 à 14h59)

Résumé

NVIDIA publie sur Hugging Face un guide pour adapter Nemotron 3.5 ASR, un modèle de reconnaissance vocale multilingue de 600 millions de paramètres, à un langage, un domaine ou un accent spécifiques. Le billet explique le contexte, les performances, l’architecture et les étapes pratiques de fine-tuning et de déploiement.

Les faits

NVIDIA présente Nemotron 3.5 ASR comme « un modèle de reconnaissance vocale multilingue en streaming de 600 millions de paramètres », capable de transcrire « 40 variantes de langues » à partir d’un « point de contrôle unique », en temps réel, avec la ponctuation et les majuscules intégrées. Le modèle est décrit comme le successeur de Nemotron 3 ASR, limité à l’anglais, qui avait été publié plus tôt cette année sur Hugging Face et sous forme de NIM. Depuis son lancement, Nemotron 3 ASR a été évalué par le cabinet Artificial Analysis, où il se classe « deuxième en latence parmi tous les modèles de reconnaissance vocale en streaming », avec « seulement 0,07 seconde jusqu’au transcript final après la fin de la parole ». Le modèle est également positionné dans le « quadrant le plus attractif » de l’indice AA-WER Streaming Index vs. Time to Final Transcription, ce qui le place parmi les meilleurs modèles sur le compromis combiné entre précision et latence. Sur le plan technique, le billet explique que Nemotron 3.5 ASR repose sur une architecture « Cache-Aware FastConformer-RNNT » qui permet de diffuser l’audio sans les recomputations redondantes qui ralentissent la plupart des systèmes de reconnaissance vocale en streaming. Cette approche est présentée comme donnant « une faible latence et une haute précision, sans sacrifier l’un pour l’autre ». NVIDIA souligne enfin que Nemotron 3.5 ASR est proposé en « poids ouverts » sur Hugging Face, ce qui permet de l’inspecter, de le fine-tuner et de le déployer « sans dépendance à une API ni facturation à l’appel ». Le billet insiste sur le fait qu’« aucune donnée ne quitte votre infrastructure sauf si vous le décidez », et que la robustesse du modèle de base autorise un fine-tuning ciblé « pour votre propre langue, domaine ou accent », avec une seconde partie d’article consacrée au mode d’emploi détaillé.

Pourquoi c’est important

En combinant un modèle unique pour 40 variantes de langues, une architecture optimisée pour le streaming et des performances de latence validées par un benchmark tiers, NVIDIA positionne Nemotron 3.5 ASR comme une brique clé pour les applications de transcription en temps réel. Le caractère multilingue et la prise en charge native de la ponctuation et des majuscules réduisent la complexité d’intégration pour les développeurs. Le choix des poids ouverts, sans dépendance à une API externe, est stratégique pour les entreprises soucieuses de souveraineté et de confidentialité, notamment dans les cas d’usage sensibles. La possibilité de fine-tuner le modèle sur une langue, un domaine ou un accent spécifique ouvre la voie à des assistants vocaux, agents et services de transcription hautement spécialisés, tout en gardant les données audio dans l’infrastructure de l’utilisateur.

Questions fréquentes

Qu’est-ce que Nemotron 3.5 ASR ?

Nemotron 3.5 ASR est un modèle de reconnaissance vocale multilingue en streaming de 600 millions de paramètres, capable de transcrire 40 variantes de langues à partir d’un point de contrôle unique, en temps réel, avec ponctuation et majuscules intégrées.

Combien de langues Nemotron 3.5 ASR peut-il gérer ?

Le modèle transcrit 40 variantes de langues à partir d’un seul point de contrôle, en mode streaming, avec ponctuation et capitalisation intégrées.

En quoi Nemotron 3.5 ASR se distingue-t-il en termes de latence ?

Son prédécesseur Nemotron 3 ASR a été classé deuxième en latence parmi les modèles de reconnaissance vocale en streaming, avec seulement 0,07 seconde jusqu’au transcript final après la fin de la parole.

Quelle architecture utilise Nemotron 3.5 ASR ?

Nemotron 3.5 ASR repose sur une architecture Cache-Aware FastConformer-RNNT, conçue pour diffuser l’audio sans recomputations redondantes et offrir à la fois faible latence et haute précision.

Nemotron 3.5 ASR dépend-il d’une API externe pour le déploiement ?

Non, le modèle est fourni en poids ouverts sur Hugging Face, permettant de l’inspecter, le fine-tuner et le déployer sans dépendance à une API ni facturation à l’appel, les données restant dans l’infrastructure de l’utilisateur.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.