JetBrains dévoile Mellum2, un modèle Mixture-of-Experts de 12 milliards de paramètres pour le texte et le code

D'après Hugging Face (1 juin 2026 à 17h45)

Résumé

JetBrains lance Mellum2, un modèle Mixture-of-Experts de 12 milliards de paramètres optimisé pour les charges de travail texte et code à faible latence. Conçu pour le routage, l’orchestration, les pipelines RAG et les sous-agents, il vise les déploiements de production exigeant un débit élevé et des coûts de calcul maîtrisés.

Les faits

JetBrains présente Mellum2 comme « un modèle Mixture-of-Experts ouvert optimisé pour les charges de travail texte-et-code à faible latence ». Selon l’équipe, Mellum est à l’origine « un modèle de complétion de code », et Mellum2 étend désormais cette base « à un ensemble plus large de tâches en langage naturel et en ingénierie logicielle tout en gardant le modèle axé sur une inférence efficace et le déploiement ». Le modèle est décrit comme un Mixture-of-Experts, « ce qui maintient une capacité totale élevée tout en n’activant qu’un sous-ensemble de paramètres pour chaque jeton ». Cette approche vise à rendre l’inférence plus efficace et à « contribuer à réduire le coût de service pour les charges de travail en temps réel ». JetBrains insiste également sur le fait que Mellum2 est « intentionnellement axé sur le texte et le code plutôt que sur des tâches multimodales », afin de conserver un modèle compact et efficient pour les usages de génie logiciel. Dans son rapport technique, JetBrains indique évaluer Mellum2 « sur des benchmarks de génération de code, de raisonnement, de science et de mathématiques ». L’équipe affirme que Mellum2 est « compétitif avec des modèles ouverts de taille similaire tout en offrant une inférence plus de deux fois plus rapide », ce qui le rend adapté « aux charges de production à haut débit ». Les cas d’usage mis en avant incluent le routage et l’orchestration, où Mellum2 « fonctionne bien comme un modèle léger de routage et d’orchestration dans des systèmes multi-modèles, y compris la classification de prompts, la sélection d’outils et les étapes de contrôle de flux intermédiaires ». Le modèle est également présenté comme « bien adapté aux pipelines de recherche à faible latence », notamment pour la compression de contexte, la synthèse et le post-traitement de la récupération, ainsi que pour des « sous-agents » chargés de tâches comme la planification, la validation, la transformation et la préparation de contexte.

Pourquoi c’est important

Avec Mellum2, JetBrains cible un besoin croissant des systèmes d’IA modernes : multiplier les appels modèles pour le routage, la récupération, la synthèse, la planification, la validation et l’usage d’outils sans recourir systématiquement aux modèles les plus volumineux. L’éditeur affirme que de nombreuses opérations sont sensibles à la latence et « ne nécessitent pas le plus grand modèle disponible », ce que Mellum2 cherche précisément à adresser. En combinant une architecture Mixture-of-Experts, une spécialisation sur le texte et le code et une inférence annoncée comme plus de deux fois plus rapide que celle de modèles ouverts de taille comparable, Mellum2 se positionne comme un composant clé pour des workflows d’IA de production à haut débit. Sa vocation à être utilisé pour le routage, les pipelines RAG et les sous-agents reflète une évolution vers des architectures d’IA composables, où des modèles plus ciblés et efficaces prennent en charge les étapes intermédiaires critiques.

Questions fréquentes

Qu’est-ce que Mellum2 ?

Mellum2 est un modèle Mixture-of-Experts ouvert de 12 milliards de paramètres, optimisé pour des charges de travail texte et code à faible latence, présenté par JetBrains pour des usages d’ingénierie logicielle et de langage.

Sur quels types de tâches Mellum2 est-il axé ?

Mellum2 est axé sur le texte et le code, avec une extension de la complétion de code vers des tâches plus larges de langage naturel et d’ingénierie logicielle, tout en restant optimisé pour l’inférence efficace.

En quoi l’architecture Mixture-of-Experts de Mellum2 est-elle importante ?

Son architecture Mixture-of-Experts permet de conserver une grande capacité de modèle tout en n’activant qu’un sous-ensemble de paramètres par jeton, ce qui rend l’inférence plus efficace et réduit les coûts de service en temps réel.

Comment Mellum2 se positionne-t-il en termes de performances ?

JetBrains indique que Mellum2 est compétitif avec des modèles ouverts de taille similaire, tout en offrant une inférence plus de deux fois plus rapide, ce qui le rend adapté aux charges de production à haut débit.

Quels sont les principaux cas d’usage de Mellum2 ?

Les cas d’usage clés sont le routage et l’orchestration dans des systèmes multi-modèles, les pipelines RAG à faible latence et les sous-agents pour la planification, la validation, la transformation et la préparation de contexte.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.