Stability AI lance Stable Audio 3.0, une nouvelle génération de modèles capables de composer des morceaux de plus de six minutes

D'après TechCrunch (20 mai 2026 à 17h00)

Résumé

Stability AI dévoile Stable Audio 3.0, une famille de quatre modèles audio, dont les versions medium et large peuvent générer des compositions musicales de 6 minutes 20 secondes. Trois modèles sont proposés en open weights, tandis que le grand modèle reste réservé à l’API et aux services payants, avec exigences spécifiques pour les entreprises.

Les faits

Stability AI, connue pour Stable Diffusion, lance une nouvelle famille de modèles audio baptisée « Stability Audio 3.0 ». L’entreprise affirme que le modèle le plus avancé peut générer une musique de qualité professionnelle de plus de six minutes. Cette gamme comprend quatre modèles : small SFX (459 millions de paramètres), small (459 millions de paramètres), medium (1,4 milliard de paramètres) et large (2,7 milliards de paramètres). Les deux modèles small sont présentés comme adaptés à la génération de sons et de musique sur appareil, pour des séquences allant jusqu’à deux minutes. Les modèles medium et large peuvent, eux, créer des compositions complètes de 6 minutes 20 secondes capables de maintenir structure musicale et ligne mélodique. Stability AI souligne que cette durée est plus de deux fois supérieure à ce que permettait Stable Audio 2.0, lancé en 2024. Stability AI met à disposition en open weights les modèles small SFX, small et medium, que chacun peut utiliser et modifier. En 2024, l’entreprise avait déjà publié Stable Audio Open, limité à des morceaux de 47 secondes. La société présente cette nouvelle famille comme « une grande avancée » par rapport aux précédentes versions ouvertes. Le modèle large n’est accessible que via l’API et des services payants en self‑hosting, et les entreprises dont le chiffre d’affaires dépasse 1 million de dollars doivent souscrire une licence entreprise. Sur le plan juridique et industriel, Stability AI rappelle avoir conclu l’an dernier des accords avec Warner Music Group et Universal Music Group pour développer des modèles et outils de création musicale. Elle affirme que cette nouvelle série de modèles audio est entraînée sur des données entièrement licenciées. La start-up développe par ailleurs une nouvelle suite de produits destinée aux musiciens professionnels, sans encore détailler ses fonctionnalités, et annonce l’arrivée d’Ethan Kaplan pour piloter cette offre professionnelle.

Pourquoi c’est important

Stable Audio 3.0 illustre l’accélération des capacités de génération musicale par IA, avec un saut significatif en durée et en qualité revendiquée, tout en ouvrant largement l’accès via des poids de modèles en open source. La possibilité de générer jusqu’à 6 minutes 20 secondes de musique structurée rapproche ces outils des usages professionnels. Dans un contexte où les modèles de musique générative se multiplient et où les litiges sur les données d’entraînement se durcissent, Stability AI met l’accent sur des données « entièrement licenciées » et sur des partenariats avec des majors comme Warner Music Group et Universal Music Group. Cette stratégie, combinée à l’embauche de profils issus de l’industrie musicale, vise à sécuriser la viabilité à long terme de ses services et à rassurer les ayants droit.

Questions fréquentes

Qu’est-ce que Stability Audio 3.0 ?

C’est une nouvelle famille de modèles audio lancée par Stability AI, capable de générer de la musique, avec un modèle haut de gamme produisant des morceaux de plus de six minutes.

Combien de modèles comprend Stable Audio 3.0 et avec quelles tailles ?

Quatre modèles : small SFX (459M paramètres), small (459M), medium (1,4B) et large (2,7B).

Quelle est la durée maximale des morceaux générés ?

Les modèles medium et large peuvent générer des compositions complètes de 6 minutes 20 secondes, en maintenant structure musicale et mélodie.

Quels modèles sont disponibles en open weights ?

Les modèles small SFX, small et medium sont proposés avec des poids ouverts, utilisables et modifiables par tous.

Sur quelles données les nouveaux modèles sont-ils entraînés ?

Stability AI indique que cette dernière série de modèles audio est construite sur des données entièrement licenciées, dans le cadre d’accords avec Warner Music Group et Universal Music Group.

Source

TechCrunch

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.