Alibaba fait tourner son modèle Qwen3.7-Max 35 heures en autonomie pour optimiser son propre chip IA

D'après The Decoder (23 mai 2026 à 12h17)

Résumé

L’équipe Qwen d’Alibaba dévoile Qwen3.7-Max, un modèle propriétaire pensé pour des agents autonomes de longue durée. Mis à l’épreuve sur l’optimisation d’un noyau d’attention pour la plateforme T-Head-ZW-M890, il a tourné 35 heures en continu, réalisant 432 tests et atteignant un gain moyen de performance de 10x.

Les faits

L’équipe Qwen d’Alibaba a lancé Qwen3.7-Max, un modèle propriétaire « conçu pour les tâches basées sur des agents » et « construit pour des tâches d’agents autonomes de longue durée ». Comme Qwen3-Max et Qwen3.6-Plus, cette version Max n’est accessible que via l’API Alibaba Cloud Model Studio, marquant un virage après les publications open source précédentes. Qwen3.7-Max vise quatre cas d’usage principaux : agir comme agent de programmation du prototype front-end à des projets logiciels multi-fichiers complexes, automatiser des tâches bureautiques avec des outils externes, fonctionner de manière autonome sur de longues périodes et maintenir des performances cohérentes à travers différents frameworks d’agents. Le modèle est compatible avec des interfaces au format OpenAI et Anthropic et peut s’intégrer directement à des environnements comme Claude Code, OpenClaw ou Qwen Code. Pour démontrer ses capacités, Alibaba a confié à Qwen3.7-Max l’optimisation d’un noyau d’attention matériel pour le logiciel d’inférence open source SGLang, sur une instance cloud équipée d’accélérateurs T-Head-ZW-M890, la plateforme de puces IA de la branche semi-conducteurs du groupe. Selon l’équipe, le modèle « n’avait jamais vu cette architecture de puce pendant l’entraînement » et ne disposait ni de données de mesure, ni de documentation matérielle, ni de code exemple, uniquement d’une implémentation de référence en Triton. Sur environ 35 heures de travail autonome ininterrompu, Qwen3.7-Max a exécuté 432 tests de kernel et 1 158 appels d’outils. Il a compilé, mesuré et révisé le code en boucle, corrigé des erreurs de compilation et identifié des goulets d’étranglement de performance sans intervention humaine. Les chercheurs Qwen annoncent une accélération moyenne de 10x par rapport à l’implémentation de référence. Les modèles concurrents testés dans la même configuration restent derrière : GLM 5.1 atteint 7,3x, Kimi K2.6 5x, DeepSeek V4 Pro 3,3x, et le prédécesseur Qwen3.6-Plus 1,1x seulement. Sur le benchmark standardisé KernelBench L3, Qwen3.7-Max revendique des kernels accélérés dans 96 % des cas, juste derrière Opus 4.6 d’Anthropic à 98 %.

Pourquoi c’est important

Cette démonstration positionne Qwen3.7-Max comme un modèle spécifiquement adapté aux agents autonomes capables d’optimiser du code bas niveau sur des architectures matérielles inédites. En tournant 35 heures d’affilée pour améliorer un noyau sur les accélérateurs T-Head-ZW-M890, Alibaba illustre un usage très concret des agents IA pour la co-conception matériel‑logiciel. Les résultats comparatifs face à GLM 5.1, Kimi K2.6, DeepSeek V4 Pro et Qwen3.6-Plus soulignent un avantage technique sur les modèles chinois concurrents, tandis que le score de 96 % sur KernelBench L3 rapproche Qwen3.7-Max d’Opus 4.6 d’Anthropic. Couplé au recentrage sur un accès via Alibaba Cloud Model Studio, ce positionnement renforce à la fois l’offre cloud d’Alibaba et sa plateforme de puces IA maison, en montrant comment un même acteur peut intégrer modèle, infrastructure et matériel propriétaire.

Questions fréquentes

Qu’est-ce que Qwen3.7-Max ?

Qwen3.7-Max est un modèle IA propriétaire de l’équipe Qwen d’Alibaba, conçu pour les tâches basées sur des agents, notamment les agents de programmation, l’automatisation de bureau et les exécutions autonomes de longue durée.

Comment Alibaba a testé Qwen3.7-Max en conditions réelles ?

Alibaba a chargé Qwen3.7-Max d’optimiser un noyau d’attention pour le logiciel SGLang sur des accélérateurs T-Head-ZW-M890, où le modèle a travaillé en autonomie environ 35 heures, réalisant 432 tests et 1 158 appels d’outils.

Quels gains de performance Qwen3.7-Max a-t-il obtenus ?

Les chercheurs Qwen annoncent une accélération moyenne de 10x par rapport à l’implémentation de référence, dépassant GLM 5.1 (7,3x), Kimi K2.6 (5x), DeepSeek V4 Pro (3,3x) et Qwen3.6-Plus (1,1x).

Qwen3.7-Max est-il open source ?

Non. Comme Qwen3-Max et Qwen3.6-Plus, Qwen3.7-Max n’est disponible que via l’API Alibaba Cloud Model Studio, alors que le dernier modèle phare open source remonte à Qwen3.5-397B-A17B.

Comment Qwen3.7-Max se situe-t-il sur KernelBench L3 ?

Sur le benchmark KernelBench L3, Qwen3.7-Max revendique la production de kernels accélérés dans 96 % des cas, se plaçant juste derrière Opus 4.6 d’Anthropic à 98 %.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.