Avec Qwen3.7-Plus, Alibaba pousse l’IA multimodale vers l’agent autonome de bout en bout

D'après The Decoder (6 juin 2026 à 08h54)

Résumé

L’équipe Qwen d’Alibaba lance Qwen3.7-Plus, un modèle propriétaire « d’agent hybride multimodal interactif » capable de comprendre des scènes réelles, lire des écrans, piloter des interfaces graphiques et écrire du code. Positionné bien en dessous des prix des modèles occidentaux, il vise les tâches longues et complexes d’agent autonome, du desktop au cloud.

Les faits

L’équipe Qwen d’Alibaba a présenté Qwen3.7-Plus, décrit comme un modèle d’agent multimodal construit au-dessus du modèle texte Qwen3.7. Le système combine perception visuelle, opérations sur interfaces graphiques, génération de code et utilisation d’outils dans une « boucle d’agent » unique. Alibaba le présente comme un « agent hybride multimodal interactif », conçu pour reconnaître des scènes du monde réel, lire le contenu d’écran, manipuler des interfaces graphiques, écrire du code à partir de maquettes visuelles et naviguer de bout en bout dans des applications mobiles. Les clics dans l’interface et les instructions en ligne de commande sont exécutés dans la même boucle d’agent. Dans une démonstration détaillée, l’équipe Qwen a utilisé Qwen3.7-Plus pour faire fonctionner un système d’agent hybride chargé de développer une application d’apprentissage de vocabulaire en anglais. Selon Qwen, l’agent a tourné plus de onze heures, générant plus de 10 000 lignes de code au fil de plus de 1 000 appels d’agent, couvrant la rédaction des spécifications, la génération automatisée de code, l’installation, la création de tests, les tests via l’interface graphique, des scénarios de tests parallèles et la gestion indépendante des versions. Une autre démonstration vise les applications de bureau : l’agent a recréé l’application native macOS Stocks en l’exploitant de manière autonome, en analysant la structure de l’interface et en produisant le code SwiftUI correspondant, avant de connecter une API externe pour les données boursières en temps réel, de compiler l’application et d’exécuter dix tests fonctionnels, dont des recherches de prix et des filtres de recherche.

Pourquoi c’est important

Qwen3.7-Plus illustre une nouvelle étape dans l’intégration de la vision, du contrôle d’interface et du code au sein d’un même agent, avec des démonstrations qui vont de la création complète d’une application à la reconstitution d’un logiciel de bureau. Les benchmarks publiés montrent que le modèle prend l’avantage sur l’exploitation d’interfaces graphiques et la planification de tâches longues. Positionné comme une offre propriétaire sans poids ouverts, Qwen3.7-Plus est proposé à un tarif nettement inférieur à celui des modèles occidentaux de pointe, tout en restant compatible avec le protocole d’API Anthropic et des outils comme Claude Code, OpenClaw et Qwen Code. Ce positionnement technique et tarifaire en fait un candidat central pour les scénarios d’agents autonomes dans les environnements mobiles, desktop et cloud.

Questions fréquentes

Qu’est-ce que Qwen3.7-Plus ?

Qwen3.7-Plus est un modèle d’agent multimodal d’Alibaba qui combine perception visuelle, pilotage d’interfaces graphiques et génération de code dans une seule boucle d’agent.

Quels types de tâches l’agent peut-il accomplir ?

Il peut reconnaître des scènes réelles, lire des écrans, opérer des interfaces graphiques, écrire du code à partir de modèles visuels et naviguer de bout en bout dans des applications mobiles ou desktop.

Quelle démonstration marquante a été présentée ?

Un agent basé sur Qwen3.7-Plus a développé de façon autonome une application d’apprentissage de vocabulaire en anglais, générant plus de 10 000 lignes de code en plus de 1 000 appels sur plus de onze heures.

Comment Qwen3.7-Plus se positionne-t-il face aux autres modèles ?

Les benchmarks publiés indiquent qu’il surpasse plusieurs modèles concurrents sur l’exploitation d’interfaces graphiques, le travail en terminal orienté agent et la planification de tâches de longue durée.

Qwen3.7-Plus est-il compatible avec d’autres outils d’IA ?

Oui, il prend en charge le protocole d’API Anthropic et fonctionne directement avec Claude Code, OpenClaw et Qwen Code, avec une option preserve_thinking pour les tâches d’agent.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.