ComplexMCP : un nouveau benchmark MCP pour éprouver les agents LLM dans des environnements dynamiques et interconnectés

D'après arXiv (21 mai 2026 à 02h00)

Résumé

Des chercheurs présentent ComplexMCP, un benchmark fondé sur le Model Context Protocol (MCP) qui orchestre plus de 300 outils validés au sein de 7 bacs à sable stateful. L’objectif : évaluer les agents LLM dans des écosystèmes d’outils vastes, interconnectés et stochastiques, où même les meilleurs modèles restent loin des performances humaines.

Les faits

Le travail présenté introduit ComplexMCP, « un benchmark conçu pour évaluer les agents dans ces conditions rigoureuses ». Les auteurs constatent que « les agents LLM actuels sont compétents pour appeler des API isolées mais ont du mal avec le “dernier kilomètre” de l’automatisation logicielle commerciale », notamment dans des environnements d’entreprise où les API sont nombreuses, fines et fortement interdépendantes. ComplexMCP est « construit sur le Model Context Protocol (MCP) » et « fournit plus de 300 outils systématiquement validés dérivés de 7 bacs à sable stateful, allant des suites bureautiques aux systèmes financiers ». Le benchmark s’appuie sur « une architecture pilotée par graine pour simuler des états d’environnement dynamiques et des pannes d’API imprévisibles, garantissant une évaluation déterministe mais diversifiée ». L’environnement met l’accent sur « des transitions avec état et des interdépendances entre outils atomiques », par opposition à de simples appels indépendants. Les chercheurs « évaluent divers LLM à travers les paradigmes full-context et RAG » et « révèlent un écart de performance marqué : même les modèles de pointe ne dépassent pas un taux de réussite de 60 %, très loin des performances humaines (plus de 90 %) ». Les résultats détaillés montrent par exemple que « Gemini-3-Flash (…) atteint le taux de réussite le plus élevé à 55,31 %, encore bien inférieur à la performance humaine de 93,61 % ». Chaque modèle est évalué sur « 47 scénarios de test soigneusement sélectionnés » avec « trois exécutions indépendantes » et des métriques incluant performance, efficacité d’exécution et consommation de ressources. L’analyse fine des trajectoires met en lumière « trois goulots d’étranglement fondamentaux : (1) la saturation de la récupération d’outils à mesure que les espaces d’action s’élargissent ; (2) la surconfiance, où les agents contournent des vérifications essentielles de l’environnement ; et (3) le défaitisme stratégique, une tendance à rationaliser l’échec plutôt qu’à rechercher une récupération ». Les auteurs concluent que ces résultats « soulignent l’insuffisance des agents actuels pour les workflows interdépendants » et positionnent ComplexMCP comme « un banc d’essai critique pour la prochaine génération de systèmes autonomes résilients ». Le code et l’implémentation du benchmark sont mis à disposition publiquement sur GitHub.

Pourquoi c’est important

ComplexMCP s’attaque à un manque identifié dans la recherche : l’absence de benchmark « qui évalue systématiquement la capacité d’un agent à interagir de manière robuste avec des environnements complexes et dynamiques comportant des outils à grande échelle et interdépendants tout en démontrant une résilience aux erreurs ». Là où des jeux d’essai comme ToolBench, AnyToolBench, BFCL, TRAJECT-Bench, τ-Bench, τ²-Bench ou les récents benchmarks MCP restent centrés sur des outils largement isolés ou des domaines restreints, ComplexMCP introduit une interconnexion forte, un grand nombre d’outils et du bruit environnemental contrôlé. En montrant que « même les modèles de pointe ne dépassent pas un taux de réussite de 60 %, très loin des performances humaines (plus de 90 %) », ce travail remet en perspective le discours sur l’autonomie des agents LLM dans les logiciels d’entreprise. L’identification de goulots d’étranglement comme la saturation de la récupération d’outils, la surconfiance et le défaitisme stratégique fournit des axes concrets pour concevoir de nouveaux agents plus robustes et pour utiliser ComplexMCP comme terrain d’essai standardisé des futures générations de systèmes MCP.

Questions fréquentes

Qu’est-ce que ComplexMCP ?

ComplexMCP est un benchmark conçu pour évaluer des agents LLM dans des environnements d’outils vastes, dynamiques et interconnectés, construit sur le Model Context Protocol (MCP).

Combien d’outils et de bacs à sable intègre ComplexMCP ?

ComplexMCP fournit plus de 300 outils systématiquement validés, dérivés de 7 bacs à sable stateful allant des suites bureautiques aux systèmes financiers.

Comment ComplexMCP simule-t-il la dynamique et les pannes ?

Le benchmark utilise une architecture pilotée par graine pour générer des états d’environnement dynamiques et des pannes d’API imprévisibles, tout en restant scientifiquement reproductible.

Quel écart de performance est observé entre les LLM et les humains ?

Même les modèles de pointe n’atteignent pas 60 % de réussite, alors que les humains dépassent 90 % de succès sur les mêmes tâches.

Quels sont les principaux goulots d’étranglement identifiés chez les agents ?

Les auteurs pointent la saturation de la récupération d’outils, la surconfiance des agents et un défaitisme stratégique en cas d’erreur.

Source

arXiv

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.