IBM Research lance l’Open Agent Leaderboard pour comparer les agents d’IA de bout en bout

D'après Hugging Face (18 mai 2026 à 16h12)

Résumé

IBM Research dévoile sur Hugging Face l’Open Agent Leaderboard, un benchmark ouvert qui compare non pas seulement les modèles, mais des systèmes d’agents complets. Le classement mesure à la fois la qualité et le coût, et s’appuie sur le framework Exgentic, conçu pour reproduire les évaluations de manière ouverte.

Les faits

IBM Research présente l’Open Agent Leaderboard sur Hugging Face comme « un benchmark ouvert pour comparer des systèmes d’agents complets, pas seulement les modèles qu’ils utilisent ». L’objectif est de répondre à une question centrale : « À quel point les agents d’IA généralistes sont-ils bons ? Nous avons construit un cadre d’évaluation ouvert pour le découvrir. » Les auteurs rappellent que la plupart des évaluations en IA « rapportent un résultat simple : quel score chaque modèle a obtenu sur quelle tâche de benchmark ». Or, lorsqu’une entreprise déploie un agent, elle choisit « un système complet : quels outils l’agent peut utiliser, comment il planifie ses étapes, ce qu’il retient entre les actions, comment il récupère quand quelque chose tourne mal ». Une modification de ces éléments peut conduire « le même modèle » à produire « des résultats très différents à des coûts très différents ». Le leaderboard vise ainsi à mesurer la performance de systèmes complets et à rendre visible le compromis entre performance et dépenses. Il « rapporte à la fois la qualité et le coût, pour que vous puissiez voir non seulement ce qui fonctionne, mais ce qui vaut la peine d’être déployé ». Il est associé au framework Exgentic « pour exécuter et reproduire les évaluations » et à un article scientifique qui « décrivent la méthodologie complète et les résultats ». Les auteurs insistent : « Tout est ouvert dès le premier jour. » Le billet s’attarde aussi sur la notion de généralité. Les agents d’IA sont jugés « vraiment utiles lorsqu’ils sont soigneusement adaptés à une tâche spécifique », par exemple pour « coder dans un dépôt familier » ou gérer un service client avec « un ensemble d’outils connus ». Mais la question plus difficile est de savoir si « le même agent peut gérer de nombreuses tâches différentes » avec leurs propres outils, règles et contraintes « sans être personnalisé manuellement pour chacune ». La généralité est définie comme la capacité d’un agent que l’on peut « déposer dans un nouveau contexte et qu’il fonctionne immédiatement », et doit être vue « comme un spectre, pas une étiquette binaire ».

Pourquoi c’est important

L’Open Agent Leaderboard marque un déplacement du centre de gravité de l’évaluation en IA : au lieu de se limiter aux scores de modèles sur des benchmarks, il s’intéresse à la performance de systèmes d’agents complets, incluant outils, planification, mémoire et gestion des erreurs. En intégrant explicitement le coût, il répond aux enjeux concrets de déploiement en production. En outre, la définition de la « généralité » comme spectre et non comme statut binaire repositionne le débat sur les agents généralistes. La capacité d’un agent à « rester capable » à mesure que « l’éventail des tâches et des contextes s’élargit », et à le faire « à un coût raisonnable », devient un critère central. En ouvrant dès le départ le framework Exgentic et la méthodologie, IBM Research favorise une culture de mesure reproductible de cette généralité.

Questions fréquentes

Qu’est-ce que l’Open Agent Leaderboard ?

C’est « un benchmark ouvert pour comparer des systèmes d’agents complets, et pas seulement les modèles qu’ils contiennent », qui met l’accent sur la performance des agents d’IA en conditions réelles.

Que mesure ce leaderboard exactement ?

Il « rapporte à la fois la qualité et le coût, pour que vous puissiez voir non seulement ce qui fonctionne, mais ce qui vaut la peine d’être déployé », combinant évaluation de performance et de coût.

Pourquoi IBM Research parle-t-il de systèmes complets plutôt que de modèles ?

Parce que « quand vous déployez un agent, vous ne choisissez pas seulement un modèle. Vous choisissez un système complet » incluant outils, planification, mémoire et gestion des erreurs.

Qu’est-ce que le framework Exgentic ?

Exgentic est « le cadre pour exécuter et reproduire les évaluations » associé à l’Open Agent Leaderboard, conçu pour rendre les évaluations d’agents reproductibles.

Comment l’article définit-il la généralité d’un agent ?

La généralité est la capacité d’« déposer dans un nouveau contexte et qu’il fonctionne immédiatement », comprise « comme un spectre, pas une étiquette binaire », tout en restant efficace à un coût raisonnable.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.