SWE-Explore révèle une faiblesse des agents de codage

D'après The Decoder (14 juin 2026 à 10h54)

Résumé

Une nouvelle étude introduit SWE-Explore, un benchmark qui évalue séparément la capacité des agents de codage à rechercher du code avant la phase de correction. Les résultats montrent que des systèmes comme Claude Code ou Codex localisent souvent le bon fichier, mais manquent une grande partie des lignes réellement déterminantes, limitant l’efficacité de leurs correctifs.

Les faits

Une équipe de recherche internationale impliquant Shanghai Jiao Tong University présente SWE-Explore, un nouveau benchmark dédié à l’évaluation de la recherche de code en amont de la correction logicielle. Le protocole isole la première phase du processus : l’agent reçoit une description de bug et un projet logiciel, puis renvoie une liste ordonnée de sections de code jugées pertinentes. Les auteurs expliquent que l’évaluation des agents de codage se concentrait jusqu’ici presque exclusivement sur le résultat final – « l’agent a-t-il corrigé le bug ou non ? » – une métrique unique qui masque les causes réelles des échecs. Ils notent que ces systèmes « atterrissent dans le bon quartier mais ratent les endroits cruciaux », en trouvant le bon fichier sans identifier la majorité des lignes vraiment importantes. Pour construire SWE-Explore, le jeu de données rassemble 848 problèmes issus de 203 projets open source couvrant dix langages de programmation. Python domine avec 547 tâches sur 848, suivi par Go, JavaScript et Rust. Pour chaque problème, au moins deux tentatives de solution réussies existent, obtenues avec des modèles puissants comme GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 ou Kimi K2.6. Les chercheurs extraient de ces exécutions les fichiers et lignes que l’IA a effectivement examinés avant de corriger le bug. Les passages sur lesquels convergent plusieurs trajectoires de solution indépendantes sont considérés comme un signal de contexte utile, « pas strictement requis, mais fortement indiqués ». Une étape de vérification distincte complète les passages clés individuels, puis l’équipe procède à une revue manuelle de chaque région. La comparaison oppose des méthodes de recherche traditionnelles à cinq agents de codage généralistes, dont Claude Code, Codex et OpenHands, ainsi qu’à quatre systèmes de recherche de code spécialisés. La recherche par mots-clés classique ne fait guère mieux que le hasard, notamment parce que des termes de bug comme « RuntimeWarning on Overflow » apparaissent bien plus souvent dans les modèles et la documentation que dans le code source lui-même. Les agents d’IA prennent clairement l’avantage car ils explorent le projet étape par étape au lieu de trier tous les résultats d’un coup.

Pourquoi c’est important

SWE-Explore met en lumière un angle mort majeur de l’évaluation des agents de codage : la qualité de la recherche de contexte. En montrant que des systèmes réputés peuvent identifier le bon fichier tout en négligeant les lignes décisives, le benchmark démontre qu’un correctif, même bien généré, échouera sans un repérage précis du code pertinent. Cette approche méthodique, fondée sur la convergence de multiples trajectoires de résolution réussies, fournit un outil robuste pour comparer agents généralistes, systèmes spécialisés et méthodes classiques de recherche. Elle ouvre la voie à une nouvelle génération d’outils de développement assistés par IA, davantage axés sur la compréhension fine des bases de code complexes que sur la seule production de patches.

Questions fréquentes

Qu’est-ce que SWE-Explore ?

SWE-Explore est un benchmark qui évalue uniquement la phase de recherche de code des agents de codage : à partir d’une description de bug et d’un projet logiciel, l’agent doit renvoyer une liste ordonnée de sections de code pertinentes.

Quel problème l’étude met-elle en évidence ?

L’étude montre que des agents comme Claude Code ou Codex trouvent souvent le bon fichier mais manquent la plupart des lignes cruciales, ce qui limite la qualité des corrections même lorsque le fichier est correctement ciblé.

Sur quel type de données repose SWE-Explore ?

SWE-Explore s’appuie sur 848 problèmes tirés de 203 projets open source couvrant dix langages, dont 547 tâches en Python, complétés par des exemples en Go, JavaScript et Rust.

Comment les chercheurs identifient-ils les passages de code importants ?

Ils analysent plusieurs solutions réussies issues de modèles comme GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 ou Kimi K2.6 et repèrent les fichiers et lignes examinés ; les passages où convergent plusieurs trajectoires servent de signal de contexte utile.

Pourquoi la recherche par mots-clés est-elle jugée insuffisante ?

La recherche par mots-clés ne dépasse guère le hasard, car des termes de bug comme « RuntimeWarning on Overflow » apparaissent plus souvent dans des modèles et de la documentation que dans le code source, ce qui détourne les résultats des endroits réellement pertinents.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.