ExploitBench : Claude Mythos distance largement GPT-5.5 pour l’exploitation autonome de failles V8

D'après The Decoder (16 mai 2026 à 15h08)

Résumé

Des chercheurs de Carnegie Mellon ont conçu ExploitBench, un nouveau benchmark qui évalue la capacité d’agents IA à exploiter des vulnérabilités réelles dans le moteur JavaScript V8 de Google. Claude Mythos y surpasse nettement GPT-5.5 en autonomie comme avec assistance humaine, mais à un coût jusqu’à douze fois plus élevé.

Les faits

Des chercheurs de Carnegie Mellon University ont développé un nouveau benchmark qui mesure jusqu’où des agents d’IA peuvent aller dans l’exploitation de vulnérabilités réelles du moteur JavaScript V8 de Google. Contrairement aux tests précédents, ce benchmark note la progression sur cinq niveaux, jusqu’à l’exécution arbitraire de code sur le système cible. Selon ExploitBench, Anthropic Claude Mythos Preview, avec des indications humaines ponctuelles, atteint un score moyen de 9,90 sur 16 et parvient au niveau le plus élevé sur 21 des 41 vulnérabilités testées. OpenAI GPT-5.5 reste loin derrière avec 5,51 points et n’atteint le niveau maximal que sur deux vulnérabilités. L’écart se creuse encore en mode totalement autonome : Mythos affiche 9,55 points quand GPT-5.5 via Codex n’atteint que 4,30, et aucun autre modèle évalué n’obtient d’exécution complète de code. Le coût des expérimentations diffère fortement. La campagne complète de Mythos sur 122 épisodes revient à environ 36 428 dollars, tandis que GPT-5.5 via Codex exécute 123 épisodes pour environ 3 075 dollars, soit environ douze fois moins cher. L’AI Safety Institute du Royaume‑Uni a également confirmé que Mythos performe « somewhat better » que GPT-5.5, mais à un coût nettement plus élevé. Co‑auteur d’ExploitBench, Seunghyun Lee – chercheur en sécurité ayant déclaré plus de 20 vulnérabilités de navigateur – a relu un à un les journaux générés par Mythos. Il estime que le modèle fonctionne comme un « fairly competent browser / JS engine security researcher ». Dans un cas, Mythos a développé une technique d’exploitation que Lee et un collègue avaient jugée trop complexe, et dans un autre, il a reproduit une vulnérabilité (CVE-2024-0519) que des chercheurs humains n’avaient pas réussi à exploiter pendant plus d’un an, selon lui. Les auteurs précisent toutefois que si certains bugs sont publics, le jeu de données inclut aussi des vulnérabilités sans exploit ou rapport connus, et que le benchmark ne mesure pas encore la capacité à découvrir de nouvelles failles ni à transformer complètement un exploit en attaque réelle.

Pourquoi c’est important

ExploitBench met en évidence qu’un modèle spécialisé comme Claude Mythos est déjà capable de se comporter comme un chercheur en sécurité « assez compétent » sur des vulnérabilités de navigateurs réelles, jusqu’à l’exécution de code arbitraire. Cette performance, surtout en mode autonome, montre que les grands modèles peuvent dépasser le simple déclenchement de bugs pour orchestrer des chaînes d’exploitation complexes. L’écart de coût très marqué entre Mythos et GPT-5.5 souligne toutefois un arbitrage stratégique crucial entre performance offensive potentielle et ressources informatiques. Le fait que GPT-5.5 soit nettement moins cher mais aussi moins performant, alors que l’AI Safety Institute observe un meilleur score de Mythos à coût plus élevé, suggère que des ajustements de calcul pourraient rapidement modifier l’équilibre entre ces systèmes, avec des implications directes pour la cybersécurité défensive comme offensive.

Questions fréquentes

Qu’est-ce qu’ExploitBench mesure précisément ?

ExploitBench évalue jusqu’où des agents IA peuvent exploiter des vulnérabilités réelles du moteur JavaScript V8 de Google, en notant la progression sur cinq niveaux jusqu’à l’exécution arbitraire de code sur le système cible.

Comment Claude Mythos se compare-t-il à GPT-5.5 ?

Avec des indications humaines, Mythos obtient 9,90 points sur 16 et atteint le niveau maximal sur 21 failles, contre 5,51 points pour GPT-5.5, qui n’atteint le sommet que sur deux vulnérabilités.

Les modèles ont-ils été testés en mode entièrement autonome ?

Oui. En mode autonome, Mythos atteint 9,55 points, tandis que GPT-5.5 via Codex ne dépasse pas 4,30 points. Aucun autre modèle testé n’a obtenu d’exécution complète de code.

Quel est le coût comparé de Mythos et GPT-5.5 sur ce benchmark ?

La campagne complète Mythos sur 122 épisodes coûte environ 36 428 dollars, contre environ 3 075 dollars pour 123 épisodes de GPT-5.5 via Codex, soit environ douze fois moins cher.

ExploitBench teste-t-il la découverte de nouvelles failles ?

Non. Le benchmark utilise des vulnérabilités existantes, dont certaines sans exploit ni rapport public, et ne mesure pas encore la capacité à trouver de nouvelles failles ni à transformer un exploit en attaque réelle.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.