Les IA quadruplent leur performance sur les missions freelance

D'après The Decoder (2 juillet 2026 à 14h37)

Résumé

Le Remote Labor Index montre que Fable 5 réalise désormais 16,1 % de missions freelance à qualité professionnelle, contre 2,5 % pour le meilleur agent il y a huit mois.

Les faits

Le Remote Labor Index (RLI) mesure à quelle fréquence des agents d’IA parviennent à terminer de vraies missions freelance payées avec une qualité jugée acceptable par un client. Le benchmark couvre des domaines comme la 3D et le CAD, l’architecture, le graphisme, la vidéo et l’animation, l’audio, l’analyse de données et les applications web. Il rassemble 240 projets représentant 144 000 dollars, issus de 358 freelances vérifiés. Les résultats sont évalués par des humains du Center for AI Safety, qui comparent chaque livraison à un « standard de référence » produit par un professionnel rémunéré. Le RLI a été développé en collaboration avec Scale Labs. La métrique centrale est le taux d’automatisation, c’est-à-dire la part de projets où le travail de l’IA est jugé au moins aussi bon que celui d’un humain. Lors du lancement du benchmark, le meilleur agent d’IA n’automatisait que 2,5 % des projets. Selon les dernières mesures, Fable 5 atteint désormais 16,1 %, le taux le plus élevé jamais enregistré, soit environ le double des 8,3 % d’Opus 4.8. GPT-5.5 se situe à 6,3 %. Tous trois dépassent les systèmes évalués auparavant, notamment l’ancien leader Opus 4.6 sur le framework Claude Cowork, à 4,17 %. Les auteurs soulignent que la frontière de performance a plus que quadruplé en moins de huit mois. Une précision toutefois pour Fable 5 : seuls 218 projets sur 240 ont pu être évalués avant que le gouvernement américain ne restreigne l’accès au modèle. Même dans l’hypothèse extrême où Fable 5 échouerait aux 22 missions restantes, son taux resterait à 14,6 %, au-dessus de tout autre modèle. Sur le tableau de bord complet de Scale Labs, les progrès ne suivent pas strictement les dates de sortie. Un modèle plus récent comme Gemini 3 Pro se retrouve ainsi près du bas du classement, avec seulement 1,25 % de projets automatisés, derrière des systèmes nettement plus anciens. Des exemples concrets montrent aussi les limites actuelles. Sur une mission de conception de bague, Fable 5 fait mieux que les précédents modèles mais le rendu demeure peu professionnel à l’examen détaillé. Sur un projet d’architecture, GPT-5.5 produit un rendu visuel séduisant via un générateur d’images, mais son modèle 3D reste défectueux. L’équipe a testé si une évaluation automatisée par IA pouvait remplacer le jugement humain. Le verdict est net : les « juges IA » attribuent des scores beaucoup trop généreux. Pour GPT-5.5, la note donnée par l’IA est presque trois fois trop élevée, et pour Opus 4.8, environ deux fois et demie. L’évaluateur automatisé respecte l’ordre de classement des modèles, mais les valeurs chiffrées sont largement surévaluées.

Pourquoi c’est important

Le Remote Labor Index fournit une mesure concrète de la capacité des agents d’IA à prendre en charge des missions freelance réelles à un niveau de qualité professionnelle. Le fait que le meilleur agent soit passé de 2,5 % à 16,1 % de projets automatisés en moins de huit mois montre une accélération rapide des performances sur des tâches créatives, techniques et analytiques. Cette progression met en lumière deux enjeux majeurs : d’une part, l’impact potentiel sur les métiers du freelancing dans des secteurs comme le design, l’architecture ou le développement web ; d’autre part, la nécessité de conserver des évaluations humaines rigoureuses, les juges IA s’avérant nettement trop indulgents. La combinaison de benchmarks structurés, d’exemples de défauts qualitatifs et de tests sur l’évaluation automatisée donne une image précise des capacités, mais aussi des limites, des agents d’IA actuels.

Questions fréquentes

Qu’est-ce que le Remote Labor Index ?

Le Remote Labor Index mesure la fréquence à laquelle des agents d’IA terminent des missions freelance payées avec une qualité acceptable pour un client.

Combien de projets sont inclus dans le benchmark RLI ?

Le RLI couvre 240 projets freelance, représentant un total de 144 000 dollars, issus de 358 freelances vérifiés.

Quel agent d’IA obtient le meilleur taux d’automatisation ?

Fable 5 affiche le meilleur taux avec 16,1 % de projets automatisés à qualité professionnelle, le score le plus élevé enregistré à ce jour.

Comment les résultats des agents d’IA sont-ils évalués ?

Des évaluateurs humains du Center for AI Safety comparent chaque résultat à un standard de référence produit par un professionnel rémunéré.

Les juges IA peuvent-ils remplacer l’évaluation humaine ?

Les tests montrent que les juges IA surestiment fortement les scores, jusqu’à presque trois fois pour GPT-5.5 ; ils ne remplacent pas les évaluateurs humains.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.