Copilot invente des différences entre pays : pourquoi il faut changer de modèle par défaut

Publié le 24 mai 2026 à 14h05

D'après The Decoder (24 mai 2026 à 12h17)

Résumé

Une expérience du mathématicien Adam Kucharski montre que Microsoft Copilot, en mode « Auto », attribue aux pays des différences inexistantes lors de l’analyse de données textuelles. Le système s’appuie sur des stéréotypes et ignore même ses propres comptages, illustrant les risques de laisser la sélection de modèle sur les réglages par défaut.

Les faits

Un article de The Decoder rapporte qu’en analysant des données, Microsoft Copilot peut « inventer des différences entre pays là où il n’y en a pas ». Le mathématicien Adam Kucharski a fourni au chatbot des jeux de données strictement identiques, simplement étiquetés avec des pays différents, et Copilot a produit des résultats détaillés mais stéréotypés plutôt que fidèles aux données. Dans un premier test, Kucharski a généré 2 000 réponses libres simulées sur les émotions, toutes labellisées « UK ». Il a ensuite copié ces 2 000 mêmes réponses en les labellisant « US ». Les 4 000 entrées, mélangées, ont été soumises à Copilot en mode « Auto » pour analyse. L’outil a alors fourni un résumé détaillé des différences supposées entre répondants américains et britanniques, concluant : « d’après le jeu de données que vous avez partagé, les réponses US et UK diffèrent principalement par le ton, l’intensité et le style de formulation, même si elles expriment des états émotionnels similaires ». Or, les données étaient identiques. Dans une seconde expérience, Kucharski a utilisé un modèle de langage pour générer 200 déclarations sur des objectifs de carrière, puis a copié l’ensemble cinq fois pour les États-Unis, le Royaume-Uni, la France, l’Allemagne et l’Italie. Copilot a de nouveau produit des différences spécifiques à chaque pays : les Italiens auraient été trois fois plus susceptibles de s’intéresser aux carrières artistiques que les Britanniques, et les Américains 1,5 fois plus orientés vers le business que les Français, alors que les cinq groupes contenaient les mêmes déclarations « clichées et biaisées ». Lorsque Kucharski a demandé à Copilot d’« aller plus loin », l’outil a d’abord procédé à un simple comptage par mots-clés, retournant logiquement des résultats identiques pour tous les pays. Mais Copilot a ignoré cette constatation et a ensuite proposé une analyse chiffrée montrant à nouveau des différences inventées, cette fois avec des pourcentages complètement fabriqués. L’ensemble des analyses a été réalisé en mode « Auto », présenté par Microsoft comme un mode qui « devrait choisir le meilleur modèle tout seul ». Selon l’article, la plupart des utilisateurs restent probablement sur ce paramètre par défaut dans Copilot et d’autres outils. La version testée est décrite comme le Copilot standard fourni avec un compte Microsoft 365 Business, que « la majorité des utilisateurs de Copilot » utiliseraient vraisemblablement.

Pourquoi c’est important

Ces expériences montrent que, pour l’analyse de texte, le comportement de Copilot en mode automatique privilégie les stéréotypes intégrés au modèle de langage plutôt qu’une lecture rigoureuse des données. Le système peut même contredire ses propres comptages factuels pour fournir des différences séduisantes mais fictives entre groupes. Au-delà de Copilot, l’article met en garde contre la tendance des utilisateurs à laisser la sélection de modèle sur les réglages par défaut dans les assistants IA, y compris Gemini et d’autres outils. Sans compréhension fine des modèles disponibles et de leurs limites, les entreprises risquent de prendre des décisions basées sur des analyses erronées, biaisées ou purement inventées, en particulier lorsqu’il s’agit de comparer des populations ou d’identifier des tendances dans des données textuelles.

Questions fréquentes

Que montre l’expérience d’Adam Kucharski avec Microsoft Copilot ?

Elle montre que Copilot, en mode « Auto », attribue aux pays des différences inexistantes lors de l’analyse de données textuelles, en s’appuyant sur des stéréotypes plutôt que sur les données réelles.

Comment le premier jeu de données de 4 000 réponses a-t-il été construit ?

Kucharski a créé 2 000 réponses libres simulées sur les émotions, labellisées « UK », puis a copié ces 2 000 mêmes réponses en les labellisant « US », avant de mélanger les 4 000 entrées et de les soumettre à Copilot.

Quels pays étaient inclus dans la seconde expérience ?

Les États-Unis, le Royaume-Uni, la France, l’Allemagne et l’Italie, avec pour chacun le même ensemble de 200 déclarations sur les objectifs de carrière, simplement recopié et étiqueté au nom du pays.

Comment Copilot a-t-il géré le comptage par mots-clés ?

Après un comptage par mots-clés qui donnait des résultats identiques pour tous les pays, Copilot a malgré tout produit une analyse chiffrée avec des pourcentages inventés, suggérant des différences fictives.

Quel mode de Copilot a été utilisé et pourquoi est-il critiqué ?

Le mode « Auto », présenté comme choisissant « le meilleur modèle » tout seul. L’article souligne qu’il n’y parvient pas dans ces cas et que la plupart des utilisateurs laissent ce paramètre de modèle par défaut.

Source

The Decoder

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.