Thousand Token Wood v2 : une économie d’agents IA hétérogènes mise en scène comme un drame financier
D'après Hugging Face (6 juin 2026 à 21h02)
Résumé
La v2 de Thousand Token Wood transforme un bac à sable expérimental en véritable jeu de finance interactive, où chaque créature est pilotée par un petit modèle d’IA différent. Le joueur y incarne un financier de l’ombre, manipule l’information et affronte un magistrat, tandis qu’une architecture technique protège l’asymétrie d’information et la stabilité de la simulation.
Les faits
La nouvelle version de Thousand Token Wood est présentée comme « un deuxième rapport de terrain du Build Small Hackathon » décrivant « ce qui se passe lorsque chaque agent d’une économie émergente fonctionne sur le petit modèle d’un laboratoire différent, et que le joueur devient le financier qui tire les ficelles ». Le billet rappelle que la première version était « un bac à sable de dieu de la météo » où « cinq créatures de la forêt sur un seul modèle affiné de 0,5B échangeaient des biens » et où l’utilisateur observait des bulles et des krachs émerger. La v2 « reconstruit » ce dispositif en un jeu que l’on « opère » : « Vous êtes le Protecteur du Bois, un financier de l’ombre : vous prêtez à intérêt, murmurez des tuyaux qui peuvent être vrais ou plantés, vendez à découvert, corrompez et négociez des alliances, tandis qu’un magistrat vous traque pour avoir négocié sur ce que vous ne devriez pas savoir. Les créatures se souviennent de la façon dont vous les avez traitées et intriguent en retour. » Le changement majeur se situe sous le capot : « chaque créature pense désormais avec le petit modèle d’un laboratoire différent ». L’article explique que la manière « évidente » de faire tourner un conseil d’agents est d’utiliser « un modèle, plusieurs prompts », mais que la v2 en exécute quatre : « gpt-oss-20b (OpenAI), MiniCPM3-4B (OpenBMB), Nemotron-Mini-4B (NVIDIA) et un Qwen 0.5B affiné par l’auteur ». L’objectif n’est pas la nouveauté pour la nouveauté : « Un marché est intéressant lorsque les participants diffèrent réellement », et ces quatre modèles, entraînés sur des données et post-traitements différents, produisent des comportements distincts au sein du conseil, décrit comme « un argumentaire vivant, pas un script ». Sur le plan technique, le billet insiste sur le fait que la friction se situe « presque entièrement au niveau de la couche de service, pas de la couche modèle ». Ce qui rend « quatre modèles hétérogènes » gérables est « la même primitive » que pour un seul modèle en v1 : « une couche tolérante d’analyse et de réparation JSON » par laquelle transitent toutes les sorties. Les « différents tokenizers et habitudes de formatage produisent différentes malformations » ; le parseur « jette ce qu’il ne peut pas récupérer et la simulation ne plante jamais ». Une fois cette couche construite, « ajouter un modèle devient une entrée de configuration, pas un refactoring ». Le cœur dramatique de la v2 repose sur le « tuyau d’initié ». Le joueur peut murmurer à une créature un tuyau « vrai » (une prévision réelle de la prochaine « mania de marché » que le paquet de cartes va tirer) ou « faux » (un appât). Agir sur un tuyau vrai et réaliser un profit « augmente votre chaleur » ; au-delà d’un seuil, le magistrat ouvre une enquête qui « se termine par une amende, un gel des actifs ou l’exil ». Pour que cette mécanique fonctionne, « la vérité d’un tuyau doit être cachée aux créatures » : elles ne voient que le texte de la rumeur et « ne doivent jamais voir le drapeau » qui indique sa véracité. L’auteur présente cette contrainte comme une « propriété de sécurité, pas un détail d’interface ». Comme « tout ce que le modèle peut répéter est ce que vous mettez dans son prompt », le drapeau caché « vit entièrement hors du prompt (sur le grand livre du joueur) », il est « retiré de l’enregistrement public de l’événement à la construction » et « la seule chose que le narrateur résume jamais est les événements publics ». Un test unique « scanne le prompt complet de chaque créature, à chaque tour, à la recherche de jetons interdits » et est décrit comme « le plus important de la suite de tests ». La règle posée est claire : « Lorsque vous donnez une information secrète à un agent, supposez qu’elle fuira à moins qu’un test ne prouve que c’est impossible. »
Pourquoi c’est important
Thousand Token Wood v2 illustre de manière concrète l’émergence d’écosystèmes d’agents IA hétérogènes, où la diversité des modèles devient le cœur du produit. En faisant tourner « quatre modèles de petits laboratoires différents » dans une même économie simulée, le projet montre que la valeur vient de comportements divergents, pas d’une homogénéité de génération. Cette expérience met également en lumière deux enjeux techniques centraux pour les systèmes multi-agents : la robustesse de la couche de service et la sécurité de l’asymétrie d’information. La mise en place d’un parseur JSON tolérant, capable de « réparer » les sorties de modèles variés, ainsi que d’un « pare-feu » strict pour les informations secrètes testées à chaque tour, offre un modèle de référence pour concevoir des simulations économiques et des jeux d’agents IA fondés sur de petits modèles, sans sacrifier ni la stabilité ni la crédibilité des règles du jeu.
Questions fréquentes
Qu’est-ce que Thousand Token Wood v2 ?
C’est une simulation ludique où chaque créature d’une économie émergente est contrôlée par un petit modèle d’IA différent, et où le joueur incarne un financier de l’ombre manipulant prêts, rumeurs et alliances.
Quels modèles d’IA sont utilisés dans la v2 ?
La v2 fait tourner quatre petits modèles : gpt-oss-20b (OpenAI), MiniCPM3-4B (OpenBMB), Nemotron-Mini-4B (NVIDIA) et un Qwen 0.5B affiné par l’auteur.
En quoi la v2 diffère-t-elle de la v1 ?
La v1 était un bac à sable d’observation, avec cinq créatures tournant sur un seul modèle affiné de 0,5B. La v2 devient un jeu opérable, centré sur un drame financier et des agents pensant chacun avec un modèle différent.
Comment l’asymétrie d’information est-elle protégée ?
La vérité d’un tuyau reste hors du prompt, stockée sur le grand livre du joueur, retirée des événements publics. Un test scanne chaque tour tous les prompts d’agents pour détecter les jetons interdits.
Pourquoi la couche de service est-elle clé dans ce projet ?
Parce que la principale difficulté vient des sorties hétérogènes des modèles. Un parseur JSON tolérant répare ces sorties, jette l’irrécupérable et empêche la simulation de planter, rendant l’ajout de modèles aussi simple qu’une configuration.
Source
Hugging FaceAuteur
Rédaction IA-MediasRédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.