Dharma-AI utilise le Direct Preference Optimization pour réduire massivement la dégénérescence de texte au‑delà des chatbots
D'après Hugging Face (3 juin 2026 à 14h55)
Résumé
Dharma-AI montre que le Direct Preference Optimization (DPO), jusqu’ici surtout appliqué à l’alignement conversationnel, peut servir à atténuer directement un mode de défaillance objectif : la dégénérescence de texte en OCR. Après un SFT classique, une seconde étape DPO réduit en moyenne ce phénomène de 59,4 %, avec un pic à 87,6 %.
Les faits
Dharma-AI détaille sur le blog de Hugging Face comment l’équipe a appliqué le Direct Preference Optimization (DPO) à un cas d’usage non conversationnel : l’OCR structuré sur du texte brésilien portugais. Le billet rappelle qu’en avril, Dharma-AI a lancé DharmaOCR sur Hugging Face avec un article décrivant sa méthodologie et « un benchmark démontrant sa qualité supérieure et son efficacité en termes de coûts ». Ce benchmark évaluait plusieurs familles de modèles vision‑langage, open source comme commerciaux, sur une tâche d’extraction structurée de documents, en particulier l’OCR. Parmi les métriques suivies figurait le taux de dégénérescence de texte, défini comme « la fréquence à laquelle un modèle produit une boucle de répétition au lieu d’une transcription ». Les taux de dégénérescence observés pour les familles open source variaient « de moins de 1 % à plus de 33 % ». Le billet précise que le fine‑tuning supervisé (SFT) a permis de réduire ces taux pour la plupart des modèles, « mais rarement à des niveaux acceptables en production ». Les auteurs en concluent que le SFT présente une limite structurelle : il « optimise les sorties correctes, mais ne pénalise pas explicitement la dégénérescence ». Pour tester une approche alternative, Dharma-AI a ajouté une deuxième étape d’entraînement, appliquée « après le fine‑tuning supervisé (SFT), sur les mêmes documents et avec le même modèle », en recourant au DPO. Résultat : cette phase supplémentaire « a réduit la dégénérescence de texte dans toutes les familles testées. Sans exception. Réduction moyenne : 59,4 %. Meilleur cas : 87,6 %. » L’exemple le plus spectaculaire concerne « Nanonets-OCR2–3B », dont le taux de dégénérescence passe de 1,61 % à 0,20 %. Le billet insiste sur le fait que, contrairement aux usages dominants du DPO axés sur l’alignement de modèles de chat à partir de jugements humains subjectifs, la tâche d’OCR « ne porte aucune part de subjectivité » et ne comporte « aucun contexte conversationnel ». Il existe cependant un signal de préférence clair : « une transcription correcte est choisie ; une boucle dégénérée est rejetée ». DharmaOCR construit ainsi un jeu d’entraînement DPO à partir d’un binaire acceptation/rejet des sorties, en utilisant « les sorties produites par le modèle lorsqu’il échoue » comme source du signal. Sur le plan mécanique, les auteurs avancent une explication à la persistance des boucles de répétition malgré le SFT. Ils évoquent une hypothèse dominante liée à la « granularité de la perte ». Le SFT entraîne le modèle « token par token », chaque prédiction étant évaluée isolément, de sorte qu’une boucle de répétition n’est jamais pénalisée comme échec au niveau de la complétion. À l’inverse, le DPO « inverse cette logique » en prenant la sortie complète – acceptée ou rejetée – comme signal : une complétion dégénérée peut alors être « explicitement étiquetée comme le mauvais résultat », plutôt qu’une simple séquence de tokens localement probables. Le texte replace enfin la dégénérescence dans une perspective de « géométrie » de la distribution. Lorsque l’objectif d’entraînement maximise la probabilité de séquences observées, il concentre la masse de probabilité dans certaines régions de l’espace de distribution. Si un modèle entre dans l’une de ces « régions d’attraction à haute probabilité » en inférence, il assigne une probabilité élevée au même token à l’étape suivante, ce qui renforce encore la probabilité et prolonge la boucle « jusqu’à ce que la séquence atteigne la limite maximale de tokens ». La dégénérescence de texte est décrite comme « la sortie de cette géométrie : une boucle de répétition auto‑renforcée qu’un modèle autoregressif ne peut pas quitter sans intervention externe », et non comme un simple artefact de décodage.
Pourquoi c’est important
Cette expérimentation montre que le DPO peut devenir un outil de mitigation ciblée de modes de défaillance précis, bien au‑delà de l’alignement subjectif des chatbots. En transformant les échecs du modèle – ici les boucles de répétition – en signal d’entraînement binaire, Dharma-AI démontre qu’il est possible d’attaquer directement une faiblesse systémique tout en gardant la même base de données et le même modèle. L’analyse proposée par les auteurs sur la « géométrie » de la dégénérescence et la « granularité de la perte » pose un cadre conceptuel plus large pour comprendre les limites du SFT classique. En reliant la structure de l’objectif d’entraînement, la distribution apprise et le comportement en inférence, l’article suggère que des approches par préférences, comme le DPO, peuvent jouer un rôle clé dans la réduction de boucles auto‑renforcées, non seulement en OCR mais potentiellement dans d’autres tâches où la dégénérescence de texte menace la fiabilité.
Questions fréquentes
Quel problème Dharma-AI cherche-t-il à résoudre avec le DPO ?
Dharma-AI vise à réduire la dégénérescence de texte, lorsque le modèle produit une boucle de répétition au lieu d’une transcription correcte en OCR.
Quels niveaux de dégénérescence ont été observés avant le DPO ?
Pour les familles de modèles open source testées, les taux de dégénérescence allaient de moins de 1 % à plus de 33 %, même après fine-tuning supervisé.
Quel gain le DPO apporte-t-il par rapport au SFT ?
Une deuxième étape d’entraînement par DPO, après le SFT, a réduit la dégénérescence de texte dans toutes les familles de modèles testées, avec une réduction moyenne de 59,4 % et un meilleur cas à 87,6 %.
Comment le signal de préférence est-il défini dans cette approche OCR ?
Le signal repose sur un binaire simple : une transcription correcte est acceptée, une boucle dégénérée est rejetée, à partir des sorties du modèle lorsqu’il échoue.
Pourquoi le SFT seul ne suffit-il pas à supprimer les boucles de répétition ?
Selon les auteurs, le SFT évalue les prédictions token par token et ne traite pas la boucle comme un échec de complétion globale, alors que le DPO opère au niveau de la sortie entière acceptée ou rejetée.
Source
Hugging FaceAuteur
Rédaction IA-MediasRédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.