Baidu réinvente la mémoire de l'OCR pour des documents illimités
D'après The Decoder (5 juillet 2026 à 17h25)
Résumé
Baidu présente Unlimited OCR, un modèle capable de lire des dizaines de pages en un seul passage grâce à un mécanisme d’attention repensé maintenant la mémoire et la vitesse constantes.
Les faits
Les chercheurs de Baidu ont développé un modèle d’OCR baptisé Unlimited OCR, conçu pour traiter des dizaines de pages de documents en une seule passe d’inférence, là où les systèmes précédents se limitaient à environ dix pages. Selon leur rapport technique, aucun modèle d’OCR existant ne gère plus d’une dizaine de pages en un seul passage, en raison d’un goulot d’étranglement lié au cache KV, ce tampon où un modèle de langage stocke les jetons déjà traités pour les réutiliser lors de la génération. Unlimited OCR s’appuie sur un mécanisme d’attention repensé qui maintient l’usage de la mémoire et la vitesse de traitement constantes, quel que soit le nombre de pages parcourues, permettant ainsi de lire en continu de longs documents. Baidu explique que ce modèle occupe actuellement « la première place sur le benchmark OCR le plus important » et qu’il s’inspire d’une analogie humaine : une personne qui recopie un livre garde les yeux sur la source, les derniers caractères écrits et le suivant à écrire, tandis que les passages plus anciens s’estompent via une forme d’oubli doux que les chercheurs cherchent à reproduire.
Pourquoi c’est important
Le modèle Unlimited OCR de Baidu marque une avancée notable dans la reconnaissance de documents longue, en résolvant le problème central du cache KV dont la taille augmente avec chaque nouveau jeton, ce qui alourdit la mémoire et ralentit la génération. En maintenant mémoire et vitesse constantes, il ouvre la voie à un traitement continu de documents volumineux en environnement réel. En se hissant en tête du « benchmark OCR le plus important », Unlimited OCR positionne Baidu comme un acteur de premier plan sur l’OCR longue portée. L’analogie avec l’« oubli doux » humain illustre un changement de paradigme : au lieu de tout mémoriser, le modèle se concentre sur les informations réellement utiles au fil de la lecture, ce qui pourrait inspirer de nouvelles architectures pour d’autres tâches de traitement séquentiel.
Questions fréquentes
Qu’est-ce que Unlimited OCR de Baidu ?
Unlimited OCR est un modèle d’OCR qui lit des dizaines de pages de documents en une seule passe d’inférence, sans augmentation de mémoire ni perte de vitesse.
Quel est le principal problème adressé par Unlimited OCR ?
Le modèle s’attaque au goulot d’étranglement du cache KV, un tampon où les modèles stockent les jetons précédents et qui gonfle avec la longueur du texte.
Comment Unlimited OCR maintient-il la mémoire constante ?
Il utilise un mécanisme d’attention repensé qui permet de garder l’usage de la mémoire et la vitesse de traitement constants, quel que soit le nombre de pages.
Quelle performance revendique Baidu pour Unlimited OCR ?
Baidu indique qu’Unlimited OCR occupe la première place sur le benchmark OCR considéré comme le plus important par les chercheurs.
Quel est le principe d’« oubli doux » évoqué par Baidu ?
Les chercheurs comparent le modèle à une personne recopiant un livre, qui laisse les passages anciens s’estomper au profit des caractères en cours de copie.
Source
The DecoderAuteur
Rédaction IA-MediasRédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.