PaddleOCR 3.5 s’intègre à Transformers pour l’OCR et le parsing de documents

D'après Hugging Face (18 mai 2026 à 17h12)

Résumé

PaddleOCR 3.5 permet désormais d’exécuter des tâches d’OCR et de parsing de documents avec Transformers comme backend d’inférence dans l’écosystème Hugging Face. Les développeurs peuvent sélectionner le backend via le paramètre engine et tester un démonstrateur en ligne sur Hugging Face Spaces.

Les faits

PaddleOCR 3.5 est présenté comme une évolution qui rapproche les tâches d’OCR et de parsing de documents de l’écosystème Hugging Face. La nouveauté clé est la possibilité d’exécuter les modèles PaddleOCR avec Transformers comme backend d’inférence en définissant simplement le paramètre engine à « transformers ». Le projet continue de proposer des séries de modèles d’OCR comme PP-OCRv5 et des modèles de parsing de documents comme PaddleOCR-VL 1.5, tandis que Transformers devient l’un des backends pris en charge pour les faire tourner. Les développeurs peuvent choisir le backend via le paramètre engine et transmettre des options spécifiques au backend grâce à engine_config. Selon l’article, PaddleOCR 3.5 introduit « une interface de moteur d’inférence plus flexible » qui se concentre essentiellement sur la couche de backend d’inférence. PaddleOCR conserve les capacités d’OCR et de parsing documentaire, alors que Transformers offre une option de backend particulièrement adaptée aux environnements construits autour de Hugging Face. L’équipe insiste sur le fait que le workflow plus large de Document AI reste entre les mains des développeurs et des concepteurs d’applications. Un démonstrateur en ligne est disponible sur Hugging Face Spaces à l’adresse indiquée, et l’article rappelle que, pour des applications de RAG, de Document AI ou d’agents de documents, la partie la plus complexe commence souvent avant le LLM.

Pourquoi c’est important

Cette évolution ouvre la voie à une intégration plus fluide des modèles PaddleOCR dans des environnements où Transformers et l’écosystème Hugging Face sont déjà au cœur des workflows. La sélection du backend via un simple paramètre engine et la configuration fine via engine_config renforcent la flexibilité pour les équipes techniques. Pour les projets de RAG, de Document AI et d’agents de documents, l’article souligne que les défis majeurs se situent en amont du LLM, au niveau de l’extraction et de la structuration de l’information. En proposant un backend Transformers, PaddleOCR 3.5 vise précisément cette zone critique, tout en laissant aux développeurs la maîtrise de l’orchestration globale des workflows.

Questions fréquentes

Qu’apporte PaddleOCR 3.5 par rapport aux versions précédentes ?

PaddleOCR 3.5 introduit une interface de moteur d’inférence plus flexible et permet d’exécuter les modèles pris en charge avec Transformers comme backend en définissant engine="transformers".

Comment choisir le backend d’inférence dans PaddleOCR 3.5 ?

Les développeurs sélectionnent le backend via le paramètre engine et peuvent transmettre des options propres à ce backend grâce au paramètre engine_config.

Quels types de modèles restent proposés par PaddleOCR ?

PaddleOCR continue de fournir des séries de modèles d’OCR comme PP-OCRv5 et des modèles de parsing de documents comme PaddleOCR-VL 1.5.

Quel rôle joue Transformers dans cette nouvelle version ?

Transformers devient l’un des backends pris en charge pour exécuter les modèles PaddleOCR, en particulier dans des environnements centrés sur Hugging Face.

Un démonstrateur est-il disponible pour PaddleOCR 3.5 ?

Oui, un live demo est proposé sur Hugging Face Spaces à l’adresse https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo.

Source

Hugging Face

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.