Cloudflare dévoile une architecture de référence pour scaler les déploiements MCP en entreprise

InfoQ — 2026-04-22T07:38:00+00:00

Résumé

Cloudflare présente une architecture de référence pour le Model Context Protocol (MCP), axée sur une gouvernance centralisée, des serveurs distants et un mode Code réduisant la consommation de tokens jusqu'à 99,9 %. Cette approche facilite le déploiement à grande échelle des agents IA en production.

Les faits

Cloudflare a publié une architecture de référence pour scaler les déploiements du Model Context Protocol (MCP) dans les entreprises. Cette solution met l'accent sur une gouvernance centralisée, une infrastructure de serveurs distants hébergés sur sa plateforme de développement, et des mécanismes de contrôle des coûts. Les portails de serveurs MCP offrent une interface unifiée pour découvrir et accéder aux serveurs autorisés, tout en permettant aux administrateurs d'appliquer des politiques de sécurité. L'authentification repose sur Cloudflare Access, qui intègre l'authentification unique (SSO), l'authentification multifacteur (MFA) et des signaux contextuels comme la posture des appareils ou la localisation. Pour maîtriser les coûts, un AI Gateway est positionné entre les clients MCP et les modèles de langage sous-jacents. Celui-ci permet de router les requêtes vers différents fournisseurs de modèles, d'imposer des limites d'usage et de surveiller la consommation de tokens au niveau utilisateur. Cloudflare introduit également le mode Code, qui simplifie les définitions d'outils MCP en les condensant en un petit ensemble de points d'entrée dynamiques. Les modèles peuvent ainsi découvrir et invoquer les outils à la demande, réduisant la consommation de tokens jusqu'à 99,9 % et atténuant les limitations des fenêtres de contexte. Cette architecture positionne Cloudflare comme un acteur clé pour des systèmes d'agents IA prêts pour la production, en évitant les déploiements locaux fragmentés au profit d'une gestion centralisée par une équipe dédiée.

Pourquoi c’est important

Cette annonce de Cloudflare intervient à un moment critique où les entreprises cherchent à passer des prototypes d'agents IA à des déploiements massifs en production. En proposant une gouvernance centralisée et des outils comme l'AI Gateway et le mode Code, Cloudflare résout des défis majeurs : la sécurité, les coûts exorbitants liés aux tokens et la complexité des interfaces d'outils. Cela démocratise l'adoption du MCP, un protocole émergent qui standardise les interactions entre agents IA et ressources externes, favorisant ainsi l'émergence d'écosystèmes d'agents interconnectés. Sur le plan stratégique, cette architecture renforce la position de Cloudflare dans l'infrastructure IA, en monétisant sa plateforme edge pour les déploiements d'agents. Elle anticipe une explosion des usages d'agents autonomes en entreprise, où la scalabilité et la conformité deviennent des priorités. Parallèlement, elle soulève des enjeux de sécurité, comme l'élargissement de la surface d'attaque potentielle des serveurs MCP, incitant les organisations à adopter des pratiques rigoureuses de contrôle d'accès.

Questions fréquentes

Qu'est-ce que le Model Context Protocol (MCP) ?

Le MCP est un protocole standardisant les interactions entre agents IA et serveurs d'outils, facilitant la découverte et l'invocation dynamique de fonctions externes.

Quelle réduction de tokens offre le mode Code de Cloudflare ?

Le mode Code réduit la consommation de tokens jusqu'à 99,9 % en condensant les interfaces d'outils en points d'entrée dynamiques.

Comment Cloudflare gère-t-il l'authentification dans cette architecture ?

Via Cloudflare Access, intégrant SSO, MFA et signaux contextuels comme la localisation et la posture des appareils.

Quel rôle joue l'AI Gateway ?

Il route les requêtes vers divers fournisseurs de modèles, impose des limites d'usage et surveille la consommation de tokens par utilisateur.

Où sont déployés les serveurs MCP selon Cloudflare ?

Sur la plateforme de développement Cloudflare, gérés de manière centralisée par une équipe dédiée, et non localement.

Source

InfoQ

Auteur

Rédaction IA-Medias

Rédaction spécialisée dans la veille et l’analyse de l’actualité de l’intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.