Hugging Face simplifie le déploiement de serveurs vLLM
D'après Hugging Face (26 juin 2026 à 02h00)
Résumé
Hugging Face propose de lancer un serveur vLLM compatible OpenAI sur son infrastructure en une simple commande HF Jobs, sans provisionner de serveurs et avec facturation à la minute.
Les faits
Hugging Face présente une méthode pour « mettre en place un point de terminaison LLM privé, compatible avec OpenAI, sur l’infrastructure Hugging Face avec une seule commande — sans serveurs à provisionner, sans Kubernetes, facturation à la seconde ». La solution repose sur HF Jobs, décrite comme « docker run pour l’infrastructure HF », avec une facturation « par minute en fonction de l’utilisation matérielle » et des prérequis clairs : disposer d’un moyen de paiement ou d’un crédit prépayé positif, installer « huggingface_hub >= 1.20.0 » via pip, puis se connecter localement avec « hf auth login ». L’article détaille une commande unique pour lancer le serveur vLLM : « hf jobs run --flavor a10g-large --expose 8000 -- timeout 2h \ vllm/vllm-openai:latest \ vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000 », en expliquant que « --expose 8000 » achemine le port du conteneur via le proxy public HF Jobs. La commande retourne un identifiant de job et une URL de suivi, ainsi qu’un rappel : « Les ports exposés sont accessibles à (nécessite un jeton HF avec accès en lecture au job) : https://6a381ca1953ed90bfb947332--8000.hf.jobs ». Une fois le serveur lancé, vLLM « parle l’API OpenAI » et chaque requête n’a besoin que du jeton Hugging Face en tant que jeton bearer. L’exemple de l’article montre qu’il est ensuite possible de le interroger « depuis votre ordinateur portable, un notebook, ou n’importe où ailleurs », avec une simple requête curl vers l’URL du job, ce qui en fait « la façon la plus rapide de mettre un modèle en place pour des tests, des évaluations ou de la génération en batch ».
Pourquoi c’est important
Cette approche abaisse nettement la barrière technique à l’expérimentation de grands modèles de langage sur une infrastructure dédiée. En proposant un serveur vLLM compatible OpenAI lancé en une seule commande, Hugging Face facilite le travail des développeurs et des équipes data qui souhaitent tester des modèles, réaliser des évaluations ou lancer des générations en batch sans déployer ni maintenir des clusters Kubernetes. La facturation à la minute et la possibilité d’exposer un port via le proxy public HF Jobs permettent de créer des points de terminaison temporaires et privés, adaptés aux cas d’usage ponctuels ou aux phases de prototypage. En réservant les Inference Endpoints aux services managés prêts pour la production, Hugging Face clarifie le positionnement de HF Jobs comme outil d’expérimentation agile pour l’écosystème LLM.
Questions fréquentes
Que permet HF Jobs avec vLLM ?
HF Jobs permet de lancer un serveur vLLM privé, compatible API OpenAI, sur l’infrastructure Hugging Face avec une seule commande, sans provisionner de serveurs.
Quels sont les prérequis pour utiliser HF Jobs ?
Il faut un moyen de paiement ou un crédit prépayé positif, installer huggingface_hub >= 1.20.0 et se connecter localement avec « hf auth login ».
À quoi sert l’option --expose dans hf jobs run ?
L’option « --expose 8000 » achemine le port du conteneur via le proxy public HF Jobs et rend le serveur accessible via une URL de type <job_id>--8000.hf.jobs.
Comment est facturé HF Jobs ?
HF Jobs est facturé par minute en fonction de l’usage matériel, ce qui permet de payer uniquement pour la durée effective d’exécution du job.
Dans quels cas privilégier HF Jobs plutôt que Inference Endpoints ?
HF Jobs est présenté comme la solution la plus rapide pour des tests, des évaluations ou de la génération en batch, tandis que les Inference Endpoints visent les services managés prêts pour la production.
Source
Hugging FaceAuteur
Rédaction IA-MediasRédaction spécialisée dans la veille et l'analyse de l'actualité de l'intelligence artificielle, des puces IA, des robots, des agents IA et de la recherche.