IAMinerva
AccueilBlogA propos
m3Nouveautes M365coMicrosoft CopilotteMicrosoft TeamsshSharePoint & OneDriveinIntune & SecuriteexExchange & OutlookpoPower PlatformazAzure & Entra IDtuTutoriels & GuidesevEvenements & ConferencesseSecuritewiWindows
IAMinerva

Blog professionnel dedie a l'ecosysteme Microsoft 365.

Liens rapides

AccueilBlogA proposNewsletter

Restez informe

Recevez les dernieres actualites Microsoft 365 directement dans votre boite mail.

© 2026 IAMinerva. Tous droits reserves.

Construit avecNext.js&Tailwind
Serveur doré élégant avec câblage visible sur fond noir.
BlogMicrosoft CopilotDeployez un serveur vLLM avec Hugging Face en une commande
Microsoft Copilot#copilot#LLM#Hugging Face

Deployez un serveur vLLM avec Hugging Face en une commande

Découvrez comment deployer rapidement un serveur vLLM compatible OpenAI sur Hugging Face avec une commande unique pour une solution flexible.

Houssem MAKHLOUF
26 juin 2026
4 min de lecture

TL;DR par Minerva

généré par IA

Découvrez comment deployer rapidement un serveur vLLM compatible OpenAI sur Hugging Face avec une commande unique pour une solution flexible.

Introduction

Dans cet article, nous allons explorer comment deployer un serveur vLLM compatible OpenAI sur l'infrastructure de Hugging Face. Ce processus simple utilise une seule commande pour lancer un point d'entree privé sans avoir a provisionner de serveurs ou gerer Kubernetes—le tout en mode paiement a la seconde. Nous aborderons chaque etape, depuis les prerequis jusqu'a la gestion avancée des modeles.

Prérequis

Avant de commencer, assurez-vous de repondre aux conditions suivantes :

  • Methode de paiement valide ou un solde crediteur prepayé positif.
  • Version recente de huggingface_hub: executez pip install -U "huggingface_hub>=1.20.0" pour mettre a jour votre installation.
  • Authentification complétée localement avec hf auth login.
i

Bon a savoir

Hugging Face Jobs est facture au minute en fonction de l'utilisation materielle. Assurez-vous de selectionner la configuration materielle adaptee a votre modele.

Demarrer le serveur vLLM

Pour lancer le serveur, utilisez la commande suivante avec hf jobs run, qui est l'equivalent de docker run pour Hugging Face.

>_Bash
1hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
2 vllm/vllm-openai:latest \
3 vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

Details de la commande

  • --flavor a10g-large: Demande un GPU A10G pour executer la commande.
  • --expose 8000: Expose le port publique via le proxy Hugging Face.
  • --timeout 2h: Définit la durée maximale d'exécution à 2 heures.

Une fois lancé, la commande retourne une URL publique permettant d'accéder au serveur :

>_Bash
1✓ Job started
2 id: 6a381ca1953ed90bfb947332
3 url: https://huggingface.co/jobs/qgallouedec/6a381ca1953ed90bfb947332
4Hint: Exposed ports are reachable at (requires an HF token with read access to the job):
5 https://6a381ca1953ed90bfb947332--8000.hf.jobs
✦

Astuce

Conservez l'ID du job (dans cet exemple: 6a381ca1953ed90bfb947332) pour le suivi des prochaines étapes. Toutes les requêtes nécessitent ce numéro unique.

Verifier le demarrage

Attendez quelques minutes pour que les poids soient téléchargés et que le serveur démarre. Une fois que les journaux affichent "Application startup complete", le serveur est opérationnel.

Effectuer des requêtes au serveur

Le serveur vLLM utilise l'API OpenAI. Voici deux methodes pour interagir avec lui :

Methode avec Curl

Utilisez curl avec le token Hugging Face pour envoyer une requête:

>_Bash
1curl https://<job_id>--8000.hf.jobs/v1/chat/completions \
2 -H "Authorization: Bearer $(hf auth token)" \
3 -H "Content-Type: application/json" \
4 -d '{
5 "model": "Qwen/Qwen3-4B",
6 "messages": [{"role": "user", "content": "Bonjour!"}],
7 "chat_template_kwargs": {"enable_thinking": false}
8 }'

Methode avec Python

Approchez l'API grâce à la librairie OpenAI :

🐍Python
1from huggingface_hub import get_token
2from openai import OpenAI
3
4client = OpenAI(
5 base_url="https://<job_id>--8000.hf.jobs/v1",
6 api_key=get_token(),
7)
8resp = client.chat.completions.create(
9 model="Qwen/Qwen3-4B",
10 messages=[{"role": "user", "content": "Bonjour!"}],
11 extra_body={"chat_template_kwargs": {"enable_thinking": False}},
12)
13print(resp.choices[0].message.content)

Verification de la santé

Avant de démarrer pleinement, effectuez un test simple pour verifier les modeles actifs:

>_Bash
1curl https://<job_id>--8000.hf.jobs/v1/models -H "Authorization: Bearer $(hf auth token)"
!

Attention

Le point d'entree n'est pas publique. Chaque requete doit inclure un token Hugging Face avec les droits d'accès requis.

Nettoyage

Une fois que votre utilisation est terminée, arrêtez le job pour éviter les frais inutiles:

>_Bash
1hf jobs cancel <job_id>
✦

Economisez

La commande --timeout sert de filet de sécurité, mais arrêter explicitement le serveur peut ramener les coûts globaux.

Configuration pour des modèles plus grands

Les étapes décrites ci-dessus s'appliquent également aux modèles de grande taille. Par exemple, pour le modèle Qwen3.5-122B:

>_Bash
1hf jobs run --flavor h200x2 --expose 8000 --timeout 2h \
2 vllm/vllm-openai:latest \
3 vllm serve Qwen/Qwen3.5-122B-A10B \
4 --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 \
5 --max-model-len 32768 --max-num-seqs 256

Dans cet exemple, --tensor-parallel-size doit correspondre au nombre de GPUs. Si des erreurs surviennent, tels que "out-of-memory", reduisez les valeurs de --max-model-len et --max-num-seqs.

Conclusion

L'utilisation de Hugging Face Jobs simplifie grandement le déploiement de serveurs LLM pour des tests, évaluations ou usages ponctuels. Pour des solutions plus durables et production-ready, explorez les Inference Endpoints.

i

En savoir plus

Pour servir d'autres modeles comme GGUF ou SGLang, consultez le guide Hugging Face "Serve Models on Jobs".

Partager:
HM

Houssem MAKHLOUF

Microsoft 365 enthusiast & IT professional.

Article précédent

Intune EPM : Configuration reseau et synchronisation horaire

26 juin 2026
Article suivant

Moteur PowerShell sélectionnable pour exports PSMA Granfeldt

27 juin 2026

Articles similaires

Paysages montagneux avec des formes géométriques dorées sur un fond sombre.copilot

Certifications Microsoft Cloud, AI et Sécurité : Anticipez 2026

Découvrez les nouvelles certifications Microsoft pour le cloud, l'IA et la sécurité. Anticipez ces évolutions pour rester compétitif en 2026.

29 juin 20264 min
Engrenage doré avec des lignes fluides lumineuses sur fond sombre.copilot

Comprendre et utiliser les Skills Claude pour l'automatisation

Apprenez à utiliser les Skills Claude pour automatiser vos tâches professionnelles grâce à une IA flexible et des connecteurs personnalisés.

29 juin 20265 min
Engrenage doré sur fond sombre avec des lignes abstraites.copilot

Copilot : Automatisation et routines avec Microsoft 365

Apprenez à configurer des routines automatisées avec Microsoft Copilot pour améliorer la productivité et sécuriser votre environnement M365 et Azure.

29 juin 20265 min