vLLM
Configurer vLLM en tant qu'endpoint personnalisé dans LibreChat.
vLLM est un moteur d'inférence et de service à haut débit et efficace en mémoire pour les LLM. Il expose une API compatible avec OpenAI, vous permettant ainsi de l'exécuter localement et de pointer LibreChat vers votre propre serveur.
Configuration
Les déploiements vLLM locaux ne nécessitent pas d'authentification, la clé API n'est donc qu'un espace réservé. Pointez baseURL vers votre serveur vLLM en cours d'exécution. Ajoutez l'endpoint sous endpoints.custom dans votre librechat.yaml :
Notes
- L'exemple se connecte à un serveur vLLM local sur le port 8023 avec Gemma 3 27B comme valeur par défaut. Définissez
baseURLsur l'emplacement où votre serveur est en cours d'exécution. - Avec
fetch: true, LibreChat charge la liste complète des modèles disponibles sur votre serveur vLLM, doncdefaultn'est que la sélection initiale. titleMessageRole: "user"remplace le rôlesystempar défaut pour la génération de titres. Certains modèles locaux rejettent les rôles de message système ; envoyer l'invite de titre en tant que message utilisateur permet donc d'éviter les erreurs.
Que pensez-vous de ce guide ?