vLLM | LibreChat

vLLM est un moteur d'inférence et de service à haut débit et efficace en mémoire pour les LLM. Il expose une API compatible avec OpenAI, vous permettant ainsi de l'exécuter localement et de pointer LibreChat vers votre propre serveur.

Configuration

Les déploiements vLLM locaux ne nécessitent pas d'authentification, la clé API n'est donc qu'un espace réservé. Pointez baseURL vers votre serveur vLLM en cours d'exécution. Ajoutez l'endpoint sous endpoints.custom dans votre librechat.yaml :

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Notes

L'exemple se connecte à un serveur vLLM local sur le port 8023 avec Gemma 3 27B comme valeur par défaut. Définissez baseURL sur l'emplacement où votre serveur est en cours d'exécution.
Avec fetch: true, LibreChat charge la liste complète des modèles disponibles sur votre serveur vLLM, donc default n'est que la sélection initiale.
titleMessageRole: "user" remplace le rôle system par défaut pour la génération de titres. Certains modèles locaux rejettent les rôles de message système ; envoyer l'invite de titre en tant que message utilisateur permet donc d'éviter les erreurs.