vLLM | LibreChat

vLLM ist eine leistungsstarke, speichereffiziente Inferenz- und Serving-Engine für LLMs. Sie stellt eine OpenAI-kompatible API bereit, sodass Sie sie lokal ausführen und LibreChat auf Ihren eigenen Server verweisen können.

Konfiguration

Lokale vLLM-Bereitstellungen erfordern keine Authentifizierung, daher ist der API-Schlüssel nur ein Platzhalter. Richten Sie baseURL auf Ihren laufenden vLLM-Server. Fügen Sie den endpoint unter endpoints.custom in Ihrer librechat.yaml hinzu:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Hinweise

Das Beispiel stellt eine Verbindung zu einem lokalen vLLM-Server auf Port 8023 mit Gemma 3 27B als Standard her. Setzen Sie baseURL auf den Ort, an dem Ihr Server läuft.
Mit fetch: true lädt LibreChat die vollständige Liste der auf Ihrem vLLM-Server verfügbaren Modelle, sodass default nur die anfängliche Auswahl darstellt.
titleMessageRole: "user" überschreibt die standardmäßige system-Rolle für die Titelgenerierung. Einige lokale Modelle lehnen System-Nachrichtenrollen ab, daher vermeidet das Senden des Titel-Prompts als Benutzer-Nachricht Fehler.