vLLM

vLLM to silnik wnioskowania i serwowania o wysokiej przepustowości i wydajności pamięciowej dla LLM. Udostępnia on API zgodne z OpenAI, dzięki czemu możesz uruchomić go lokalnie i wskazać LibreChat na własny serwer.

Konfiguracja

Lokalne wdrożenia vLLM nie wymagają uwierzytelniania, więc klucz API jest tylko symbolem zastępczym. Skieruj baseURL na swój działający serwer vLLM. Dodaj endpoint w sekcji endpoints.custom w swoim librechat.yaml:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Uwagi

Przykład łączy się z lokalnym serwerem vLLM na porcie 8023 z domyślnym modelem Gemma 3 27B. Ustaw baseURL na adres, pod którym działa Twój serwer.
Dzięki fetch: true, LibreChat wczytuje pełną listę modeli dostępnych na Twoim serwerze vLLM, więc default jest tylko wyborem początkowym.
titleMessageRole: "user" nadpisuje domyślną rolę system dla generowania tytułu. Niektóre lokalne modele odrzucają role wiadomości systemowych, więc wysłanie promptu tytułu jako wiadomości użytkownika pozwala uniknąć błędów.

Konfiguracja

Uwagi

Na tej stronie