vLLM

vLLM è un motore di inferenza e serving ad alto throughput ed efficiente nella gestione della memoria per LLM. Espone un'API compatibile con OpenAI, quindi puoi eseguirlo localmente e puntare LibreChat al tuo server.

Configurazione

Le distribuzioni locali di vLLM non richiedono autenticazione, quindi la chiave API è solo un segnaposto. Punta baseURL al tuo server vLLM in esecuzione. Aggiungi l'endpoint sotto endpoints.custom nel tuo librechat.yaml:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Note

L'esempio si connette a un server vLLM locale sulla porta 8023 con Gemma 3 27B come impostazione predefinita. Imposta baseURL sull'indirizzo in cui è in esecuzione il tuo server.
Con fetch: true, LibreChat carica l'elenco completo dei modelli disponibili sul tuo server vLLM, quindi default è solo la selezione iniziale.
titleMessageRole: "user" sovrascrive il ruolo system predefinito per la generazione del titolo. Alcuni modelli locali rifiutano i ruoli dei messaggi di sistema, quindi inviare il prompt del titolo come messaggio utente evita errori.

Configurazione

Note

In questa pagina