vLLM
Configura vLLM come endpoint personalizzato in LibreChat.
vLLM è un motore di inferenza e serving ad alto throughput ed efficiente nella gestione della memoria per LLM. Espone un'API compatibile con OpenAI, quindi puoi eseguirlo localmente e puntare LibreChat al tuo server.
Configurazione
Le distribuzioni locali di vLLM non richiedono autenticazione, quindi la chiave API è solo un segnaposto. Punta baseURL al tuo server vLLM in esecuzione. Aggiungi l'endpoint sotto endpoints.custom nel tuo librechat.yaml:
- name: "vLLM"
apiKey: "vllm"
baseURL: "http://127.0.0.1:8023/v1"
models:
default: ['google/gemma-3-27b-it']
fetch: true
titleConvo: true
titleModel: "current_model"
titleMessageRole: "user"
summarize: false
summaryModel: "current_model"Note
- L'esempio si connette a un server vLLM locale sulla porta 8023 con Gemma 3 27B come impostazione predefinita. Imposta
baseURLsull'indirizzo in cui è in esecuzione il tuo server. - Con
fetch: true, LibreChat carica l'elenco completo dei modelli disponibili sul tuo server vLLM, quindidefaultè solo la selezione iniziale. titleMessageRole: "user"sovrascrive il ruolosystempredefinito per la generazione del titolo. Alcuni modelli locali rifiutano i ruoli dei messaggi di sistema, quindi inviare il prompt del titolo come messaggio utente evita errori.
Com’è questa guida?