vLLM
Configure o vLLM como um endpoint personalizado no LibreChat.
vLLM Ć© um mecanismo de inferĆŖncia e serviƧo de alto rendimento e eficiente em termos de memória para LLMs. Ele expƵe uma API compatĆvel com OpenAI, para que vocĆŖ possa executĆ”-lo localmente e apontar o LibreChat para o seu próprio servidor.
Configuração
Implantações locais do vLLM não exigem autenticação, portanto, a chave de API é apenas um espaço reservado. Aponte baseURL para o seu servidor vLLM em execução. Adicione o endpoint em endpoints.custom no seu librechat.yaml:
- name: "vLLM"
apiKey: "vllm"
baseURL: "http://127.0.0.1:8023/v1"
models:
default: ['google/gemma-3-27b-it']
fetch: true
titleConvo: true
titleModel: "current_model"
titleMessageRole: "user"
summarize: false
summaryModel: "current_model"Notas
- O exemplo conecta-se a um servidor vLLM local na porta 8023 com o Gemma 3 27B como padrão. Defina
baseURLpara onde quer que seu servidor esteja sendo executado. - Com
fetch: true, o LibreChat carrega a lista completa de modelos disponĆveis no seu servidor vLLM, portantodefaultĆ© apenas a seleção inicial. titleMessageRole: "user"substitui a funçãosystempadrĆ£o para a geração de tĆtulos. Alguns modelos locais rejeitam funƧƵes de mensagem do sistema, portanto, enviar o prompt de tĆtulo como uma mensagem de usuĆ”rio evita erros.
Como estĆ” este guia?