vLLM

vLLM é um mecanismo de inferência e serviço de alto rendimento e eficiente em termos de memória para LLMs. Ele expõe uma API compatível com OpenAI, para que você possa executá-lo localmente e apontar o LibreChat para o seu próprio servidor.

Configuração

Implantações locais do vLLM não exigem autenticação, portanto, a chave de API é apenas um espaço reservado. Aponte baseURL para o seu servidor vLLM em execução. Adicione o endpoint em endpoints.custom no seu librechat.yaml:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Notas

O exemplo conecta-se a um servidor vLLM local na porta 8023 com o Gemma 3 27B como padrão. Defina baseURL para onde quer que seu servidor esteja sendo executado.
Com fetch: true, o LibreChat carrega a lista completa de modelos disponíveis no seu servidor vLLM, portanto default é apenas a seleção inicial.
titleMessageRole: "user" substitui a função system padrão para a geração de títulos. Alguns modelos locais rejeitam funções de mensagem do sistema, portanto, enviar o prompt de título como uma mensagem de usuário evita erros.

Configuração

Notas

Nesta página