Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack šŸŽ‰ Learn more
LibreChat

vLLM

Configure o vLLM como um endpoint personalizado no LibreChat.

vLLM é um mecanismo de inferência e serviço de alto rendimento e eficiente em termos de memória para LLMs. Ele expõe uma API compatível com OpenAI, para que você possa executÔ-lo localmente e apontar o LibreChat para o seu próprio servidor.

Configuração

Implantações locais do vLLM não exigem autenticação, portanto, a chave de API é apenas um espaço reservado. Aponte baseURL para o seu servidor vLLM em execução. Adicione o endpoint em endpoints.custom no seu librechat.yaml:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Notas

  • O exemplo conecta-se a um servidor vLLM local na porta 8023 com o Gemma 3 27B como padrĆ£o. Defina baseURL para onde quer que seu servidor esteja sendo executado.
  • Com fetch: true, o LibreChat carrega a lista completa de modelos disponĆ­veis no seu servidor vLLM, portanto default Ć© apenas a seleção inicial.
  • titleMessageRole: "user" substitui a função system padrĆ£o para a geração de tĆ­tulos. Alguns modelos locais rejeitam funƧƵes de mensagem do sistema, portanto, enviar o prompt de tĆ­tulo como uma mensagem de usuĆ”rio evita erros.

Como estĆ” este guia?

Nesta pƔgina