vLLM

vLLM is een high-throughput, geheugenefficiënte inference- en serving-engine voor LLMs. Het stelt een OpenAI-compatibele API beschikbaar, zodat je het lokaal kunt draaien en LibreChat naar je eigen server kunt laten wijzen.

Configuratie

Lokale vLLM-implementaties vereisen geen authenticatie, dus de API-sleutel is slechts een tijdelijke aanduiding. Wijs baseURL naar je actieve vLLM-server. Voeg het endpoint toe onder endpoints.custom in je librechat.yaml:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Opmerkingen

Het voorbeeld maakt verbinding met een lokale vLLM-server op poort 8023 met Gemma 3 27B als standaard. Stel baseURL in op de locatie waar je server draait.
Met fetch: true laadt LibreChat de volledige lijst met modellen die beschikbaar zijn op je vLLM-server, dus default is alleen de initiële selectie.
titleMessageRole: "user" overschrijft de standaard system rol voor het genereren van titels. Sommige lokale modellen weigeren systeem-berichtrollen, dus het verzenden van de titel-prompt als een gebruikersbericht voorkomt fouten.

Configuratie

Opmerkingen

Op deze pagina