vLLM
Configureer vLLM als een aangepast endpoint in LibreChat.
vLLM is een high-throughput, geheugenefficiënte inference- en serving-engine voor LLMs. Het stelt een OpenAI-compatibele API beschikbaar, zodat je het lokaal kunt draaien en LibreChat naar je eigen server kunt laten wijzen.
Configuratie
Lokale vLLM-implementaties vereisen geen authenticatie, dus de API-sleutel is slechts een tijdelijke aanduiding. Wijs baseURL naar je actieve vLLM-server. Voeg het endpoint toe onder endpoints.custom in je librechat.yaml:
- name: "vLLM"
apiKey: "vllm"
baseURL: "http://127.0.0.1:8023/v1"
models:
default: ['google/gemma-3-27b-it']
fetch: true
titleConvo: true
titleModel: "current_model"
titleMessageRole: "user"
summarize: false
summaryModel: "current_model"Opmerkingen
- Het voorbeeld maakt verbinding met een lokale vLLM-server op poort 8023 met Gemma 3 27B als standaard. Stel
baseURLin op de locatie waar je server draait. - Met
fetch: truelaadt LibreChat de volledige lijst met modellen die beschikbaar zijn op je vLLM-server, dusdefaultis alleen de initiële selectie. titleMessageRole: "user"overschrijft de standaardsystemrol voor het genereren van titels. Sommige lokale modellen weigeren systeem-berichtrollen, dus het verzenden van de titel-prompt als een gebruikersbericht voorkomt fouten.
Hoe is deze gids?