Ollama
Configureer Ollama als een aangepast endpoint in LibreChat.
Ollama draait open modellen lokaal en stelt een OpenAI-compatibele API beschikbaar, zodat je LibreChat naar je eigen machine kunt laten wijzen. Download modellen met ollama run <model> en bekijk wat er beschikbaar is in de Ollama Library.
Configuratie
Ollama negeert de API-sleutel, maar verwacht nog steeds dat het veld aanwezig is, dus stel het in op een willekeurige tijdelijke aanduiding. Wijs baseURL naar je Ollama-server. Voeg het endpoint toe onder endpoints.custom in je librechat.yaml:
- name: "Ollama"
apiKey: "ollama"
# use 'host.docker.internal' instead of localhost if running LibreChat in a docker container
baseURL: "http://localhost:11434/v1/"
models:
default: [
"llama2",
"mistral",
"codellama",
"dolphin-mixtral",
"mistral-openorca"
]
# fetching list of models is supported but the `name` field must start
# with `ollama` (case-insensitive), as it does in this example.
fetch: true
titleConvo: true
titleModel: "current_model"
summarize: false
summaryModel: "current_model"
modelDisplayLabel: "Ollama"Opmerkingen
- Stel
titleModelin op"current_model"zodat het genereren van titels het model van het gesprek hergebruikt in plaats van een tweede model te laden. Dit zorgt ervoor dat Ollama beperkt blijft tot één geladen model per gesprek. - De
defaultarray hierboven is een voorbeeldlijst van populaire modellen. Metfetch: truehaalt LibreChat de volledige lijst op van je server.
Ollama -> llama3
Zodra stop was verwijderd uit de default parameters, zou het onderstaande probleem niet langer moeten optreden.
Als llama3 blijft genereren zonder te stoppen, voeg dan een addParams blok toe met de stop-sequenties:
- name: "Ollama"
apiKey: "ollama"
baseURL: "http://host.docker.internal:11434/v1/"
models:
default: [
"llama3"
]
fetch: false # fetching list of models is not supported
titleConvo: true
titleModel: "current_model"
summarize: false
summaryModel: "current_model"
modelDisplayLabel: "Ollama"
addParams:
"stop": [
"<|start_header_id|>",
"<|end_header_id|>",
"<|eot_id|>",
"<|reserved_special_token"
]Als je alleen llama3 met Ollama gebruikt, is het instellen van stop op configuratieniveau via addParams prima. Wanneer je meerdere modellen gebruikt, voeg dan stop-sequenties toe vanuit de frontend via gespreksinstellingen en presets, en laat addParams weg:
- name: "Ollama"
apiKey: "ollama"
baseURL: "http://host.docker.internal:11434/v1/"
models:
default: [
"llama3:latest",
"mistral"
]
fetch: false # fetching list of models is not supported
titleConvo: true
titleModel: "current_model"
modelDisplayLabel: "Ollama"Stel de stopsequenties in bij de gespreksinstellingen (en sla deze op als een preset):
Hoe is deze gids?