Ollama
Konfiguriere Ollama als benutzerdefinierten endpoint in LibreChat.
Ollama führt offene Modelle lokal aus und stellt eine OpenAI-kompatible API bereit, sodass Sie LibreChat auf Ihre eigene Maschine verweisen können. Laden Sie Modelle mit ollama run <model> herunter und durchsuchen Sie das verfügbare Angebot in der Ollama Library.
Konfiguration
Ollama ignoriert den API-Schlüssel, erwartet jedoch, dass das Feld vorhanden ist; setzen Sie es daher auf einen beliebigen Platzhalter. Richten Sie baseURL auf Ihren Ollama-Server. Fügen Sie den endpoint unter endpoints.custom in Ihrer librechat.yaml hinzu:
Hinweise
- Setze
titleModelauf"current_model", damit die Titelgenerierung das Modell der Konversation wiederverwendet, anstatt ein zweites zu laden. Dies beschränkt Ollama auf ein einziges geladenes Modell pro Konversation. - Das
default-Array oben ist eine Beispielliste beliebter Modelle. Mitfetch: trueruft LibreChat die vollständige Liste von Ihrem Server ab.
Ollama -> llama3
Sobald stop aus den default parameters entfernt wurde, sollte das unten beschriebene Problem nicht mehr auftreten.
Wenn llama3 ohne Unterbrechung weiter generiert, fügen Sie einen addParams Block mit den Stop-Sequenzen hinzu:
Wenn Sie nur llama3 mit Ollama ausführen, ist es in Ordnung, stop auf Konfigurationsebene über addParams festzulegen. Wenn Sie mehrere Modelle ausführen, fügen Sie Stopp-Sequenzen stattdessen über das Frontend mittels Konversationsparametern und Presets hinzu und lassen Sie addParams weg:
Legen Sie die Stopp-Sequenzen in den Konversationsparametern fest (und speichern Sie diese als Preset):
Wie finden Sie diese Anleitung?