Ollama
Configurer Ollama en tant qu'endpoint personnalisé dans LibreChat.
Ollama exécute des modèles ouverts localement et expose une API compatible avec OpenAI, vous permettant ainsi de pointer LibreChat vers votre propre machine. Téléchargez des modèles avec ollama run <model> et parcourez ce qui est disponible dans la Ollama Library.
Configuration
Ollama ignore la clé API mais s'attend tout de même à ce que le champ soit présent, définissez-le donc sur n'importe quel espace réservé. Pointez baseURL vers votre serveur Ollama. Ajoutez l'endpoint sous endpoints.custom dans votre librechat.yaml :
Notes
- Définissez
titleModelsur"current_model"afin que la génération de titre réutilise le modèle de la conversation au lieu d'en charger un second. Cela permet à Ollama de conserver un seul modèle chargé par conversation. - Le tableau
defaultci-dessus est une liste d'exemples de modèles populaires. Avecfetch: true, LibreChat récupère la liste complète depuis votre serveur.
Ollama -> llama3
Une fois que stop a été supprimé des paramètres par défaut, le problème ci-dessous ne devrait plus se produire.
Si llama3 continue de générer sans s'arrêter, ajoutez un bloc addParams avec les séquences d'arrêt :
Si vous exécutez uniquement llama3 avec Ollama, définir stop au niveau de la configuration via addParams est suffisant. Lorsque vous exécutez plusieurs modèles, ajoutez plutôt les séquences d'arrêt depuis l'interface via les paramètres de conversation et les préréglages, et omettez addParams :
Définissez les séquences d'arrêt dans les paramètres de conversation (et enregistrez-les en tant que préréglage) :
Que pensez-vous de ce guide ?