Ollama
Configurar Ollama como un endpoint personalizado en LibreChat.
Ollama ejecuta modelos abiertos localmente y expone una API compatible con OpenAI, por lo que puedes apuntar LibreChat a tu propia máquina. Descarga modelos con ollama run <model> y explora lo que está disponible en la Ollama Library.
Configuración
Ollama ignora la API key pero aún espera que el campo esté presente, asà que establécelo como cualquier marcador de posición. Apunta baseURL a tu servidor Ollama. Agrega el endpoint bajo endpoints.custom en tu librechat.yaml:
Notas
- Establezca
titleModelen"current_model"para que la generación de tÃtulos reutilice el modelo de la conversación en lugar de cargar uno segundo. Esto mantiene a Ollama en un único modelo cargado por conversación. - La matriz
defaultanterior es una lista de muestra de modelos populares. Confetch: true, LibreChat extrae la lista completa desde su servidor.
Ollama -> llama3
Una vez que se eliminó stop de los parámetros predeterminados, el problema a continuación ya no deberÃa ocurrir.
Si llama3 sigue generando sin detenerse, añade un bloque addParams con las secuencias de parada:
Si solo ejecutas llama3 con Ollama, configurar stop a nivel de configuración mediante addParams está bien. Cuando ejecutes varios modelos, añade las secuencias de parada desde la interfaz a través de los parámetros de conversación y los ajustes preestablecidos (presets) en su lugar, y omite addParams:
Establezca las secuencias de parada en los parámetros de conversación (y guárdelas como un ajuste preestablecido):
¿Qué te parece esta guÃa?