vLLM
Configurar vLLM como un endpoint personalizado en LibreChat.
vLLM es un motor de inferencia y servicio de alto rendimiento y eficiente en memoria para LLMs. Expone una API compatible con OpenAI, por lo que puedes ejecutarlo localmente y apuntar LibreChat a tu propio servidor.
Configuración
Las implementaciones locales de vLLM no requieren autenticación, por lo que la clave de API es solo un marcador de posición. Apunte baseURL a su servidor vLLM en ejecución. Agregue el endpoint bajo endpoints.custom en su librechat.yaml:
Notas
- El ejemplo se conecta a un servidor vLLM local en el puerto 8023 con Gemma 3 27B como predeterminado. Establezca
baseURLdondequiera que se esté ejecutando su servidor. - Con
fetch: true, LibreChat carga la lista completa de modelos disponibles en su servidor vLLM, por lo quedefaultes solo la selección inicial. titleMessageRole: "user"anula el rolsystempredeterminado para la generación de tÃtulos. Algunos modelos locales rechazan los roles de mensaje del sistema, por lo que enviar el prompt del tÃtulo como un mensaje de usuario evita errores.
¿Qué te parece esta guÃa?