vLLM | LibreChat

vLLM

Configurar vLLM como un endpoint personalizado en LibreChat.

vLLM es un motor de inferencia y servicio de alto rendimiento y eficiente en memoria para LLMs. Expone una API compatible con OpenAI, por lo que puedes ejecutarlo localmente y apuntar LibreChat a tu propio servidor.

Configuración

Las implementaciones locales de vLLM no requieren autenticación, por lo que la clave de API es solo un marcador de posición. Apunte baseURL a su servidor vLLM en ejecución. Agregue el endpoint bajo endpoints.custom en su librechat.yaml:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Notas

El ejemplo se conecta a un servidor vLLM local en el puerto 8023 con Gemma 3 27B como predeterminado. Establezca baseURL dondequiera que se esté ejecutando su servidor.
Con fetch: true, LibreChat carga la lista completa de modelos disponibles en su servidor vLLM, por lo que default es solo la selección inicial.
titleMessageRole: "user" anula el rol system predeterminado para la generación de títulos. Algunos modelos locales rechazan los roles de mensaje del sistema, por lo que enviar el prompt del título como un mensaje de usuario evita errores.

¿Qué te parece esta guía?