Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

vLLM

Cấu hình vLLM làm endpoint tùy chỉnh trong LibreChat.

vLLM là một công cụ suy luận và phục vụ LLM có hiệu suất cao và tiết kiệm bộ nhớ. Nó cung cấp một API tương thích với OpenAI, vì vậy bạn có thể chạy nó cục bộ và trỏ LibreChat vào máy chủ của riêng mình.

Cấu hình

Các triển khai vLLM cục bộ không yêu cầu xác thực, vì vậy API key chỉ là một phần giữ chỗ. Hãy trỏ baseURL đến máy chủ vLLM đang chạy của bạn. Thêm endpoint vào dưới endpoints.custom trong tệp librechat.yaml của bạn:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Ghi chú

  • Ví dụ này kết nối với một máy chủ vLLM cục bộ trên cổng 8023 với Gemma 3 27B là mặc định. Hãy đặt baseURL tới nơi máy chủ của bạn đang chạy.
  • Với fetch: true, LibreChat sẽ tải toàn bộ danh sách các model khả dụng trên máy chủ vLLM của bạn, vì vậy default chỉ là lựa chọn ban đầu.
  • titleMessageRole: "user" ghi đè vai trò system mặc định cho việc tạo tiêu đề. Một số mô hình cục bộ từ chối vai trò tin nhắn hệ thống, vì vậy việc gửi lời nhắc tiêu đề dưới dạng tin nhắn người dùng sẽ tránh được lỗi.

Hướng dẫn này thế nào?

Trên trang này