vLLM

vLLM là một công cụ suy luận và phục vụ LLM có hiệu suất cao và tiết kiệm bộ nhớ. Nó cung cấp một API tương thích với OpenAI, vì vậy bạn có thể chạy nó cục bộ và trỏ LibreChat vào máy chủ của riêng mình.

Cấu hình

Các triển khai vLLM cục bộ không yêu cầu xác thực, vì vậy API key chỉ là một phần giữ chỗ. Hãy trỏ baseURL đến máy chủ vLLM đang chạy của bạn. Thêm endpoint vào dưới endpoints.custom trong tệp librechat.yaml của bạn:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Ghi chú

Ví dụ này kết nối với một máy chủ vLLM cục bộ trên cổng 8023 với Gemma 3 27B là mặc định. Hãy đặt baseURL tới nơi máy chủ của bạn đang chạy.
Với fetch: true, LibreChat sẽ tải toàn bộ danh sách các model khả dụng trên máy chủ vLLM của bạn, vì vậy default chỉ là lựa chọn ban đầu.
titleMessageRole: "user" ghi đè vai trò system mặc định cho việc tạo tiêu đề. Một số mô hình cục bộ từ chối vai trò tin nhắn hệ thống, vì vậy việc gửi lời nhắc tiêu đề dưới dạng tin nhắn người dùng sẽ tránh được lỗi.

Cấu hình

Ghi chú

Trên trang này