vLLM
Cấu hình vLLM làm endpoint tùy chỉnh trong LibreChat.
vLLM là một công cụ suy luận và phục vụ LLM có hiệu suất cao và tiết kiệm bộ nhớ. Nó cung cấp một API tương thích với OpenAI, vì vậy bạn có thể chạy nó cục bộ và trỏ LibreChat vào máy chủ của riêng mình.
Cấu hình
Các triển khai vLLM cục bộ không yêu cầu xác thực, vì vậy API key chỉ là một phần giữ chỗ. Hãy trỏ baseURL đến máy chủ vLLM đang chạy của bạn. Thêm endpoint vào dưới endpoints.custom trong tệp librechat.yaml của bạn:
- name: "vLLM"
apiKey: "vllm"
baseURL: "http://127.0.0.1:8023/v1"
models:
default: ['google/gemma-3-27b-it']
fetch: true
titleConvo: true
titleModel: "current_model"
titleMessageRole: "user"
summarize: false
summaryModel: "current_model"Ghi chú
- Ví dụ này kết nối với một máy chủ vLLM cục bộ trên cổng 8023 với Gemma 3 27B là mặc định. Hãy đặt
baseURLtới nơi máy chủ của bạn đang chạy. - Với
fetch: true, LibreChat sẽ tải toàn bộ danh sách các model khả dụng trên máy chủ vLLM của bạn, vì vậydefaultchỉ là lựa chọn ban đầu. titleMessageRole: "user"ghi đè vai tròsystemmặc định cho việc tạo tiêu đề. Một số mô hình cục bộ từ chối vai trò tin nhắn hệ thống, vì vậy việc gửi lời nhắc tiêu đề dưới dạng tin nhắn người dùng sẽ tránh được lỗi.
Hướng dẫn này thế nào?