vLLM
LibreChat에서 vLLM을 사용자 지정 endpoint로 구성하세요.
vLLM은 LLM을 위한 고처리량, 메모리 효율적인 추론 및 서빙 엔진입니다. OpenAI 호환 API를 제공하므로, 로컬에서 실행하여 LibreChat을 사용자 본인의 서버로 연결할 수 있습니다.
구성
로컬 vLLM 배포는 인증이 필요하지 않으므로 API 키는 자리 표시자(placeholder)일 뿐입니다. baseURL을 실행 중인 vLLM 서버로 지정하세요. librechat.yaml의 endpoints.custom 아래에 해당 endpoint를 추가하세요:
- name: "vLLM"
apiKey: "vllm"
baseURL: "http://127.0.0.1:8023/v1"
models:
default: ['google/gemma-3-27b-it']
fetch: true
titleConvo: true
titleModel: "current_model"
titleMessageRole: "user"
summarize: false
summaryModel: "current_model"참고 사항
- 이 예시는 포트 8023에서 실행 중인 로컬 vLLM 서버에 Gemma 3 27B를 기본 모델로 연결합니다.
baseURL을 서버가 실행 중인 주소로 설정하세요. fetch: true를 설정하면 LibreChat이 vLLM 서버에서 사용 가능한 전체 모델 목록을 불러오므로,default는 초기 선택값으로만 사용됩니다.titleMessageRole: "user"는 제목 생성 시 기본system역할을 재정의합니다. 일부 로컬 모델은 system 메시지 역할을 거부하므로, 제목 프롬프트를 user 메시지로 전송하여 오류를 방지할 수 있습니다.
이 가이드는 어떤가요?