vLLM | LibreChat

vLLM은 LLM을 위한 고처리량, 메모리 효율적인 추론 및 서빙 엔진입니다. OpenAI 호환 API를 제공하므로, 로컬에서 실행하여 LibreChat을 사용자 본인의 서버로 연결할 수 있습니다.

구성

로컬 vLLM 배포는 인증이 필요하지 않으므로 API 키는 자리 표시자(placeholder)일 뿐입니다. baseURL을 실행 중인 vLLM 서버로 지정하세요. librechat.yaml의 endpoints.custom 아래에 해당 endpoint를 추가하세요:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

참고 사항

이 예시는 포트 8023에서 실행 중인 로컬 vLLM 서버에 Gemma 3 27B를 기본 모델로 연결합니다. baseURL을 서버가 실행 중인 주소로 설정하세요.
fetch: true를 설정하면 LibreChat이 vLLM 서버에서 사용 가능한 전체 모델 목록을 불러오므로, default는 초기 선택값으로만 사용됩니다.
titleMessageRole: "user"는 제목 생성 시 기본 system 역할을 재정의합니다. 일부 로컬 모델은 system 메시지 역할을 거부하므로, 제목 프롬프트를 user 메시지로 전송하여 오류를 방지할 수 있습니다.