vLLM

vLLM, LLM'ler için yüksek verimli ve bellek açısından optimize edilmiş bir çıkarım ve sunum motorudur. OpenAI uyumlu bir API sunduğundan, onu yerel olarak çalıştırabilir ve LibreChat'i kendi sunucunuza yönlendirebilirsiniz.

Yapılandırma

Yerel vLLM dağıtımları kimlik doğrulaması gerektirmez, bu nedenle API anahtarı yalnızca bir yer tutucudur. baseURL değerini çalışan vLLM sunucunuza yönlendirin. Uç noktayı librechat.yaml dosyanızdaki endpoints.custom altına ekleyin:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Notlar

Bu örnek, varsayılan olarak Gemma 3 27B ile 8023 numaralı bağlantı noktasındaki yerel bir vLLM sunucusuna bağlanır. baseURL değerini sunucunuzun çalıştığı yere göre ayarlayın.
fetch: true ile LibreChat, vLLM sunucunuzda bulunan modellerin tam listesini yükler, bu nedenle default yalnızca ilk seçimdir.
titleMessageRole: "user", başlık oluşturma için varsayılan system rolünü geçersiz kılar. Bazı yerel modeller sistem mesajı rollerini reddettiği için, başlık istemini kullanıcı mesajı olarak göndermek hataları önler.

Yapılandırma

Notlar

Bu sayfada