vLLM
Konfigurasikan vLLM sebagai endpoint kustom di LibreChat.
vLLM adalah mesin inferensi dan penyajian yang berkinerja tinggi dan efisien dalam penggunaan memori untuk LLM. Mesin ini menyediakan API yang kompatibel dengan OpenAI, sehingga Anda dapat menjalankannya secara lokal dan mengarahkan LibreChat ke server Anda sendiri.
Konfigurasi
Penyebaran vLLM lokal tidak memerlukan autentikasi, jadi API key hanyalah sebuah placeholder. Arahkan baseURL ke server vLLM Anda yang sedang berjalan. Tambahkan endpoint di bawah endpoints.custom dalam librechat.yaml Anda:
- name: "vLLM"
apiKey: "vllm"
baseURL: "http://127.0.0.1:8023/v1"
models:
default: ['google/gemma-3-27b-it']
fetch: true
titleConvo: true
titleModel: "current_model"
titleMessageRole: "user"
summarize: false
summaryModel: "current_model"Catatan
- Contoh ini terhubung ke server vLLM lokal pada port 8023 dengan Gemma 3 27B sebagai default. Atur
baseURLke lokasi server Anda berjalan. - Dengan
fetch: true, LibreChat memuat daftar lengkap model yang tersedia di server vLLM Anda, sehinggadefaulthanyalah pilihan awal. titleMessageRole: "user"menimpa peransystemdefault untuk pembuatan judul. Beberapa model lokal menolak peran pesan sistem, jadi mengirimkan prompt judul sebagai pesan pengguna akan menghindari kesalahan.
Bagaimana panduan ini?