vLLM

vLLM adalah mesin inferensi dan penyajian yang berkinerja tinggi dan efisien dalam penggunaan memori untuk LLM. Mesin ini menyediakan API yang kompatibel dengan OpenAI, sehingga Anda dapat menjalankannya secara lokal dan mengarahkan LibreChat ke server Anda sendiri.

Konfigurasi

Penyebaran vLLM lokal tidak memerlukan autentikasi, jadi API key hanyalah sebuah placeholder. Arahkan baseURL ke server vLLM Anda yang sedang berjalan. Tambahkan endpoint di bawah endpoints.custom dalam librechat.yaml Anda:

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

Catatan

Contoh ini terhubung ke server vLLM lokal pada port 8023 dengan Gemma 3 27B sebagai default. Atur baseURL ke lokasi server Anda berjalan.
Dengan fetch: true, LibreChat memuat daftar lengkap model yang tersedia di server vLLM Anda, sehingga default hanyalah pilihan awal.
titleMessageRole: "user" menimpa peran system default untuk pembuatan judul. Beberapa model lokal menolak peran pesan sistem, jadi mengirimkan prompt judul sebagai pesan pengguna akan menghindari kesalahan.

Konfigurasi

Catatan

Di halaman ini