vLLM | LibreChat

vLLMは、LLM向けの高速かつメモリ効率に優れた推論・サービングエンジンです。OpenAI互換のAPIを提供しているため、ローカルで実行し、LibreChatから自身のサーバーを指定して利用することができます。

設定

ローカルの vLLM デプロイメントは認証を必要としないため、API キーはプレースホルダーで問題ありません。baseURL を実行中の vLLM サーバーに向けてください。librechat.yaml 内の endpoints.custom にエンドポイントを追加します：

    - name: "vLLM"
      apiKey: "vllm"
      baseURL: "http://127.0.0.1:8023/v1"
      models:
        default: ['google/gemma-3-27b-it']
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      titleMessageRole: "user"
      summarize: false
      summaryModel: "current_model"

注記

この例では、ポート8023で実行されているローカルのvLLMサーバーにGemma 3 27Bをデフォルトとして接続します。baseURLには、サーバーが実行されている場所を指定してください。
fetch: true を設定すると、LibreChat は vLLM サーバーで利用可能なモデルの全リストを読み込むため、default は初期選択のみに使用されます。
titleMessageRole: "user" は、タイトル生成時のデフォルトの system ロールを上書きします。一部のローカルモデルは system メッセージロールを拒否するため、タイトルプロンプトをユーザーメッセージとして送信することでエラーを回避できます。