Ollama

Ollama chạy các mô hình mở cục bộ và cung cấp một API tương thích với OpenAI, vì vậy bạn có thể trỏ LibreChat vào máy của chính mình. Hãy tải xuống các mô hình bằng lệnh ollama run <model> và duyệt qua các mô hình có sẵn trong Ollama Library.

Cấu hình

Ollama bỏ qua API key nhưng vẫn yêu cầu trường này phải có mặt, vì vậy hãy đặt nó thành bất kỳ giá trị giữ chỗ nào. Trỏ baseURL tới máy chủ Ollama của bạn. Thêm endpoint vào dưới endpoints.custom trong tệp librechat.yaml của bạn:

    - name: "Ollama"
      apiKey: "ollama"
      # use 'host.docker.internal' instead of localhost if running LibreChat in a docker container
      baseURL: "http://localhost:11434/v1/" 
      models:
        default: [
          "llama2",
          "mistral",
          "codellama",
          "dolphin-mixtral",
          "mistral-openorca"
          ]
        # fetching list of models is supported but the `name` field must start
        # with `ollama` (case-insensitive), as it does in this example.
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Ollama"

Ghi chú

Đặt titleModel thành "current_model" để việc tạo tiêu đề sử dụng lại model của cuộc trò chuyện thay vì tải thêm một model thứ hai. Điều này giúp Ollama duy trì việc chỉ tải một model duy nhất cho mỗi cuộc trò chuyện.
Mảng default ở trên là danh sách mẫu của các model phổ biến. Với fetch: true, LibreChat sẽ lấy toàn bộ danh sách từ máy chủ của bạn.

Ollama -> llama3

Sau khi stop bị loại bỏ khỏi các tham số mặc định, vấn đề dưới đây sẽ không còn xảy ra nữa.

Nếu llama3 tiếp tục tạo văn bản mà không dừng lại, hãy thêm một khối addParams với các chuỗi dừng (stop sequences):

    - name: "Ollama"
      apiKey: "ollama"
      baseURL: "http://host.docker.internal:11434/v1/"
      models:
        default: [
          "llama3"
        ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Ollama"
      addParams:
          "stop": [
              "<|start_header_id|>",
              "<|end_header_id|>",
              "<|eot_id|>",
              "<|reserved_special_token"
          ]

Nếu bạn chỉ chạy llama3 với Ollama, việc thiết lập stop ở cấp độ cấu hình thông qua addParams là hoàn toàn ổn. Khi bạn chạy nhiều mô hình, hãy thêm các chuỗi dừng (stop sequences) từ giao diện người dùng thông qua các tham số hội thoại và cài đặt sẵn (presets) thay vào đó, và bỏ qua addParams:

    - name: "Ollama"
      apiKey: "ollama"
      baseURL: "http://host.docker.internal:11434/v1/" 
      models:
        default: [
          "llama3:latest",
          "mistral"
          ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      modelDisplayLabel: "Ollama"

Thiết lập các chuỗi dừng (stop sequences) trong tham số hội thoại (và lưu chúng dưới dạng một preset):

Ollama

Cấu hình

Ghi chú

Trên trang này