Ollama

Ollama menjalankan model terbuka secara lokal dan mengekspos API yang kompatibel dengan OpenAI, sehingga Anda dapat mengarahkan LibreChat ke mesin Anda sendiri. Unduh model dengan ollama run <model> dan telusuri apa yang tersedia di Ollama Library.

Konfigurasi

Ollama mengabaikan API key namun tetap mengharapkan kolom tersebut ada, jadi atur ke placeholder apa pun. Arahkan baseURL ke server Ollama Anda. Tambahkan endpoint di bawah endpoints.custom dalam librechat.yaml Anda:

    - name: "Ollama"
      apiKey: "ollama"
      # use 'host.docker.internal' instead of localhost if running LibreChat in a docker container
      baseURL: "http://localhost:11434/v1/" 
      models:
        default: [
          "llama2",
          "mistral",
          "codellama",
          "dolphin-mixtral",
          "mistral-openorca"
          ]
        # fetching list of models is supported but the `name` field must start
        # with `ollama` (case-insensitive), as it does in this example.
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Ollama"

Catatan

Atur titleModel ke "current_model" agar pembuatan judul menggunakan kembali model percakapan alih-alih memuat model kedua. Hal ini menjaga Ollama agar tetap menggunakan satu model yang dimuat per percakapan.
Array default di atas adalah contoh daftar model populer. Dengan fetch: true, LibreChat akan menarik daftar lengkap dari server Anda.

Ollama -> llama3

Setelah stop dihapus dari default parameters, masalah di bawah ini seharusnya tidak lagi terjadi.

Jika llama3 terus menghasilkan teks tanpa berhenti, tambahkan blok addParams dengan urutan berhenti (stop sequences):

    - name: "Ollama"
      apiKey: "ollama"
      baseURL: "http://host.docker.internal:11434/v1/"
      models:
        default: [
          "llama3"
        ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Ollama"
      addParams:
          "stop": [
              "<|start_header_id|>",
              "<|end_header_id|>",
              "<|eot_id|>",
              "<|reserved_special_token"
          ]

Jika Anda hanya menjalankan llama3 dengan Ollama, mengatur stop di tingkat konfigurasi melalui addParams sudah cukup. Saat Anda menjalankan beberapa model, tambahkan urutan berhenti (stop sequences) dari frontend melalui parameter percakapan dan preset sebagai gantinya, dan hilangkan addParams:

    - name: "Ollama"
      apiKey: "ollama"
      baseURL: "http://host.docker.internal:11434/v1/" 
      models:
        default: [
          "llama3:latest",
          "mistral"
          ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      modelDisplayLabel: "Ollama"

Atur urutan berhenti (stop sequences) dalam parameter percakapan (dan simpan sebagai preset):

Ollama

Konfigurasi

Catatan

Di halaman ini