Ollama

Ollama draait open modellen lokaal en stelt een OpenAI-compatibele API beschikbaar, zodat je LibreChat naar je eigen machine kunt laten wijzen. Download modellen met ollama run <model> en bekijk wat er beschikbaar is in de Ollama Library.

Configuratie

Ollama negeert de API-sleutel, maar verwacht nog steeds dat het veld aanwezig is, dus stel het in op een willekeurige tijdelijke aanduiding. Wijs baseURL naar je Ollama-server. Voeg het endpoint toe onder endpoints.custom in je librechat.yaml:

    - name: "Ollama"
      apiKey: "ollama"
      # use 'host.docker.internal' instead of localhost if running LibreChat in a docker container
      baseURL: "http://localhost:11434/v1/" 
      models:
        default: [
          "llama2",
          "mistral",
          "codellama",
          "dolphin-mixtral",
          "mistral-openorca"
          ]
        # fetching list of models is supported but the `name` field must start
        # with `ollama` (case-insensitive), as it does in this example.
        fetch: true
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Ollama"

Opmerkingen

Stel titleModel in op "current_model" zodat het genereren van titels het model van het gesprek hergebruikt in plaats van een tweede model te laden. Dit zorgt ervoor dat Ollama beperkt blijft tot één geladen model per gesprek.
De default array hierboven is een voorbeeldlijst van populaire modellen. Met fetch: true haalt LibreChat de volledige lijst op van je server.

Ollama -> llama3

Zodra stop was verwijderd uit de default parameters, zou het onderstaande probleem niet langer moeten optreden.

Als llama3 blijft genereren zonder te stoppen, voeg dan een addParams blok toe met de stop-sequenties:

    - name: "Ollama"
      apiKey: "ollama"
      baseURL: "http://host.docker.internal:11434/v1/"
      models:
        default: [
          "llama3"
        ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Ollama"
      addParams:
          "stop": [
              "<|start_header_id|>",
              "<|end_header_id|>",
              "<|eot_id|>",
              "<|reserved_special_token"
          ]

Als je alleen llama3 met Ollama gebruikt, is het instellen van stop op configuratieniveau via addParams prima. Wanneer je meerdere modellen gebruikt, voeg dan stop-sequenties toe vanuit de frontend via gespreksinstellingen en presets, en laat addParams weg:

    - name: "Ollama"
      apiKey: "ollama"
      baseURL: "http://host.docker.internal:11434/v1/" 
      models:
        default: [
          "llama3:latest",
          "mistral"
          ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      modelDisplayLabel: "Ollama"

Stel de stopsequenties in bij de gespreksinstellingen (en sla deze op als een preset):

Ollama

Configuratie

Opmerkingen

Op deze pagina