Apple MLX

O Apple MLX serve modelos localmente em Apple silicon através de uma OpenAI-compatible API, para que você possa apontar o LibreChat para sua própria máquina.

Configuração

O servidor local MLX não autentica solicitações, portanto, a API key é apenas um espaço reservado. Aponte a baseURL para o seu servidor em execução. Adicione o endpoint em endpoints.custom no seu librechat.yaml:

    - name: "MLX"
      apiKey: "mlx"
      baseURL: "http://localhost:8080/v1/" 
      models:
        default: [
          "Meta-Llama-3-8B-Instruct-4bit"
          ]
        fetch: false # fetching list of models is not supported
      titleConvo: true
      titleModel: "current_model"
      summarize: false
      summaryModel: "current_model"
      modelDisplayLabel: "Apple MLX"
      addParams:
            max_tokens: 2000
            "stop": [
              "<|eot_id|>"
            ]

Notas

O servidor MLX executa um modelo por vez. Para servir mais de um modelo, execute uma instância separada em uma porta diferente e adicione outro endpoint com sua própria baseURL.
A API é rigorosa quanto a parâmetros não reconhecidos, portanto, mantenha addParams limitado a valores que o servidor aceita, como max_tokens e stop.

Apple MLX

Configuração

Notas

Nesta página