Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Structuur van het OCR Config-object

Overzicht

Het ocr object stelt je in staat om Optical Character Recognition (OCR) instellingen voor de applicatie te configureren, waardoor het extraheren van tekst uit afbeeldingen mogelijk wordt. Dit gedeelte biedt een gedetailleerd overzicht van de structuur van het ocr object.

Er zijn 4 hoofdvelden onder ocr:

  • mistralModel
  • apiKey
  • baseURL
  • strategy

Opmerkingen:

  • Als je de Mistral OCR API gebruikt, hoef je je librechat.yaml bestand niet aan te passen.
    • Je hebt alleen de volgende omgevingsvariabelen nodig om aan de slag te gaan: OCR_API_KEY en OCR_BASEURL.
  • OCR-functionaliteit stelt de applicatie in staat om tekst uit afbeeldingen te extraheren, die vervolgens door AI-modellen kan worden verwerkt.
  • De standaardstrategie is mistral_ocr, die gebruikmaakt van de OCR-mogelijkheden van Mistral.
  • Je kunt ook een aangepaste OCR-service configureren door de strategy in te stellen op custom_ocr.
  • Azure-deployed Mistral OCR-modellen kunnen worden gebruikt door de strategie in te stellen op azure_mistral_ocr.
  • Google Vertex AI-geïmplementeerde Mistral OCR-modellen kunnen worden gebruikt door de strategie in te stellen op vertexai_mistral_ocr.
    • Vereist dat de GOOGLE_SERVICE_KEY_FILE omgevingsvariabele is ingesteld met service account-inloggegevens
    • De service key kan worden verstrekt als: bestandspad, URL, base64-gecodeerde JSON of onbewerkte JSON-string
    • Project ID en locatie worden automatisch geëxtraheerd uit de service account-referenties
  • Lokale tekstextractie is beschikbaar via document_parser, die tekst extraheert uit PDF-, DOCX-, XLS/XLSX- en OpenDocument-bestanden zonder enige externe API.
    • Maakt lokaal gebruik van pdfjs-dist, mammoth en SheetJS — geen API-sleutel of base URL nodig
    • Alleen het strategy veld is vereist; apiKey, baseURL en mistralModel worden genegeerd
  • Als je de standaard Mistral OCR gebruikt, kun je optioneel een specifiek Mistral-model opgeven om te gebruiken.
  • Omgevingsvariabele-parsing wordt ondersteund voor apiKey, baseURL en mistralModel parameters.
  • Een user_provided strategie-optie is gepland voor toekomstige releases, maar is nog niet geïmplementeerd.

Automatische documentverwerking (Geen configuratie vereist)

De ingebouwde document_parser wordt automatisch uitgevoerd voor het uploaden van bestanden door agents, zelfs wanneer er geen ocr blok is geconfigureerd in je librechat.yaml. Dit betekent dat PDF-, DOCX-, XLS/XLSX- en ODS-bestanden direct uit de doos worden geparseerd zonder enige configuratie.

De resolutielogica werkt als volgt:

  1. Geen ocr configuratie aanwezig — Wanneer een contextbestand voor een agent wordt geüpload en het MIME-type overeenkomt met een ondersteund documenttype (PDF, DOCX, Excel, ODS), wordt de document_parser direct gebruikt. Er is geen OCR-capaciteitscontrole vereist voor de agent.

  2. ocr config bestaat — De geconfigureerde strategie (bijv. mistral_ocr) wordt als eerste geprobeerd. Als de geconfigureerde strategie faalt tijdens runtime, wordt de document_parser gebruikt als fallback, zodat tekstextractie voor ondersteunde documenttypen alsnog slaagt.

  3. Geen van beide slaagt — Als zowel de geconfigureerde strategie als de document-parser falen (bijv. het bestand is een PDF die alleen uit afbeeldingen bestaat zonder ingesloten tekst), wordt er een foutmelding geretourneerd met de suggestie dat een OCR-service nodig is.

De document_parser verwerkt alleen tekstgebaseerde documenten. Voor op afbeeldingen gebaseerde PDF's of gescande documenten heb je nog steeds een geconfigureerde OCR-strategie nodig (zoals mistral_ocr) om tekst uit de afbeeldingen in die bestanden te extraheren.

Voorbeeld

ocr:
  mistralModel: "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"
  strategy: "mistral_ocr"

Voorbeeld met aangepaste OCR:

ocr:
  apiKey: "your-custom-ocr-api-key"
  baseURL: "https://your-custom-ocr-service.com/api"
  strategy: "custom_ocr"

Voorbeeld met Azure Mistral OCR:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
  strategy: "azure_mistral_ocr"

Voorbeeld met Google Vertex AI Mistral OCR:

ocr:
  mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"

Voorbeeld met lokale documentparser (geen externe API nodig):

ocr:
  strategy: "document_parser"

mistralModel

KeyTypeDescriptionExample
mistralModelStringHet Mistral-model dat moet worden gebruikt voor OCR-verwerking. Voor Azure-implementaties moet dit overeenkomen met uw implementatienaam. Voor Google Vertex AI moet dit overeenkomen met de modelnaam in uw implementatie.Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr.
ocr:
  mistralModel: "mistral-ocr-latest"

Voor Azure-implementaties:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment name

Voor Google Vertex AI-implementaties:

ocr:
  mistralModel: "mistral-ocr-2505" # Your Vertex AI model name

apiKey

KeyTypeDescriptionExample
apiKeyStringDe API-sleutel voor de OCR-service. Niet gebruikt voor Google Vertex AI (gebruikt serviceaccount-authenticatie via GOOGLE_SERVICE_KEY_FILE).Optional. Defaults to the environment variable OCR_API_KEY if not specified.
ocr:
  apiKey: "your-ocr-api-key"

baseURL

KeyTypeDescriptionExample
baseURLStringDe basis-URL voor de OCR-service-API. Voor Google Vertex AI wordt deze automatisch geconstrueerd op basis van de serviceaccount-referenties.Optional. Defaults to the environment variable OCR_BASEURL if not specified.
ocr:
  baseURL: "https://your-ocr-service.com/api"

strategy

KeyTypeDescriptionExample
strategyStringDe te gebruiken OCR-strategie.Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr".
ocr:
  strategy: "custom_ocr"

Beschikbare strategieën:

  • mistral_ocr: Gebruikt de OCR-mogelijkheden van Mistral via de standaard Mistral API.
  • azure_mistral_ocr: Gebruikt Mistral OCR-modellen die zijn geïmplementeerd op Azure AI Foundry.
  • vertexai_mistral_ocr: Gebruikt Mistral OCR-modellen die zijn ingezet op Google Cloud Vertex AI.
  • document_parser: Gebruikt lokale tekstextractie voor PDF-, DOCX-, XLS/XLSX- en OpenDocument-bestanden. Geen externe API nodig. Draait ook automatisch voor bestandsuploads van agents wanneer er geen ocr configuratie aanwezig is, en als fallback wanneer een geconfigureerde OCR-strategie faalt.
  • custom_ocr: Gebruikt een aangepaste OCR-service gespecificeerd door de baseURL (nog niet geïmplementeerd).

Hoe is deze gids?