Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Struktur des OCR-Konfigurationsobjekts

Übersicht

Das ocr Objekt ermöglicht es Ihnen, die Einstellungen für die optische Zeichenerkennung (OCR) der Anwendung zu konfigurieren, wodurch die Extraktion von Text aus Bildern ermöglicht wird. Dieser Abschnitt bietet eine detaillierte Aufschlüsselung der Struktur des ocr Objekts.

Es gibt 4 Hauptfelder unter ocr:

  • mistralModel
  • apiKey
  • baseURL
  • strategy

Hinweise:

  • Wenn Sie die Mistral OCR API verwenden, müssen Sie Ihre librechat.yaml Datei nicht bearbeiten.
    • Sie benötigen nur die folgenden Umgebungsvariablen, um zu beginnen: OCR_API_KEY und OCR_BASEURL.
  • Die OCR-Funktionalität ermöglicht es der Anwendung, Text aus Bildern zu extrahieren, der anschließend von KI-Modellen verarbeitet werden kann.
  • Die Standardstrategie ist mistral_ocr, welche die OCR-Funktionen von Mistral nutzt.
  • Sie können auch einen benutzerdefinierten OCR-Dienst konfigurieren, indem Sie die Strategie auf custom_ocr setzen.
  • In Azure bereitgestellte Mistral OCR-Modelle können verwendet werden, indem die Strategie auf azure_mistral_ocr gesetzt wird.
  • In Google Vertex AI bereitgestellte Mistral OCR-Modelle können verwendet werden, indem die Strategie auf vertexai_mistral_ocr gesetzt wird.
    • Erfordert, dass die Umgebungsvariable GOOGLE_SERVICE_KEY_FILE mit den Anmeldedaten des Dienstkontos festgelegt wird.
    • Der Service-Key kann wie folgt bereitgestellt werden: als Dateipfad, URL, base64-kodierter JSON-String oder als roher JSON-String
    • Die Projekt-ID und der Standort werden automatisch aus den Anmeldeinformationen des Dienstkontos extrahiert.
  • Die lokale Textextraktion ist über document_parser verfügbar, welcher Text aus PDF-, DOCX-, XLS/XLSX- und OpenDocument-Dateien ohne externe API extrahiert.
    • Verwendet pdfjs-dist, mammoth und SheetJS lokal — kein API-Schlüssel oder Basis-URL erforderlich
    • Nur das Feld strategy ist erforderlich; apiKey, baseURL und mistralModel werden ignoriert.
  • Wenn Sie das standardmäßige Mistral OCR verwenden, können Sie optional ein spezifisches Mistral-Modell angeben, das verwendet werden soll.
  • Die Umgebungsvariablen-Analyse wird für die Parameter apiKey, baseURL und mistralModel unterstützt.
  • Eine user_provided Strategieoption ist für zukünftige Releases geplant, aber noch nicht implementiert.

Automatische Dokumentenanalyse (Keine Konfiguration erforderlich)

Der integrierte document_parser wird für Datei-Uploads von Agents automatisch ausgeführt, selbst wenn kein ocr-Block in Ihrer librechat.yaml konfiguriert ist. Das bedeutet, dass PDF-, DOCX-, XLS/XLSX- und ODS-Dateien ohne jegliche Einrichtung sofort verarbeitet werden können.

Die Auflösungslogik funktioniert wie folgt:

  1. Keine ocr-Konfiguration vorhanden — Wenn eine Agent-Kontextdatei hochgeladen wird und ihr MIME-Typ einem unterstützten Dokumenttyp (PDF, DOCX, Excel, ODS) entspricht, wird der document_parser direkt verwendet. Für den Agenten ist keine OCR-Fähigkeitsprüfung erforderlich.

  2. ocr Konfiguration vorhanden — Die konfigurierte Strategie (z. B. mistral_ocr) wird zuerst versucht. Wenn die konfigurierte Strategie zur Laufzeit fehlschlägt, wird der document_parser als Fallback verwendet, damit die Textextraktion für unterstützte Dokumenttypen weiterhin erfolgreich ist.

  3. Beides schlägt fehl — Wenn sowohl die konfigurierte Strategie als auch der Dokumenten-Parser fehlschlagen (z. B. bei einer reinen Bild-PDF ohne eingebetteten Text), wird ein Fehler zurückgegeben, der darauf hinweist, dass ein OCR-Dienst erforderlich ist.

Der document_parser verarbeitet ausschließlich textbasierte Dokumente. Für bildbasierte PDFs oder gescannte Dokumente benötigen Sie weiterhin eine konfigurierte OCR-Strategie (wie z. B. mistral_ocr), um den Text aus den Bildern innerhalb dieser Dateien zu extrahieren.

Beispiel

ocr:
  mistralModel: "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"
  strategy: "mistral_ocr"

Beispiel mit benutzerdefiniertem OCR:

ocr:
  apiKey: "your-custom-ocr-api-key"
  baseURL: "https://your-custom-ocr-service.com/api"
  strategy: "custom_ocr"

Beispiel mit Azure Mistral OCR:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
  strategy: "azure_mistral_ocr"

Beispiel mit Google Vertex AI Mistral OCR:

ocr:
  mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"

Beispiel mit lokalem Dokument-Parser (keine externe API erforderlich):

ocr:
  strategy: "document_parser"

mistralModel

KeyTypeDescriptionExample
mistralModelStringDas für die OCR-Verarbeitung zu verwendende Mistral-Modell. Bei Azure-Bereitstellungen sollte dies mit Ihrem Bereitstellungsnamen übereinstimmen. Bei Google Vertex AI sollte dies mit dem Modellnamen in Ihrer Bereitstellung übereinstimmen.Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr.
ocr:
  mistralModel: "mistral-ocr-latest"

Für Azure-Bereitstellungen:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment name

Für Google Vertex AI-Bereitstellungen:

ocr:
  mistralModel: "mistral-ocr-2505" # Your Vertex AI model name

apiKey

KeyTypeDescriptionExample
apiKeyStringDer API-Schlüssel für den OCR-Dienst. Wird nicht für Google Vertex AI verwendet (nutzt Dienstkonto-Authentifizierung über GOOGLE_SERVICE_KEY_FILE).Optional. Defaults to the environment variable OCR_API_KEY if not specified.
ocr:
  apiKey: "your-ocr-api-key"

baseURL

KeyTypeDescriptionExample
baseURLStringDie Basis-URL für die OCR-Service-API. Für Google Vertex AI wird diese automatisch aus den Anmeldedaten des Dienstkontos erstellt.Optional. Defaults to the environment variable OCR_BASEURL if not specified.
ocr:
  baseURL: "https://your-ocr-service.com/api"

strategy

KeyTypeDescriptionExample
strategyStringDie zu verwendende OCR-Strategie.Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr".
ocr:
  strategy: "custom_ocr"

Verfügbare Strategien:

  • mistral_ocr: Nutzt die OCR-Funktionen von Mistral über die standardmäßige Mistral API.
  • azure_mistral_ocr: Verwendet Mistral OCR-Modelle, die auf Azure AI Foundry bereitgestellt wurden.
  • vertexai_mistral_ocr: Verwendet Mistral OCR-Modelle, die auf Google Cloud Vertex AI bereitgestellt werden.
  • document_parser: Nutzt lokale Textextraktion für PDF-, DOCX-, XLS/XLSX- und OpenDocument-Dateien. Es ist keine externe API erforderlich. Wird außerdem automatisch für Datei-Uploads von Agents ausgeführt, wenn keine ocr-Konfiguration vorhanden ist, sowie als Fallback, wenn eine konfigurierte OCR-Strategie fehlschlägt.
  • custom_ocr: Verwendet einen benutzerdefinierten OCR-Dienst, der durch die baseURL angegeben wird (noch nicht implementiert).

Wie finden Sie diese Anleitung?