Struktur des OCR-Konfigurationsobjekts
Übersicht
Das ocr Objekt ermöglicht es Ihnen, die Einstellungen für die optische Zeichenerkennung (OCR) der Anwendung zu konfigurieren, wodurch die Extraktion von Text aus Bildern ermöglicht wird. Dieser Abschnitt bietet eine detaillierte Aufschlüsselung der Struktur des ocr Objekts.
Es gibt 4 Hauptfelder unter ocr:
mistralModelapiKeybaseURLstrategy
Hinweise:
- Wenn Sie die Mistral OCR API verwenden, müssen Sie Ihre
librechat.yamlDatei nicht bearbeiten.- Sie benötigen nur die folgenden Umgebungsvariablen, um zu beginnen:
OCR_API_KEYundOCR_BASEURL.
- Sie benötigen nur die folgenden Umgebungsvariablen, um zu beginnen:
- Die OCR-Funktionalität ermöglicht es der Anwendung, Text aus Bildern zu extrahieren, der anschließend von KI-Modellen verarbeitet werden kann.
- Die Standardstrategie ist
mistral_ocr, welche die OCR-Funktionen von Mistral nutzt. - Sie können auch einen benutzerdefinierten OCR-Dienst konfigurieren, indem Sie die Strategie auf
custom_ocrsetzen. - In Azure bereitgestellte Mistral OCR-Modelle können verwendet werden, indem die Strategie auf
azure_mistral_ocrgesetzt wird. - In Google Vertex AI bereitgestellte Mistral OCR-Modelle können verwendet werden, indem die Strategie auf
vertexai_mistral_ocrgesetzt wird.- Erfordert, dass die Umgebungsvariable
GOOGLE_SERVICE_KEY_FILEmit den Anmeldedaten des Dienstkontos festgelegt wird. - Der Service-Key kann wie folgt bereitgestellt werden: als Dateipfad, URL, base64-kodierter JSON-String oder als roher JSON-String
- Die Projekt-ID und der Standort werden automatisch aus den Anmeldeinformationen des Dienstkontos extrahiert.
- Erfordert, dass die Umgebungsvariable
- Die lokale Textextraktion ist über
document_parserverfügbar, welcher Text aus PDF-, DOCX-, XLS/XLSX- und OpenDocument-Dateien ohne externe API extrahiert.- Verwendet
pdfjs-dist,mammothundSheetJSlokal — kein API-Schlüssel oder Basis-URL erforderlich - Nur das Feld
strategyist erforderlich;apiKey,baseURLundmistralModelwerden ignoriert.
- Verwendet
- Wenn Sie das standardmäßige Mistral OCR verwenden, können Sie optional ein spezifisches Mistral-Modell angeben, das verwendet werden soll.
- Die Umgebungsvariablen-Analyse wird für die Parameter
apiKey,baseURLundmistralModelunterstützt. - Eine
user_providedStrategieoption ist für zukünftige Releases geplant, aber noch nicht implementiert.
Automatische Dokumentenanalyse (Keine Konfiguration erforderlich)
Der integrierte document_parser wird für Datei-Uploads von Agents automatisch ausgeführt, selbst wenn kein ocr-Block in Ihrer librechat.yaml konfiguriert ist. Das bedeutet, dass PDF-, DOCX-, XLS/XLSX- und ODS-Dateien ohne jegliche Einrichtung sofort verarbeitet werden können.
Die Auflösungslogik funktioniert wie folgt:
-
Keine
ocr-Konfiguration vorhanden — Wenn eine Agent-Kontextdatei hochgeladen wird und ihr MIME-Typ einem unterstützten Dokumenttyp (PDF, DOCX, Excel, ODS) entspricht, wird derdocument_parserdirekt verwendet. Für den Agenten ist keine OCR-Fähigkeitsprüfung erforderlich. -
ocrKonfiguration vorhanden — Die konfigurierte Strategie (z. B.mistral_ocr) wird zuerst versucht. Wenn die konfigurierte Strategie zur Laufzeit fehlschlägt, wird derdocument_parserals Fallback verwendet, damit die Textextraktion für unterstützte Dokumenttypen weiterhin erfolgreich ist. -
Beides schlägt fehl — Wenn sowohl die konfigurierte Strategie als auch der Dokumenten-Parser fehlschlagen (z. B. bei einer reinen Bild-PDF ohne eingebetteten Text), wird ein Fehler zurückgegeben, der darauf hinweist, dass ein OCR-Dienst erforderlich ist.
Der document_parser verarbeitet ausschließlich textbasierte Dokumente. Für bildbasierte PDFs oder gescannte Dokumente benötigen Sie weiterhin eine konfigurierte OCR-Strategie (wie z. B. mistral_ocr), um den Text aus den Bildern innerhalb dieser Dateien zu extrahieren.
Beispiel
Beispiel mit benutzerdefiniertem OCR:
Beispiel mit Azure Mistral OCR:
Beispiel mit Google Vertex AI Mistral OCR:
Beispiel mit lokalem Dokument-Parser (keine externe API erforderlich):
mistralModel
| Key | Type | Description | Example |
|---|---|---|---|
| mistralModel | String | Das für die OCR-Verarbeitung zu verwendende Mistral-Modell. Bei Azure-Bereitstellungen sollte dies mit Ihrem Bereitstellungsnamen übereinstimmen. Bei Google Vertex AI sollte dies mit dem Modellnamen in Ihrer Bereitstellung übereinstimmen. | Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr. |
Für Azure-Bereitstellungen:
Für Google Vertex AI-Bereitstellungen:
apiKey
| Key | Type | Description | Example |
|---|---|---|---|
| apiKey | String | Der API-Schlüssel für den OCR-Dienst. Wird nicht für Google Vertex AI verwendet (nutzt Dienstkonto-Authentifizierung über GOOGLE_SERVICE_KEY_FILE). | Optional. Defaults to the environment variable OCR_API_KEY if not specified. |
baseURL
| Key | Type | Description | Example |
|---|---|---|---|
| baseURL | String | Die Basis-URL für die OCR-Service-API. Für Google Vertex AI wird diese automatisch aus den Anmeldedaten des Dienstkontos erstellt. | Optional. Defaults to the environment variable OCR_BASEURL if not specified. |
strategy
| Key | Type | Description | Example |
|---|---|---|---|
| strategy | String | Die zu verwendende OCR-Strategie. | Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr". |
Verfügbare Strategien:
mistral_ocr: Nutzt die OCR-Funktionen von Mistral über die standardmäßige Mistral API.azure_mistral_ocr: Verwendet Mistral OCR-Modelle, die auf Azure AI Foundry bereitgestellt wurden.vertexai_mistral_ocr: Verwendet Mistral OCR-Modelle, die auf Google Cloud Vertex AI bereitgestellt werden.document_parser: Nutzt lokale Textextraktion für PDF-, DOCX-, XLS/XLSX- und OpenDocument-Dateien. Es ist keine externe API erforderlich. Wird außerdem automatisch für Datei-Uploads von Agents ausgeführt, wenn keineocr-Konfiguration vorhanden ist, sowie als Fallback, wenn eine konfigurierte OCR-Strategie fehlschlägt.custom_ocr: Verwendet einen benutzerdefinierten OCR-Dienst, der durch diebaseURLangegeben wird (noch nicht implementiert).
Wie finden Sie diese Anleitung?