OCR pour documents

Apprenez à configurer la reconnaissance optique de caractères (OCR) pour améliorer l'extraction de texte dans les fonctionnalités de téléchargement de fichiers de LibreChat.

L'OCR (Reconnaissance Optique de Caractères) dans LibreChat est une amélioration optionnelle pour l'extraction de texte à partir de fichiers.

Télécharger en tant que texte

La fonctionnalité "Upload as Text" (depuis le chat) fonctionne de la même manière :

Les fichiers correspondant à fileConfig.ocr.supportedMimeTypes utilisent l'OCR s'il est disponible
Revient à l'analyse de texte si l'OCR n'est pas configuré
Particulièrement utile pour les images contenant du texte, les documents numérisés et les PDF complexes
Priorité de traitement : OCR > STT > analyse de texte
Consultez la documentation Upload as Text pour plus de détails.

Contexte de fichier (pour les agents)

Lorsque vous téléversez des fichiers via la section File Context du Agent Builder :

Le texte est extrait par défaut à l'aide de l'analyse syntaxique (OCR/STT si configuré et si le fichier correspond).
Le texte extrait est stocké dans le cadre des instructions système de l'agent.
L'agent peut référencer ce contexte dans toutes les conversations
Le service OCR est optionnel - la fonctionnalité fonctionne sans lui en utilisant l'analyse de texte

Les fichiers téléchargés en tant que "File Context" sont traités pour en extraire le texte, qui est ensuite ajouté aux instructions système de l'Agent. C'est idéal pour les documents, les fichiers de code, les PDF ou les images contenant du texte dont vous avez besoin que le contenu textuel complet soit inclus dans les instructions de l'agent.

Remarque : Le texte extrait est inclus dans les instructions système de l'agent.

Configuration OCR optionnelle

Le contexte de fichier d'agent (Agent File Context) et le téléchargement en tant que texte (Upload as Text) fonctionnent tous deux immédiatement grâce à l'analyse de texte. Pour améliorer la qualité de l'extraction pour les images et les documents numérisés, vous pouvez éventuellement configurer un service OCR :

# librechat.yaml
endpoints:
  agents:
    capabilities:
      - "context"  # Enables both agent file context and upload as text
      - "ocr"      # Optionally enhances both with OCR
 
ocr:
  strategy: "mistral_ocr"
  apiKey: "${OCR_API_KEY}"
  baseURL: "https://api.mistral.ai/v1"
  mistralModel: "mistral-ocr-latest"

Remarque : La fonctionnalité context est activée par défaut. Vous n'avez besoin de configurer l'OCR (la fonctionnalité ocr) que si vous souhaitez une qualité d'extraction améliorée pour les images et les documents numérisés.

Aperçu des capacités OCR

La fonctionnalité OCR dans LibreChat permet :

Extraire du texte à partir d'images et de documents
Maintenir la structure et le formatage du document
Traiter des mises en page complexes, y compris du texte en plusieurs colonnes
Gérer les tableaux, les équations et autres contenus spécialisés
Travailler avec du contenu multilingue

Stratégies d'OCR

LibreChat prend en charge plusieurs stratégies d'OCR pour répondre aux différents besoins et exigences de déploiement. Choisissez la stratégie qui correspond le mieux à votre infrastructure et à vos exigences de conformité.

1. Mistral OCR (Par défaut)

La stratégie par défaut utilise directement le service API cloud de Mistral. Il s'agit de la configuration la plus simple qui ne nécessite qu'une clé API de Mistral.

Variables d'environnement :

# `.env`
OCR_API_KEY=your-mistral-api-key
# OCR_BASEURL=https://api.mistral.ai/v1 # this is the default value

Configuration :

# `librechat.yaml`
ocr:
  mistralModel: "mistral-ocr-latest"       # Optional: Specify Mistral model, defaults to "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"           # Optional: Defaults to OCR_API_KEY env variable
  baseURL: "https://api.mistral.ai/v1"     # Optional: Defaults to OCR_BASEURL env variable, or Mistral's API if no variable set
  strategy: "mistral_ocr"                  # Optional: Defaults to "mistral_ocr"

Fonctionnalités clés :

Préservation de la structure du document : Maintient le formatage tel que les en-têtes, les paragraphes, les listes et les tableaux
Support multilingue : Traite le texte dans plusieurs langues et écritures
Gestion de mise en page complexe : Gère le texte en colonnes multiples et le contenu mixte
Reconnaissance d'expressions mathématiques : Traite avec précision les équations et les formules
Traitement haute vitesse : Traite jusqu'à 2000 pages par minute

Considérations :

Coût : L'utilisation de Mistral OCR peut entraîner des coûts car il s'agit d'un service d'API payant (bien que des essais gratuits puissent être disponibles).
Confidentialité des données : Les données traitées via Mistral OCR sont soumises à l'environnement cloud de Mistral et à leurs conditions d'utilisation.
Limitations du document :
- Taille maximale de fichier : 50 Mo
- Longueur maximale du document : 1 000 pages

2. Azure Mistral OCR

Pour les organisations utilisant Azure AI Foundry, vous pouvez déployer des modèles Mistral OCR sur votre infrastructure Azure. Actuellement, le modèle Mistral OCR 2503 est disponible pour le déploiement sur Azure.

Configuration :

# `librechat.yaml`
ocr:
  mistralModel: "deployed-mistral-ocr-2503"              # Should match your Azure deployment name
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}"                 # Reference to your Azure API key in .env
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1"  # Your Azure endpoint
  strategy: "azure_mistral_ocr"                          # Use Azure strategy

Informations sur le modèle Azure : Vous pouvez explorer le dernier modèle Mistral OCR disponible sur Azure AI Foundry ici (nécessite un abonnement Azure) :

https://ai.azure.com/explore/models/mistral-ocr-2503

3. Google Vertex AI Mistral OCR

Pour les organisations utilisant Google Cloud Platform, vous pouvez déployer des modèles Mistral OCR sur votre infrastructure Google Cloud Vertex AI.

Variables d'environnement :

# `.env`
# Option 1: File path
GOOGLE_SERVICE_KEY_FILE=/path/to/your/service-account-key.json
 
# Option 2: URL to fetch the key
GOOGLE_SERVICE_KEY_FILE=https://your-secure-server.com/service-account-key.json
 
# Option 3: Base64 encoded JSON
GOOGLE_SERVICE_KEY_FILE=eyJ0eXBlIjogInNlcnZpY2VfYWNjb3VudCIsICJwcm9qZWN0X2lkIjogInlvdXItcHJvamVjdC1pZCIsIC4uLn0=
 
# Option 4: Raw JSON string
GOOGLE_SERVICE_KEY_FILE='{
  "type": "service_account",
  "project_id": "your-project-id",
  "private_key_id": "...",
  "private_key": "-----BEGIN PRIVATE KEY-----\n...\n-----END PRIVATE KEY-----\n",
  "client_email": "...",
  "client_id": "...",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "..."
}'

Configuration :

# `librechat.yaml`
ocr:
  mistralModel: "mistral-ocr-2505"                        # Model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"                       # Use Google Vertex AI strategy

Configuration requise :

Déployez un modèle Mistral OCR sur Google Vertex AI (par ex. mistral-ocr-2505)
Créez un compte de service avec les autorisations appropriées pour accéder à l'endpoint Vertex AI
Téléchargez le fichier de clé JSON du compte de service
Définissez la variable d'environnement GOOGLE_SERVICE_KEY_FILE en utilisant l'une des méthodes prises en charge

4. OCR personnalisé (Prévu)

La prise en charge de fournisseurs OCR personnalisés et de stratégies définies par l'utilisateur est prévue pour les prochaines versions.

5. Téléverser des fichiers vers le fournisseur (Direct)

Pour les fournisseurs de LLM pris en charge (OpenAI, AzureOpenAI, Anthropic, Google et AWS Bedrock) et leurs modèles respectifs, les fichiers peuvent désormais être envoyés directement aux API des fournisseurs en tant que pièces jointes aux messages, permettant au fournisseur d'utiliser ses propres implémentations OCR natives pour analyser les fichiers via l'option Upload to Provider dans le menu déroulant des pièces jointes.

Actuellement, les cinq fournisseurs susmentionnés offrent une prise en charge des images et des PDF, Google incluant également la prise en charge des fichiers audio et vidéo lorsqu'ils sont utilisés conjointement avec des modèles multimodaux compatibles. AWS Bedrock prend en outre en charge les documents CSV, DOC, DOCX, XLS, XLSX, HTML, TXT et Markdown.

Mise en garde concernant le téléchargement de PDF avec Azure OpenAI

Pour les endpoints Azure OpenAI, l'option Upload to Provider pour les fichiers PDF est uniquement disponible lors de l'utilisation de l'API Responses. L'API Chat Completions d'Azure OpenAI prend en charge les images mais ne prend pas en charge les pièces jointes au format PDF.

Si vous ne voyez pas « Upload to Provider » comme option pour les PDF dans le menu déroulant des pièces jointes de votre chat avec Azure OpenAI, assurez-vous que le paramètre Responses API est activé dans le panneau Parameters.

Remarque : Les endpoints OpenAI standard prennent en charge les téléchargements de PDF dans les API Chat Completions et Responses.

Limites de téléchargement de documents AWS Bedrock

AWS Bedrock prend en charge le téléchargement de documents via l'API Converse pour les formats suivants : PDF, CSV, DOC, DOCX, XLS, XLSX, HTML, TXT et Markdown (.md)

Contraintes:

Taille maximale de fichier par document : 4,5 Mo
Les noms de fichiers sont nettoyés pour se conformer aux exigences de nommage de Bedrock (alphanumérique, espaces, tirets, parenthèses, crochets ; 200 caractères maximum)

Pour plus de détails sur la configuration de Bedrock, consultez le guide de configuration AWS Bedrock.

Configuration détaillée

Pour des options de configuration supplémentaires et détaillées, consultez la OCR Config Object Structure.

Configuration du traitement OCR

Contrôlez les types de fichiers traités avec l'OCR en utilisant fileConfig :

fileConfig:
  ocr:
    supportedMimeTypes:
      - "^image/(jpeg|gif|png|webp|heic|heif)$"
      - "^application/pdf$"
      - "^application/vnd\\.openxmlformats-officedocument\\.(wordprocessingml\\.document|presentationml\\.presentation|spreadsheetml\\.sheet)$"
      - "^application/vnd\\.ms-(word|powerpoint|excel)$"
      - "^application/epub\\+zip$"

Les fichiers correspondant à ces modèles utiliseront l'OCR lorsque :

Téléversé dans le contexte de fichier de l'agent (toujours, si l'OCR est configuré)
Téléchargé en tant que texte dans le chat (si l'OCR est configuré ; sinon, revient à l'analyse de texte)

Pour plus de détails sur la configuration du traitement des fichiers, consultez File Config Object Structure.

Cas d'utilisation pour le contexte de fichier de l'agent

Le contexte de fichier d'agent est idéal pour :

Connaissance persistante de l'agent : Ajoutez de la documentation, des politiques ou des documents de référence aux instructions système d'un agent
Agents spécialisés : Créez des agents dotés de connaissances spécifiques à un domaine à partir de documents
Assistants basés sur des documents : Créez des agents qui se réfèrent toujours à des manuels ou des guides spécifiques
Fichiers de code : Incluez des exemples de code ou des bibliothèques dans les instructions de l'agent
Données structurées : Ajoutez des fichiers CSV, JSON ou d'autres données structurées pour que l'agent puisse s'y référer

Lorsque l'OCR est configuré, le File Context gère également :

Traitement de documents numérisés : Extraire et stocker le texte à partir d'images ou de PDF numérisés
Extraction de texte d'image : Extrayez du texte à partir de captures d'écran ou de photos de documents

Pour des questions temporaires sur des documents dans le chat, consultez Upload as Text.

Limitations

La précision de l'extraction de texte peut varier en fonction du type de fichier, de la qualité de l'image, de la complexité du document et de la clarté du texte.
Certains formats spécialisés ou mises en page inhabituelles pourraient ne pas être parfaitement préservés.
Les documents très volumineux peuvent être tronqués en raison des limitations de jetons (tokens) des modèles d'IA sous-jacents.
Pour de meilleurs résultats avec les images et les documents numérisés, configurez un service OCR

Améliorations futures

LibreChat prévoit d'étendre les capacités d'OCR dans les prochaines versions :

Prise en charge de fournisseurs OCR personnalisés
Une option de stratégie user_provided qui permettra aux utilisateurs de choisir leur service OCR préféré
Intégration avec des solutions OCR open-source
Options améliorées de traitement de documents
Contrôle plus granulaire sur les paramètres OCR
Mistral prévoit de rendre son API OCR disponible via ses partenaires cloud, tels que GCP et AWS, ainsi que par auto-hébergement en entreprise pour les organisations ayant des exigences strictes en matière de confidentialité des données (source)
LibreChat n'inclut actuellement pas le contenu d'image analysé issu du processus OCR dans ses réponses, bien que des services comme l'API OCR de Mistral puissent fournir ces éléments dans le résultat. Cette fonctionnalité pourrait être prise en charge dans de futures mises à jour.

Pour plus d'informations sur la configuration de l'OCR, consultez la Structure de l'objet de configuration OCR.