OCR pour documents
Apprenez à configurer la reconnaissance optique de caractères (OCR) pour améliorer l'extraction de texte dans les fonctionnalités de téléchargement de fichiers de LibreChat.
L'OCR (Reconnaissance Optique de Caractères) dans LibreChat est une amélioration optionnelle pour l'extraction de texte à partir de fichiers.
Télécharger en tant que texte
La fonctionnalité "Upload as Text" (depuis le chat) fonctionne de la même manière :
- Les fichiers correspondant à
fileConfig.ocr.supportedMimeTypesutilisent l'OCR s'il est disponible - Revient à l'analyse de texte si l'OCR n'est pas configuré
- Particulièrement utile pour les images contenant du texte, les documents numérisés et les PDF complexes
- Priorité de traitement : OCR > STT > analyse de texte
- Consultez la documentation Upload as Text pour plus de détails.
Contexte de fichier (pour les agents)
Lorsque vous téléversez des fichiers via la section File Context du Agent Builder :
- Le texte est extrait par défaut à l'aide de l'analyse syntaxique (OCR/STT si configuré et si le fichier correspond).
- Le texte extrait est stocké dans le cadre des instructions système de l'agent.
- L'agent peut référencer ce contexte dans toutes les conversations
- Le service OCR est optionnel - la fonctionnalité fonctionne sans lui en utilisant l'analyse de texte
Les fichiers téléchargés en tant que "File Context" sont traités pour en extraire le texte, qui est ensuite ajouté aux instructions système de l'Agent. C'est idéal pour les documents, les fichiers de code, les PDF ou les images contenant du texte dont vous avez besoin que le contenu textuel complet soit inclus dans les instructions de l'agent.
Remarque : Le texte extrait est inclus dans les instructions système de l'agent.
Configuration OCR optionnelle
Le contexte de fichier d'agent (Agent File Context) et le téléchargement en tant que texte (Upload as Text) fonctionnent tous deux immédiatement grâce à l'analyse de texte. Pour améliorer la qualité de l'extraction pour les images et les documents numérisés, vous pouvez éventuellement configurer un service OCR :
Remarque : La fonctionnalité context est activée par défaut. Vous n'avez besoin de configurer l'OCR (la fonctionnalité ocr) que si vous souhaitez une qualité d'extraction améliorée pour les images et les documents numérisés.
Aperçu des capacités OCR
La fonctionnalité OCR dans LibreChat permet :
- Extraire du texte à partir d'images et de documents
- Maintenir la structure et le formatage du document
- Traiter des mises en page complexes, y compris du texte en plusieurs colonnes
- Gérer les tableaux, les équations et autres contenus spécialisés
- Travailler avec du contenu multilingue
Stratégies d'OCR
LibreChat prend en charge plusieurs stratégies d'OCR pour répondre aux différents besoins et exigences de déploiement. Choisissez la stratégie qui correspond le mieux à votre infrastructure et à vos exigences de conformité.
1. Mistral OCR (Par défaut)
La stratégie par défaut utilise directement le service API cloud de Mistral. Il s'agit de la configuration la plus simple qui ne nécessite qu'une clé API de Mistral.
Variables d'environnement :
Configuration :
Fonctionnalités clés :
- Préservation de la structure du document : Maintient le formatage tel que les en-têtes, les paragraphes, les listes et les tableaux
- Support multilingue : Traite le texte dans plusieurs langues et écritures
- Gestion de mise en page complexe : Gère le texte en colonnes multiples et le contenu mixte
- Reconnaissance d'expressions mathématiques : Traite avec précision les équations et les formules
- Traitement haute vitesse : Traite jusqu'à 2000 pages par minute
Considérations :
- Coût : L'utilisation de Mistral OCR peut entraîner des coûts car il s'agit d'un service d'API payant (bien que des essais gratuits puissent être disponibles).
- Confidentialité des données : Les données traitées via Mistral OCR sont soumises à l'environnement cloud de Mistral et à leurs conditions d'utilisation.
- Limitations du document :
- Taille maximale de fichier : 50 Mo
- Longueur maximale du document : 1 000 pages
2. Azure Mistral OCR
Pour les organisations utilisant Azure AI Foundry, vous pouvez déployer des modèles Mistral OCR sur votre infrastructure Azure. Actuellement, le modèle Mistral OCR 2503 est disponible pour le déploiement sur Azure.
Configuration :
Informations sur le modèle Azure : Vous pouvez explorer le dernier modèle Mistral OCR disponible sur Azure AI Foundry ici (nécessite un abonnement Azure) :
https://ai.azure.com/explore/models/mistral-ocr-2503
3. Google Vertex AI Mistral OCR
Pour les organisations utilisant Google Cloud Platform, vous pouvez déployer des modèles Mistral OCR sur votre infrastructure Google Cloud Vertex AI.
Variables d'environnement :
Configuration :
Configuration requise :
- Déployez un modèle Mistral OCR sur Google Vertex AI (par ex. mistral-ocr-2505)
- Créez un compte de service avec les autorisations appropriées pour accéder à l'endpoint Vertex AI
- Téléchargez le fichier de clé JSON du compte de service
- Définissez la variable d'environnement
GOOGLE_SERVICE_KEY_FILEen utilisant l'une des méthodes prises en charge
4. OCR personnalisé (Prévu)
La prise en charge de fournisseurs OCR personnalisés et de stratégies définies par l'utilisateur est prévue pour les prochaines versions.
5. Téléverser des fichiers vers le fournisseur (Direct)
Pour les fournisseurs de LLM pris en charge (OpenAI, AzureOpenAI, Anthropic, Google et AWS Bedrock) et leurs modèles respectifs, les fichiers peuvent désormais être envoyés directement aux API des fournisseurs en tant que pièces jointes aux messages, permettant au fournisseur d'utiliser ses propres implémentations OCR natives pour analyser les fichiers via l'option Upload to Provider dans le menu déroulant des pièces jointes.
Actuellement, les cinq fournisseurs susmentionnés offrent une prise en charge des images et des PDF, Google incluant également la prise en charge des fichiers audio et vidéo lorsqu'ils sont utilisés conjointement avec des modèles multimodaux compatibles. AWS Bedrock prend en outre en charge les documents CSV, DOC, DOCX, XLS, XLSX, HTML, TXT et Markdown.
Mise en garde concernant le téléchargement de PDF avec Azure OpenAI
Pour les endpoints Azure OpenAI, l'option Upload to Provider pour les fichiers PDF est uniquement disponible lors de l'utilisation de l'API Responses. L'API Chat Completions d'Azure OpenAI prend en charge les images mais ne prend pas en charge les pièces jointes au format PDF.
Si vous ne voyez pas « Upload to Provider » comme option pour les PDF dans le menu déroulant des pièces jointes de votre chat avec Azure OpenAI, assurez-vous que le paramètre Responses API est activé dans le panneau Parameters.
Remarque : Les endpoints OpenAI standard prennent en charge les téléchargements de PDF dans les API Chat Completions et Responses.
Limites de téléchargement de documents AWS Bedrock
AWS Bedrock prend en charge le téléchargement de documents via l'API Converse pour les formats suivants : PDF, CSV, DOC, DOCX, XLS, XLSX, HTML, TXT et Markdown (.md)
Contraintes:
- Taille maximale de fichier par document : 4,5 Mo
- Les noms de fichiers sont nettoyés pour se conformer aux exigences de nommage de Bedrock (alphanumérique, espaces, tirets, parenthèses, crochets ; 200 caractères maximum)
Pour plus de détails sur la configuration de Bedrock, consultez le guide de configuration AWS Bedrock.
Configuration détaillée
Pour des options de configuration supplémentaires et détaillées, consultez la OCR Config Object Structure.
Configuration du traitement OCR
Contrôlez les types de fichiers traités avec l'OCR en utilisant fileConfig :
Les fichiers correspondant à ces modèles utiliseront l'OCR lorsque :
- Téléversé dans le contexte de fichier de l'agent (toujours, si l'OCR est configuré)
- Téléchargé en tant que texte dans le chat (si l'OCR est configuré ; sinon, revient à l'analyse de texte)
Pour plus de détails sur la configuration du traitement des fichiers, consultez File Config Object Structure.
Cas d'utilisation pour le contexte de fichier de l'agent
Le contexte de fichier d'agent est idéal pour :
- Connaissance persistante de l'agent : Ajoutez de la documentation, des politiques ou des documents de référence aux instructions système d'un agent
- Agents spécialisés : Créez des agents dotés de connaissances spécifiques à un domaine à partir de documents
- Assistants basés sur des documents : Créez des agents qui se réfèrent toujours à des manuels ou des guides spécifiques
- Fichiers de code : Incluez des exemples de code ou des bibliothèques dans les instructions de l'agent
- Données structurées : Ajoutez des fichiers CSV, JSON ou d'autres données structurées pour que l'agent puisse s'y référer
Lorsque l'OCR est configuré, le File Context gère également :
- Traitement de documents numérisés : Extraire et stocker le texte à partir d'images ou de PDF numérisés
- Extraction de texte d'image : Extrayez du texte à partir de captures d'écran ou de photos de documents
Pour des questions temporaires sur des documents dans le chat, consultez Upload as Text.
Limitations
- La précision de l'extraction de texte peut varier en fonction du type de fichier, de la qualité de l'image, de la complexité du document et de la clarté du texte.
- Certains formats spécialisés ou mises en page inhabituelles pourraient ne pas être parfaitement préservés.
- Les documents très volumineux peuvent être tronqués en raison des limitations de jetons (tokens) des modèles d'IA sous-jacents.
- Pour de meilleurs résultats avec les images et les documents numérisés, configurez un service OCR
Améliorations futures
LibreChat prévoit d'étendre les capacités d'OCR dans les prochaines versions :
- Prise en charge de fournisseurs OCR personnalisés
- Une option de stratégie
user_providedqui permettra aux utilisateurs de choisir leur service OCR préféré - Intégration avec des solutions OCR open-source
- Options améliorées de traitement de documents
- Contrôle plus granulaire sur les paramètres OCR
- Mistral prévoit de rendre son API OCR disponible via ses partenaires cloud, tels que GCP et AWS, ainsi que par auto-hébergement en entreprise pour les organisations ayant des exigences strictes en matière de confidentialité des données (source)
- LibreChat n'inclut actuellement pas le contenu d'image analysé issu du processus OCR dans ses réponses, bien que des services comme l'API OCR de Mistral puissent fournir ces éléments dans le résultat. Cette fonctionnalité pourrait être prise en charge dans de futures mises à jour.
Pour plus d'informations sur la configuration de l'OCR, consultez la Structure de l'objet de configuration OCR.
Que pensez-vous de ce guide ?