Cấu trúc đối tượng cấu hình OCR
Tổng quan
Đối tượng ocr cho phép bạn cấu hình các thiết lập Nhận dạng Ký tự Quang học (OCR) cho ứng dụng, cho phép trích xuất văn bản từ hình ảnh. Phần này cung cấp thông tin chi tiết về cấu trúc của đối tượng ocr.
Có 4 trường chính trong ocr:
mistralModelapiKeybaseURLstrategy
Ghi chú:
- Nếu sử dụng Mistral OCR API, bạn không cần chỉnh sửa tệp
librechat.yamlcủa mình.- Bạn chỉ cần các biến môi trường sau để bắt đầu:
OCR_API_KEYvàOCR_BASEURL.
- Bạn chỉ cần các biến môi trường sau để bắt đầu:
- Tính năng OCR cho phép ứng dụng trích xuất văn bản từ hình ảnh, sau đó văn bản này có thể được xử lý bởi các mô hình AI.
- Chiến lược mặc định là
mistral_ocr, sử dụng các khả năng OCR của Mistral. - Bạn cũng có thể cấu hình dịch vụ OCR tùy chỉnh bằng cách đặt chiến lược thành
custom_ocr. - Các mô hình Mistral OCR được triển khai trên Azure có thể được sử dụng bằng cách đặt chiến lược (strategy) thành
azure_mistral_ocr. - Các mô hình Mistral OCR được triển khai trên Google Vertex AI có thể được sử dụng bằng cách đặt strategy thành
vertexai_mistral_ocr.- Yêu cầu biến môi trường
GOOGLE_SERVICE_KEY_FILEphải được thiết lập với thông tin xác thực tài khoản dịch vụ (service account credentials) - Service key có thể được cung cấp dưới dạng: đường dẫn tệp, URL, chuỗi JSON mã hóa base64, hoặc chuỗi JSON thô
- Project ID và vị trí được tự động trích xuất từ thông tin xác thực của service account
- Yêu cầu biến môi trường
- Tính năng trích xuất văn bản cục bộ khả dụng thông qua
document_parser, giúp trích xuất văn bản từ các tệp PDF, DOCX, XLS/XLSX và OpenDocument mà không cần bất kỳ API bên ngoài nào.- Sử dụng
pdfjs-dist,mammothvàSheetJScục bộ — không cần API key hoặc base URL - Chỉ có trường
strategylà bắt buộc;apiKey,baseURLvàmistralModelsẽ bị bỏ qua
- Sử dụng
- Nếu sử dụng Mistral OCR mặc định, bạn có thể tùy chọn chỉ định một model Mistral cụ thể để sử dụng.
- Hỗ trợ phân tích cú pháp biến môi trường cho các tham số
apiKey,baseURLvàmistralModel. - Một tùy chọn chiến lược
user_providedđã được lên kế hoạch cho các bản phát hành trong tương lai nhưng hiện vẫn chưa được triển khai.
Tự động phân tích tài liệu (Không yêu cầu cấu hình)
document_parser tích hợp sẵn sẽ tự động chạy cho các tệp tin được tải lên bởi agent ngay cả khi không có khối ocr nào được cấu hình trong librechat.yaml của bạn. Điều này có nghĩa là các tệp PDF, DOCX, XLS/XLSX và ODS sẽ được phân tích cú pháp ngay lập tức mà không cần bất kỳ thiết lập nào.
Logic phân giải hoạt động như sau:
-
Không có cấu hình
ocr— Khi một tệp ngữ cảnh của tác nhân (agent) được tải lên và loại MIME của nó khớp với loại tài liệu được hỗ trợ (PDF, DOCX, Excel, ODS),document_parsersẽ được sử dụng trực tiếp. Không cần kiểm tra khả năng OCR cho tác nhân. -
ocrconfig tồn tại — Chiến lược đã cấu hình (ví dụ:mistral_ocr) sẽ được thử trước. Nếu chiến lược đã cấu hình thất bại trong quá trình chạy (runtime),document_parsersẽ được sử dụng làm phương án dự phòng để việc trích xuất văn bản vẫn thành công đối với các loại tài liệu được hỗ trợ. -
Cả hai đều không thành công — Nếu cả chiến lược được cấu hình và trình phân tích cú pháp tài liệu đều thất bại (ví dụ: tệp là tệp PDF chỉ chứa hình ảnh mà không có văn bản nhúng), một lỗi sẽ được trả về gợi ý rằng cần có dịch vụ OCR.
document_parser chỉ xử lý các tài liệu dựa trên văn bản. Đối với các tệp PDF dựa trên hình ảnh hoặc tài liệu được quét, bạn vẫn cần một chiến lược OCR đã được cấu hình (chẳng hạn như mistral_ocr) để trích xuất văn bản từ các hình ảnh bên trong những tệp đó.
Ví dụ
ocr:
mistralModel: "mistral-ocr-latest"
apiKey: "your-mistral-api-key"
strategy: "mistral_ocr"Ví dụ với OCR tùy chỉnh:
ocr:
apiKey: "your-custom-ocr-api-key"
baseURL: "https://your-custom-ocr-service.com/api"
strategy: "custom_ocr"Ví dụ với Azure Mistral OCR:
ocr:
mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
strategy: "azure_mistral_ocr"Ví dụ với Google Vertex AI Mistral OCR:
ocr:
mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
strategy: "vertexai_mistral_ocr"Ví dụ với trình phân tích tài liệu cục bộ (không cần API bên ngoài):
ocr:
strategy: "document_parser"mistralModel
| Key | Type | Description | Example |
|---|---|---|---|
| mistralModel | String | Mô hình Mistral được sử dụng để xử lý OCR. Đối với các triển khai Azure, giá trị này phải khớp với tên triển khai của bạn. Đối với Google Vertex AI, giá trị này phải khớp với tên mô hình trong triển khai của bạn. | Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr. |
ocr:
mistralModel: "mistral-ocr-latest"Đối với các triển khai Azure:
ocr:
mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment nameĐối với các triển khai Google Vertex AI:
ocr:
mistralModel: "mistral-ocr-2505" # Your Vertex AI model nameapiKey
| Key | Type | Description | Example |
|---|---|---|---|
| apiKey | String | Khóa API cho dịch vụ OCR. Không được sử dụng cho Google Vertex AI (sử dụng xác thực tài khoản dịch vụ thông qua GOOGLE_SERVICE_KEY_FILE). | Optional. Defaults to the environment variable OCR_API_KEY if not specified. |
ocr:
apiKey: "your-ocr-api-key"baseURL
| Key | Type | Description | Example |
|---|---|---|---|
| baseURL | String | URL cơ sở cho API dịch vụ OCR. Đối với Google Vertex AI, URL này được tự động tạo từ thông tin xác thực tài khoản dịch vụ. | Optional. Defaults to the environment variable OCR_BASEURL if not specified. |
ocr:
baseURL: "https://your-ocr-service.com/api"strategy
| Key | Type | Description | Example |
|---|---|---|---|
| strategy | String | Chiến lược OCR cần sử dụng. | Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr". |
ocr:
strategy: "custom_ocr"Các chiến lược khả dụng:
mistral_ocr: Sử dụng các khả năng OCR của Mistral thông qua Mistral API tiêu chuẩn.azure_mistral_ocr: Sử dụng các mô hình Mistral OCR được triển khai trên Azure AI Foundry.vertexai_mistral_ocr: Sử dụng các mô hình Mistral OCR được triển khai trên Google Cloud Vertex AI.document_parser: Sử dụng tính năng trích xuất văn bản cục bộ cho các tệp PDF, DOCX, XLS/XLSX và OpenDocument. Không cần API bên ngoài. Tính năng này cũng tự động chạy cho các tệp tải lên của agent khi không có cấu hìnhocrvà đóng vai trò là phương án dự phòng khi chiến lược OCR được cấu hình gặp lỗi.custom_ocr: Sử dụng dịch vụ OCR tùy chỉnh được chỉ định bởibaseURL(chưa được triển khai).
Hướng dẫn này thế nào?