Cấu trúc đối tượng cấu hình OCR

Tổng quan

Đối tượng ocr cho phép bạn cấu hình các thiết lập Nhận dạng Ký tự Quang học (OCR) cho ứng dụng, cho phép trích xuất văn bản từ hình ảnh. Phần này cung cấp thông tin chi tiết về cấu trúc của đối tượng ocr.

Có 4 trường chính trong ocr:

mistralModel
apiKey
baseURL
strategy

Ghi chú:

Nếu sử dụng Mistral OCR API, bạn không cần chỉnh sửa tệp librechat.yaml của mình.
- Bạn chỉ cần các biến môi trường sau để bắt đầu: OCR_API_KEY và OCR_BASEURL.
Tính năng OCR cho phép ứng dụng trích xuất văn bản từ hình ảnh, sau đó văn bản này có thể được xử lý bởi các mô hình AI.
Chiến lược mặc định là mistral_ocr, sử dụng các khả năng OCR của Mistral.
Bạn cũng có thể cấu hình dịch vụ OCR tùy chỉnh bằng cách đặt chiến lược thành custom_ocr.
Các mô hình Mistral OCR được triển khai trên Azure có thể được sử dụng bằng cách đặt chiến lược (strategy) thành azure_mistral_ocr.
Các mô hình Mistral OCR được triển khai trên Google Vertex AI có thể được sử dụng bằng cách đặt strategy thành vertexai_mistral_ocr.
- Yêu cầu biến môi trường GOOGLE_SERVICE_KEY_FILE phải được thiết lập với thông tin xác thực tài khoản dịch vụ (service account credentials)
- Service key có thể được cung cấp dưới dạng: đường dẫn tệp, URL, chuỗi JSON mã hóa base64, hoặc chuỗi JSON thô
- Project ID và vị trí được tự động trích xuất từ thông tin xác thực của service account
Tính năng trích xuất văn bản cục bộ khả dụng thông qua document_parser, giúp trích xuất văn bản từ các tệp PDF, DOCX, XLS/XLSX và OpenDocument mà không cần bất kỳ API bên ngoài nào.
- Sử dụng pdfjs-dist, mammoth và SheetJS cục bộ — không cần API key hoặc base URL
- Chỉ có trường strategy là bắt buộc; apiKey, baseURL và mistralModel sẽ bị bỏ qua
Nếu sử dụng Mistral OCR mặc định, bạn có thể tùy chọn chỉ định một model Mistral cụ thể để sử dụng.
Hỗ trợ phân tích cú pháp biến môi trường cho các tham số apiKey, baseURL và mistralModel.
Một tùy chọn chiến lược user_provided đã được lên kế hoạch cho các bản phát hành trong tương lai nhưng hiện vẫn chưa được triển khai.

Tự động phân tích tài liệu (Không yêu cầu cấu hình)

document_parser tích hợp sẵn sẽ tự động chạy cho các tệp tin được tải lên bởi agent ngay cả khi không có khối ocr nào được cấu hình trong librechat.yaml của bạn. Điều này có nghĩa là các tệp PDF, DOCX, XLS/XLSX và ODS sẽ được phân tích cú pháp ngay lập tức mà không cần bất kỳ thiết lập nào.

Logic phân giải hoạt động như sau:

Không có cấu hình ocr — Khi một tệp ngữ cảnh của tác nhân (agent) được tải lên và loại MIME của nó khớp với loại tài liệu được hỗ trợ (PDF, DOCX, Excel, ODS), document_parser sẽ được sử dụng trực tiếp. Không cần kiểm tra khả năng OCR cho tác nhân.
ocr config tồn tại — Chiến lược đã cấu hình (ví dụ: mistral_ocr) sẽ được thử trước. Nếu chiến lược đã cấu hình thất bại trong quá trình chạy (runtime), document_parser sẽ được sử dụng làm phương án dự phòng để việc trích xuất văn bản vẫn thành công đối với các loại tài liệu được hỗ trợ.
Cả hai đều không thành công — Nếu cả chiến lược được cấu hình và trình phân tích cú pháp tài liệu đều thất bại (ví dụ: tệp là tệp PDF chỉ chứa hình ảnh mà không có văn bản nhúng), một lỗi sẽ được trả về gợi ý rằng cần có dịch vụ OCR.

document_parser chỉ xử lý các tài liệu dựa trên văn bản. Đối với các tệp PDF dựa trên hình ảnh hoặc tài liệu được quét, bạn vẫn cần một chiến lược OCR đã được cấu hình (chẳng hạn như mistral_ocr) để trích xuất văn bản từ các hình ảnh bên trong những tệp đó.

Ví dụ

ocr:
  mistralModel: "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"
  strategy: "mistral_ocr"

Ví dụ với OCR tùy chỉnh:

ocr:
  apiKey: "your-custom-ocr-api-key"
  baseURL: "https://your-custom-ocr-service.com/api"
  strategy: "custom_ocr"

Ví dụ với Azure Mistral OCR:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
  strategy: "azure_mistral_ocr"

Ví dụ với Google Vertex AI Mistral OCR:

ocr:
  mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"

Ví dụ với trình phân tích tài liệu cục bộ (không cần API bên ngoài):

ocr:
  strategy: "document_parser"

mistralModel

Key	Type	Description	Example
mistralModel	String	Mô hình Mistral được sử dụng để xử lý OCR. Đối với các triển khai Azure, giá trị này phải khớp với tên triển khai của bạn. Đối với Google Vertex AI, giá trị này phải khớp với tên mô hình trong triển khai của bạn.	Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr.

ocr:
  mistralModel: "mistral-ocr-latest"

Đối với các triển khai Azure:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment name

Đối với các triển khai Google Vertex AI:

ocr:
  mistralModel: "mistral-ocr-2505" # Your Vertex AI model name

apiKey

Key	Type	Description	Example
apiKey	String	Khóa API cho dịch vụ OCR. Không được sử dụng cho Google Vertex AI (sử dụng xác thực tài khoản dịch vụ thông qua GOOGLE_SERVICE_KEY_FILE).	Optional. Defaults to the environment variable OCR_API_KEY if not specified.

ocr:
  apiKey: "your-ocr-api-key"

baseURL

Key	Type	Description	Example
baseURL	String	URL cơ sở cho API dịch vụ OCR. Đối với Google Vertex AI, URL này được tự động tạo từ thông tin xác thực tài khoản dịch vụ.	Optional. Defaults to the environment variable OCR_BASEURL if not specified.

ocr:
  baseURL: "https://your-ocr-service.com/api"

strategy

Key	Type	Description	Example
strategy	String	Chiến lược OCR cần sử dụng.	Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr".

ocr:
  strategy: "custom_ocr"

Các chiến lược khả dụng:

mistral_ocr: Sử dụng các khả năng OCR của Mistral thông qua Mistral API tiêu chuẩn.
azure_mistral_ocr: Sử dụng các mô hình Mistral OCR được triển khai trên Azure AI Foundry.
vertexai_mistral_ocr: Sử dụng các mô hình Mistral OCR được triển khai trên Google Cloud Vertex AI.
document_parser: Sử dụng tính năng trích xuất văn bản cục bộ cho các tệp PDF, DOCX, XLS/XLSX và OpenDocument. Không cần API bên ngoài. Tính năng này cũng tự động chạy cho các tệp tải lên của agent khi không có cấu hình ocr và đóng vai trò là phương án dự phòng khi chiến lược OCR được cấu hình gặp lỗi.
custom_ocr: Sử dụng dịch vụ OCR tùy chỉnh được chỉ định bởi baseURL (chưa được triển khai).