Struktur Objek Konfigurasi OCR
Ikhtisar
Objek ocr memungkinkan Anda untuk mengonfigurasi pengaturan Optical Character Recognition (OCR) untuk aplikasi, yang memungkinkan ekstraksi teks dari gambar. Bagian ini memberikan rincian mendalam mengenai struktur objek ocr.
Terdapat 4 kolom utama di bawah ocr:
mistralModelapiKeybaseURLstrategy
Catatan:
- Jika menggunakan Mistral OCR API, Anda tidak perlu mengubah file
librechat.yamlAnda.- Anda hanya memerlukan variabel lingkungan berikut untuk memulai:
OCR_API_KEYdanOCR_BASEURL.
- Anda hanya memerlukan variabel lingkungan berikut untuk memulai:
- Fungsionalitas OCR memungkinkan aplikasi untuk mengekstrak teks dari gambar, yang kemudian dapat diproses oleh model AI.
- Strategi default adalah
mistral_ocr, yang menggunakan kemampuan OCR dari Mistral. - Anda juga dapat mengonfigurasi layanan OCR kustom dengan mengatur strategi ke
custom_ocr. - Model Mistral OCR yang di-deploy di Azure dapat digunakan dengan mengatur strategi ke
azure_mistral_ocr. - Model Mistral OCR yang di-deploy di Google Vertex AI dapat digunakan dengan mengatur strategi ke
vertexai_mistral_ocr.- Memerlukan variabel lingkungan
GOOGLE_SERVICE_KEY_FILEuntuk diatur dengan kredensial akun layanan - Service key dapat disediakan sebagai: file path, URL, JSON yang dienkode base64, atau string JSON mentah
- Project ID dan lokasi diekstraksi secara otomatis dari kredensial akun layanan.
- Memerlukan variabel lingkungan
- Ekstraksi teks lokal tersedia melalui
document_parser, yang mengekstrak teks dari file PDF, DOCX, XLS/XLSX, dan OpenDocument tanpa API eksternal apa pun.- Menggunakan
pdfjs-dist,mammoth, danSheetJSsecara lokal — tidak memerlukan API key atau base URL - Hanya kolom
strategyyang wajib diisi;apiKey,baseURL, danmistralModelakan diabaikan.
- Menggunakan
- Jika menggunakan Mistral OCR bawaan, Anda dapat secara opsional menentukan model Mistral tertentu untuk digunakan.
- Penguraian variabel lingkungan didukung untuk parameter
apiKey,baseURL, danmistralModel. - Opsi strategi
user_provideddirencanakan untuk rilis mendatang namun belum diimplementasikan.
Penguraian Dokumen Otomatis (Tanpa Konfigurasi)
document_parser bawaan berjalan secara otomatis untuk unggahan file agen bahkan ketika tidak ada blok ocr yang dikonfigurasi di dalam librechat.yaml Anda. Ini berarti file PDF, DOCX, XLS/XLSX, dan ODS diurai secara langsung tanpa perlu pengaturan apa pun.
Logika resolusi bekerja sebagai berikut:
-
Tidak ada konfigurasi
ocryang tersedia — Saat file konteks agen diunggah dan tipe MIME-nya cocok dengan tipe dokumen yang didukung (PDF, DOCX, Excel, ODS),document_parserakan digunakan secara langsung. Tidak diperlukan pemeriksaan kemampuan OCR untuk agen tersebut. -
ocrconfig exists — Strategi yang dikonfigurasi (contoh:mistral_ocr) akan dicoba terlebih dahulu. Jika strategi yang dikonfigurasi gagal saat runtime,document_parserakan digunakan sebagai cadangan sehingga ekstraksi teks tetap berhasil untuk tipe dokumen yang didukung. -
Keduanya gagal — Jika strategi yang dikonfigurasi maupun pengurai dokumen gagal (misalnya, berkas tersebut adalah PDF berbasis gambar tanpa teks yang disematkan), sebuah kesalahan akan dikembalikan yang menyarankan bahwa layanan OCR diperlukan.
document_parser hanya menangani dokumen berbasis teks. Untuk PDF berbasis gambar atau dokumen hasil pemindaian, Anda tetap memerlukan strategi OCR yang dikonfigurasi (seperti mistral_ocr) untuk mengekstrak teks dari gambar di dalam file tersebut.
Contoh
ocr:
mistralModel: "mistral-ocr-latest"
apiKey: "your-mistral-api-key"
strategy: "mistral_ocr"Contoh dengan OCR kustom:
ocr:
apiKey: "your-custom-ocr-api-key"
baseURL: "https://your-custom-ocr-service.com/api"
strategy: "custom_ocr"Contoh dengan Azure Mistral OCR:
ocr:
mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
strategy: "azure_mistral_ocr"Contoh dengan Google Vertex AI Mistral OCR:
ocr:
mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
strategy: "vertexai_mistral_ocr"Contoh dengan pengurai dokumen lokal (tidak memerlukan API eksternal):
ocr:
strategy: "document_parser"mistralModel
| Key | Type | Description | Example |
|---|---|---|---|
| mistralModel | String | Model Mistral yang digunakan untuk pemrosesan OCR. Untuk deployment Azure, ini harus sesuai dengan nama deployment Anda. Untuk Google Vertex AI, ini harus sesuai dengan nama model di deployment Anda. | Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr. |
ocr:
mistralModel: "mistral-ocr-latest"Untuk penyebaran Azure:
ocr:
mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment nameUntuk penyebaran Google Vertex AI:
ocr:
mistralModel: "mistral-ocr-2505" # Your Vertex AI model nameapiKey
| Key | Type | Description | Example |
|---|---|---|---|
| apiKey | String | Kunci API untuk layanan OCR. Tidak digunakan untuk Google Vertex AI (menggunakan autentikasi akun layanan melalui GOOGLE_SERVICE_KEY_FILE). | Optional. Defaults to the environment variable OCR_API_KEY if not specified. |
ocr:
apiKey: "your-ocr-api-key"baseURL
| Key | Type | Description | Example |
|---|---|---|---|
| baseURL | String | URL dasar untuk API layanan OCR. Untuk Google Vertex AI, ini dibuat secara otomatis dari kredensial akun layanan. | Optional. Defaults to the environment variable OCR_BASEURL if not specified. |
ocr:
baseURL: "https://your-ocr-service.com/api"strategy
| Key | Type | Description | Example |
|---|---|---|---|
| strategy | String | Strategi OCR yang akan digunakan. | Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr". |
ocr:
strategy: "custom_ocr"Strategi yang Tersedia:
mistral_ocr: Menggunakan kemampuan OCR Mistral melalui Mistral API standar.azure_mistral_ocr: Menggunakan model Mistral OCR yang dideploy di Azure AI Foundry.vertexai_mistral_ocr: Menggunakan model Mistral OCR yang di-deploy di Google Cloud Vertex AI.document_parser: Menggunakan ekstraksi teks lokal untuk file PDF, DOCX, XLS/XLSX, dan OpenDocument. Tidak memerlukan API eksternal. Juga berjalan secara otomatis untuk unggahan file agen ketika tidak ada konfigurasiocryang tersedia, dan sebagai cadangan ketika strategi OCR yang dikonfigurasi gagal.custom_ocr: Menggunakan layanan OCR kustom yang ditentukan olehbaseURL(belum diimplementasikan).
Bagaimana panduan ini?