Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Struktur Objek Konfigurasi OCR

Ikhtisar

Objek ocr memungkinkan Anda untuk mengonfigurasi pengaturan Optical Character Recognition (OCR) untuk aplikasi, yang memungkinkan ekstraksi teks dari gambar. Bagian ini memberikan rincian mendalam mengenai struktur objek ocr.

Terdapat 4 kolom utama di bawah ocr:

  • mistralModel
  • apiKey
  • baseURL
  • strategy

Catatan:

  • Jika menggunakan Mistral OCR API, Anda tidak perlu mengubah file librechat.yaml Anda.
    • Anda hanya memerlukan variabel lingkungan berikut untuk memulai: OCR_API_KEY dan OCR_BASEURL.
  • Fungsionalitas OCR memungkinkan aplikasi untuk mengekstrak teks dari gambar, yang kemudian dapat diproses oleh model AI.
  • Strategi default adalah mistral_ocr, yang menggunakan kemampuan OCR dari Mistral.
  • Anda juga dapat mengonfigurasi layanan OCR kustom dengan mengatur strategi ke custom_ocr.
  • Model Mistral OCR yang di-deploy di Azure dapat digunakan dengan mengatur strategi ke azure_mistral_ocr.
  • Model Mistral OCR yang di-deploy di Google Vertex AI dapat digunakan dengan mengatur strategi ke vertexai_mistral_ocr.
    • Memerlukan variabel lingkungan GOOGLE_SERVICE_KEY_FILE untuk diatur dengan kredensial akun layanan
    • Service key dapat disediakan sebagai: file path, URL, JSON yang dienkode base64, atau string JSON mentah
    • Project ID dan lokasi diekstraksi secara otomatis dari kredensial akun layanan.
  • Ekstraksi teks lokal tersedia melalui document_parser, yang mengekstrak teks dari file PDF, DOCX, XLS/XLSX, dan OpenDocument tanpa API eksternal apa pun.
    • Menggunakan pdfjs-dist, mammoth, dan SheetJS secara lokal — tidak memerlukan API key atau base URL
    • Hanya kolom strategy yang wajib diisi; apiKey, baseURL, dan mistralModel akan diabaikan.
  • Jika menggunakan Mistral OCR bawaan, Anda dapat secara opsional menentukan model Mistral tertentu untuk digunakan.
  • Penguraian variabel lingkungan didukung untuk parameter apiKey, baseURL, dan mistralModel.
  • Opsi strategi user_provided direncanakan untuk rilis mendatang namun belum diimplementasikan.

Penguraian Dokumen Otomatis (Tanpa Konfigurasi)

document_parser bawaan berjalan secara otomatis untuk unggahan file agen bahkan ketika tidak ada blok ocr yang dikonfigurasi di dalam librechat.yaml Anda. Ini berarti file PDF, DOCX, XLS/XLSX, dan ODS diurai secara langsung tanpa perlu pengaturan apa pun.

Logika resolusi bekerja sebagai berikut:

  1. Tidak ada konfigurasi ocr yang tersedia — Saat file konteks agen diunggah dan tipe MIME-nya cocok dengan tipe dokumen yang didukung (PDF, DOCX, Excel, ODS), document_parser akan digunakan secara langsung. Tidak diperlukan pemeriksaan kemampuan OCR untuk agen tersebut.

  2. ocr config exists — Strategi yang dikonfigurasi (contoh: mistral_ocr) akan dicoba terlebih dahulu. Jika strategi yang dikonfigurasi gagal saat runtime, document_parser akan digunakan sebagai cadangan sehingga ekstraksi teks tetap berhasil untuk tipe dokumen yang didukung.

  3. Keduanya gagal — Jika strategi yang dikonfigurasi maupun pengurai dokumen gagal (misalnya, berkas tersebut adalah PDF berbasis gambar tanpa teks yang disematkan), sebuah kesalahan akan dikembalikan yang menyarankan bahwa layanan OCR diperlukan.

document_parser hanya menangani dokumen berbasis teks. Untuk PDF berbasis gambar atau dokumen hasil pemindaian, Anda tetap memerlukan strategi OCR yang dikonfigurasi (seperti mistral_ocr) untuk mengekstrak teks dari gambar di dalam file tersebut.

Contoh

ocr:
  mistralModel: "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"
  strategy: "mistral_ocr"

Contoh dengan OCR kustom:

ocr:
  apiKey: "your-custom-ocr-api-key"
  baseURL: "https://your-custom-ocr-service.com/api"
  strategy: "custom_ocr"

Contoh dengan Azure Mistral OCR:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
  strategy: "azure_mistral_ocr"

Contoh dengan Google Vertex AI Mistral OCR:

ocr:
  mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"

Contoh dengan pengurai dokumen lokal (tidak memerlukan API eksternal):

ocr:
  strategy: "document_parser"

mistralModel

KeyTypeDescriptionExample
mistralModelStringModel Mistral yang digunakan untuk pemrosesan OCR. Untuk deployment Azure, ini harus sesuai dengan nama deployment Anda. Untuk Google Vertex AI, ini harus sesuai dengan nama model di deployment Anda.Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr.
ocr:
  mistralModel: "mistral-ocr-latest"

Untuk penyebaran Azure:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment name

Untuk penyebaran Google Vertex AI:

ocr:
  mistralModel: "mistral-ocr-2505" # Your Vertex AI model name

apiKey

KeyTypeDescriptionExample
apiKeyStringKunci API untuk layanan OCR. Tidak digunakan untuk Google Vertex AI (menggunakan autentikasi akun layanan melalui GOOGLE_SERVICE_KEY_FILE).Optional. Defaults to the environment variable OCR_API_KEY if not specified.
ocr:
  apiKey: "your-ocr-api-key"

baseURL

KeyTypeDescriptionExample
baseURLStringURL dasar untuk API layanan OCR. Untuk Google Vertex AI, ini dibuat secara otomatis dari kredensial akun layanan.Optional. Defaults to the environment variable OCR_BASEURL if not specified.
ocr:
  baseURL: "https://your-ocr-service.com/api"

strategy

KeyTypeDescriptionExample
strategyStringStrategi OCR yang akan digunakan.Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr".
ocr:
  strategy: "custom_ocr"

Strategi yang Tersedia:

  • mistral_ocr: Menggunakan kemampuan OCR Mistral melalui Mistral API standar.
  • azure_mistral_ocr: Menggunakan model Mistral OCR yang dideploy di Azure AI Foundry.
  • vertexai_mistral_ocr: Menggunakan model Mistral OCR yang di-deploy di Google Cloud Vertex AI.
  • document_parser: Menggunakan ekstraksi teks lokal untuk file PDF, DOCX, XLS/XLSX, dan OpenDocument. Tidak memerlukan API eksternal. Juga berjalan secara otomatis untuk unggahan file agen ketika tidak ada konfigurasi ocr yang tersedia, dan sebagai cadangan ketika strategi OCR yang dikonfigurasi gagal.
  • custom_ocr: Menggunakan layanan OCR kustom yang ditentukan oleh baseURL (belum diimplementasikan).

Bagaimana panduan ini?