Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

OCR Yapılandırma Nesnesi Yapısı

Genel Bakış

ocr nesnesi, uygulama için Optik Karakter Tanıma (OCR) ayarlarını yapılandırmanıza olanak tanıyarak görüntülerden metin çıkarılmasını sağlar. Bu bölüm, ocr nesne yapısının ayrıntılı bir dökümünü sunar.

ocr altında 4 ana alan bulunmaktadır:

  • mistralModel
  • apiKey
  • baseURL
  • strategy

Notlar:

  • Mistral OCR API kullanıyorsanız, librechat.yaml dosyanızı düzenlemenize gerek yoktur.
    • Başlamak için yalnızca şu ortam değişkenlerine ihtiyacınız vardır: OCR_API_KEY ve OCR_BASEURL.
  • OCR işlevi, uygulamanın görsellerden metin çıkarmasına olanak tanır ve bu metin daha sonra AI modelleri tarafından işlenebilir.
  • Varsayılan strateji, Mistral'in OCR yeteneklerini kullanan mistral_ocr'dir.
  • Ayrıca stratejiyi custom_ocr olarak ayarlayarak özel bir OCR hizmeti yapılandırabilirsiniz.
  • Azure üzerinde dağıtılan Mistral OCR modelleri, stratejiyi azure_mistral_ocr olarak ayarlayarak kullanılabilir.
  • Google Vertex AI üzerinde dağıtılan Mistral OCR modelleri, stratejiyi vertexai_mistral_ocr olarak ayarlayarak kullanılabilir.
    • GOOGLE_SERVICE_KEY_FILE ortam değişkeninin hizmet hesabı kimlik bilgileriyle ayarlanmasını gerektirir
    • Hizmet anahtarı şu şekillerde sağlanabilir: dosya yolu, URL, base64 kodlu JSON veya ham JSON dizgisi
    • Proje kimliği (Project ID) ve konum, hizmet hesabı kimlik bilgilerinden otomatik olarak çıkarılır.
  • Yerel metin çıkarma işlemi, PDF, DOCX, XLS/XLSX ve OpenDocument dosyalarından herhangi bir harici API kullanmadan metin çıkaran document_parser aracılığıyla kullanılabilir.
    • pdfjs-dist, mammoth ve SheetJS kütüphanelerini yerel olarak kullanır — herhangi bir API anahtarına veya temel URL'ye ihtiyaç duymaz
    • Yalnızca strategy alanı zorunludur; apiKey, baseURL ve mistralModel yoksayılır
  • Varsayılan Mistral OCR kullanılıyorsa, isteğe bağlı olarak kullanılacak belirli bir Mistral modeli belirtebilirsiniz.
  • apiKey, baseURL ve mistralModel parametreleri için ortam değişkeni ayrıştırma desteği mevcuttur.
  • Gelecek sürümler için bir user_provided strateji seçeneği planlanmaktadır ancak henüz uygulanmamıştır.

Otomatik Belge Ayrıştırma (Yapılandırma Gerektirmez)

Dahili document_parser, librechat.yaml dosyanızda herhangi bir ocr bloğu yapılandırılmamış olsa bile, aracı dosya yüklemeleri için otomatik olarak çalışır. Bu, PDF, DOCX, XLS/XLSX ve ODS dosyalarının herhangi bir kuruluma gerek kalmadan kutudan çıktığı gibi ayrıştırıldığı anlamına gelir.

Çözümleme mantığı şu şekilde çalışır:

  1. ocr yapılandırması mevcut değil — Bir aracı (agent) bağlam dosyası yüklendiğinde ve MIME türü desteklenen bir belge türüyle (PDF, DOCX, Excel, ODS) eşleştiğinde, document_parser doğrudan kullanılır. Aracı için herhangi bir OCR yetenek kontrolü gerekli değildir.

  2. ocr yapılandırması mevcut — Yapılandırılan strateji (örneğin mistral_ocr) ilk olarak denenir. Eğer yapılandırılan strateji çalışma zamanında başarısız olursa, desteklenen belge türleri için metin çıkarma işleminin yine de başarılı olması adına document_parser bir yedek (fallback) olarak kullanılır.

  3. Hiçbiri başarılı olmazsa — Hem yapılandırılmış strateji hem de belge ayrıştırıcı başarısız olursa (örneğin, dosya gömülü metni olmayan sadece resim içeren bir PDF ise), bir OCR hizmetinin gerekli olduğunu belirten bir hata döndürülür.

document_parser yalnızca metin tabanlı belgeleri işler. Resim tabanlı PDF'ler veya taranmış belgeler için, bu dosyaların içindeki resimlerden metin çıkarmak amacıyla hala yapılandırılmış bir OCR stratejisine (örneğin mistral_ocr) ihtiyacınız vardır.

Örnek

ocr:
  mistralModel: "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"
  strategy: "mistral_ocr"

Özel OCR ile örnek:

ocr:
  apiKey: "your-custom-ocr-api-key"
  baseURL: "https://your-custom-ocr-service.com/api"
  strategy: "custom_ocr"

Azure Mistral OCR ile örnek:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
  strategy: "azure_mistral_ocr"

Google Vertex AI Mistral OCR ile örnek:

ocr:
  mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"

Yerel belge ayrıştırıcı ile örnek (harici API gerekmez):

ocr:
  strategy: "document_parser"

mistralModel

KeyTypeDescriptionExample
mistralModelStringOCR işleme için kullanılacak Mistral modeli. Azure dağıtımları için bu, dağıtım adınızla eşleşmelidir. Google Vertex AI için bu, dağıtımınızdaki model adıyla eşleşmelidir.Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr.
ocr:
  mistralModel: "mistral-ocr-latest"

Azure dağıtımları için:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment name

Google Vertex AI dağıtımları için:

ocr:
  mistralModel: "mistral-ocr-2505" # Your Vertex AI model name

apiKey

KeyTypeDescriptionExample
apiKeyStringOCR hizmeti için API anahtarı. Google Vertex AI için kullanılmaz (GOOGLE_SERVICE_KEY_FILE aracılığıyla hizmet hesabı kimlik doğrulaması kullanır).Optional. Defaults to the environment variable OCR_API_KEY if not specified.
ocr:
  apiKey: "your-ocr-api-key"

baseURL

KeyTypeDescriptionExample
baseURLStringOCR hizmeti API'si için temel URL. Google Vertex AI için bu, hizmet hesabı kimlik bilgilerinden otomatik olarak oluşturulur.Optional. Defaults to the environment variable OCR_BASEURL if not specified.
ocr:
  baseURL: "https://your-ocr-service.com/api"

strategy

KeyTypeDescriptionExample
strategyStringKullanılacak OCR stratejisi.Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr".
ocr:
  strategy: "custom_ocr"

Kullanılabilir Stratejiler:

  • mistral_ocr: Standart Mistral API aracılığıyla Mistral'in OCR yeteneklerini kullanır.
  • azure_mistral_ocr: Azure AI Foundry üzerinde dağıtılan Mistral OCR modellerini kullanır.
  • vertexai_mistral_ocr: Google Cloud Vertex AI üzerinde dağıtılan Mistral OCR modellerini kullanır.
  • document_parser: PDF, DOCX, XLS/XLSX ve OpenDocument dosyaları için yerel metin çıkarma işlemini kullanır. Harici bir API gerektirmez. Ayrıca, herhangi bir ocr yapılandırması bulunmadığında aracı dosya yüklemeleri için otomatik olarak çalışır ve yapılandırılmış bir OCR stratejisi başarısız olduğunda yedek olarak devreye girer.
  • custom_ocr: baseURL ile belirtilen özel bir OCR hizmetini kullanır (henüz uygulanmadı).

Bu rehber nasıl?