Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

OCR設定オブジェクト構造

概要

ocr オブジェクトを使用すると、アプリケーションの光学式文字認識(OCR)設定を構成でき、画像からテキストを抽出できるようになります。このセクションでは、ocr オブジェクトの構造について詳しく解説します。

ocr の下には4つの主要なフィールドがあります:

  • mistralModel
  • apiKey
  • baseURL
  • strategy

注記:

  • Mistral OCR APIを使用する場合、librechat.yamlファイルを編集する必要はありません。
    • 開始するには、OCR_API_KEYOCR_BASEURL という環境変数のみが必要です。
  • OCR機能により、アプリケーションは画像からテキストを抽出できるようになり、抽出されたテキストはAIモデルによって処理可能になります。
  • デフォルトの戦略は mistral_ocr で、これはMistralのOCR機能を使用します。
  • また、strategyをcustom_ocrに設定することで、カスタムOCRサービスを構成することもできます。
  • AzureにデプロイされたMistral OCRモデルは、strategyをazure_mistral_ocrに設定することで使用できます。
  • Google Vertex AIにデプロイされたMistral OCRモデルは、strategyをvertexai_mistral_ocrに設定することで使用できます。
    • GOOGLE_SERVICE_KEY_FILE 環境変数をサービスアカウントの認証情報で設定する必要があります。
    • サービスキーは、ファイルパス、URL、base64エンコードされたJSON、または生のJSON文字列として提供できます。
    • プロジェクトIDとロケーションは、サービスアカウントの認証情報から自動的に抽出されます。
  • ローカルでのテキスト抽出は document_parser を介して利用可能であり、外部APIを使用せずにPDF、DOCX、XLS/XLSX、およびOpenDocumentファイルからテキストを抽出します。
    • pdfjs-distmammoth、および SheetJS をローカルで使用します — APIキーやベースURLは不要です
    • strategy フィールドのみが必須です。apiKeybaseURL、および mistralModel は無視されます。
  • デフォルトのMistral OCRを使用する場合、オプションで特定のMistralモデルを指定することができます。
  • apiKeybaseURL、および mistralModel パラメータに対して、環境変数のパースがサポートされています。
  • user_provided 戦略オプションは将来のリリースで予定されていますが、現時点では実装されていません。

自動ドキュメント解析(設定不要)

組み込みの document_parser は、librechat.yamlocr ブロックが設定されていない場合でも、エージェントへのファイルアップロードに対して自動的に実行されます。つまり、PDF、DOCX、XLS/XLSX、ODSファイルは、設定なしでそのまま解析されます。

解決ロジックは以下の通りです:

  1. ocr 設定が存在しません — エージェントのコンテキストファイルがアップロードされ、そのMIMEタイプがサポートされているドキュメントタイプ(PDF、DOCX、Excel、ODS)と一致する場合、document_parser が直接使用されます。エージェントに対してOCR機能のチェックは必要ありません。

  2. ocr config exists — 設定された戦略(例: mistral_ocr)が最初に試行されます。設定された戦略が実行時に失敗した場合document_parser がフォールバックとして使用されるため、サポートされているドキュメントタイプであればテキスト抽出は引き続き成功します。

  3. どちらも成功しない場合 — 設定された戦略とドキュメントパーサーの両方が失敗した場合(例:埋め込みテキストのない画像のみのPDFファイルなど)、OCRサービスが必要であることを示唆するエラーが返されます。

document_parser はテキストベースのドキュメントのみを処理します。画像ベースのPDFやスキャンされたドキュメントの場合は、それらのファイル内の画像からテキストを抽出するために、設定済みのOCR戦略(mistral_ocr など)が引き続き必要です。

ocr:
  mistralModel: "mistral-ocr-latest"
  apiKey: "your-mistral-api-key"
  strategy: "mistral_ocr"

カスタムOCRを使用した例:

ocr:
  apiKey: "your-custom-ocr-api-key"
  baseURL: "https://your-custom-ocr-service.com/api"
  strategy: "custom_ocr"

Azure Mistral OCR を使用した例:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # should match deployment name on Azure
  apiKey: "${AZURE_MISTRAL_OCR_API_KEY}" # arbitrary .env var reference
  baseURL: "https://your-deployed-endpoint.models.ai.azure.com/v1" # hardcoded, can also be .env var reference
  strategy: "azure_mistral_ocr"

Google Vertex AI Mistral OCR を使用した例:

ocr:
  mistralModel: "mistral-ocr-2505" # model name as deployed in Vertex AI
  strategy: "vertexai_mistral_ocr"

ローカルドキュメントパーサーを使用した例(外部APIは不要です):

ocr:
  strategy: "document_parser"

mistralModel

KeyTypeDescriptionExample
mistralModelStringOCR処理に使用するMistralモデル。Azureデプロイメントの場合は、デプロイメント名と一致させる必要があります。Google Vertex AIの場合は、デプロイメント内のモデル名と一致させる必要があります。Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr.
ocr:
  mistralModel: "mistral-ocr-latest"

Azure デプロイの場合:

ocr:
  mistralModel: "deployed-mistral-ocr-2503" # Your Azure deployment name

Google Vertex AI デプロイの場合:

ocr:
  mistralModel: "mistral-ocr-2505" # Your Vertex AI model name

apiKey

KeyTypeDescriptionExample
apiKeyStringOCRサービスのAPIキー。Google Vertex AIでは使用されません(GOOGLE_SERVICE_KEY_FILE経由のサービスアカウント認証を使用します)。Optional. Defaults to the environment variable OCR_API_KEY if not specified.
ocr:
  apiKey: "your-ocr-api-key"

baseURL

KeyTypeDescriptionExample
baseURLStringOCRサービスAPIのベースURL。Google Vertex AIの場合、これはサービスアカウントの認証情報から自動的に構築されます。Optional. Defaults to the environment variable OCR_BASEURL if not specified.
ocr:
  baseURL: "https://your-ocr-service.com/api"

strategy

KeyTypeDescriptionExample
strategyString使用するOCR戦略。Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr".
ocr:
  strategy: "custom_ocr"

利用可能な戦略:

  • mistral_ocr: 標準の Mistral API を介して Mistral の OCR 機能を使用します。
  • azure_mistral_ocr: Azure AI Foundry にデプロイされた Mistral OCR モデルを使用します。
  • vertexai_mistral_ocr: Google Cloud Vertex AI にデプロイされた Mistral OCR モデルを使用します。
  • document_parser: PDF、DOCX、XLS/XLSX、およびOpenDocumentファイルに対してローカルでのテキスト抽出を使用します。外部APIは不要です。また、ocr設定が存在しない場合のエージェントによるファイルアップロード時や、設定されたOCR戦略が失敗した場合のフォールバックとしても自動的に実行されます。
  • custom_ocr: baseURL で指定されたカスタムOCRサービスを使用します (未実装)

このガイドはいかがでしたか?