OCR設定オブジェクト構造
概要
ocr オブジェクトを使用すると、アプリケーションの光学式文字認識(OCR)設定を構成でき、画像からテキストを抽出できるようになります。このセクションでは、ocr オブジェクトの構造について詳しく解説します。
ocr の下には4つの主要なフィールドがあります:
mistralModelapiKeybaseURLstrategy
注記:
- Mistral OCR APIを使用する場合、
librechat.yamlファイルを編集する必要はありません。- 開始するには、
OCR_API_KEYとOCR_BASEURLという環境変数のみが必要です。
- 開始するには、
- OCR機能により、アプリケーションは画像からテキストを抽出できるようになり、抽出されたテキストはAIモデルによって処理可能になります。
- デフォルトの戦略は
mistral_ocrで、これはMistralのOCR機能を使用します。 - また、strategyを
custom_ocrに設定することで、カスタムOCRサービスを構成することもできます。 - AzureにデプロイされたMistral OCRモデルは、strategyを
azure_mistral_ocrに設定することで使用できます。 - Google Vertex AIにデプロイされたMistral OCRモデルは、strategyを
vertexai_mistral_ocrに設定することで使用できます。GOOGLE_SERVICE_KEY_FILE環境変数をサービスアカウントの認証情報で設定する必要があります。- サービスキーは、ファイルパス、URL、base64エンコードされたJSON、または生のJSON文字列として提供できます。
- プロジェクトIDとロケーションは、サービスアカウントの認証情報から自動的に抽出されます。
- ローカルでのテキスト抽出は
document_parserを介して利用可能であり、外部APIを使用せずにPDF、DOCX、XLS/XLSX、およびOpenDocumentファイルからテキストを抽出します。pdfjs-dist、mammoth、およびSheetJSをローカルで使用します — APIキーやベースURLは不要ですstrategyフィールドのみが必須です。apiKey、baseURL、およびmistralModelは無視されます。
- デフォルトのMistral OCRを使用する場合、オプションで特定のMistralモデルを指定することができます。
apiKey、baseURL、およびmistralModelパラメータに対して、環境変数のパースがサポートされています。user_provided戦略オプションは将来のリリースで予定されていますが、現時点では実装されていません。
自動ドキュメント解析(設定不要)
組み込みの document_parser は、librechat.yaml に ocr ブロックが設定されていない場合でも、エージェントへのファイルアップロードに対して自動的に実行されます。つまり、PDF、DOCX、XLS/XLSX、ODSファイルは、設定なしでそのまま解析されます。
解決ロジックは以下の通りです:
-
ocr設定が存在しません — エージェントのコンテキストファイルがアップロードされ、そのMIMEタイプがサポートされているドキュメントタイプ(PDF、DOCX、Excel、ODS)と一致する場合、document_parserが直接使用されます。エージェントに対してOCR機能のチェックは必要ありません。 -
ocrconfig exists — 設定された戦略(例:mistral_ocr)が最初に試行されます。設定された戦略が実行時に失敗した場合、document_parserがフォールバックとして使用されるため、サポートされているドキュメントタイプであればテキスト抽出は引き続き成功します。 -
どちらも成功しない場合 — 設定された戦略とドキュメントパーサーの両方が失敗した場合(例:埋め込みテキストのない画像のみのPDFファイルなど)、OCRサービスが必要であることを示唆するエラーが返されます。
document_parser はテキストベースのドキュメントのみを処理します。画像ベースのPDFやスキャンされたドキュメントの場合は、それらのファイル内の画像からテキストを抽出するために、設定済みのOCR戦略(mistral_ocr など)が引き続き必要です。
例
カスタムOCRを使用した例:
Azure Mistral OCR を使用した例:
Google Vertex AI Mistral OCR を使用した例:
ローカルドキュメントパーサーを使用した例(外部APIは不要です):
mistralModel
| Key | Type | Description | Example |
|---|---|---|---|
| mistralModel | String | OCR処理に使用するMistralモデル。Azureデプロイメントの場合は、デプロイメント名と一致させる必要があります。Google Vertex AIの場合は、デプロイメント内のモデル名と一致させる必要があります。 | Optional. Specifies which Mistral model should be used when the strategy is set to mistral_ocr, azure_mistral_ocr, or vertexai_mistral_ocr. |
Azure デプロイの場合:
Google Vertex AI デプロイの場合:
apiKey
| Key | Type | Description | Example |
|---|---|---|---|
| apiKey | String | OCRサービスのAPIキー。Google Vertex AIでは使用されません(GOOGLE_SERVICE_KEY_FILE経由のサービスアカウント認証を使用します)。 | Optional. Defaults to the environment variable OCR_API_KEY if not specified. |
baseURL
| Key | Type | Description | Example |
|---|---|---|---|
| baseURL | String | OCRサービスAPIのベースURL。Google Vertex AIの場合、これはサービスアカウントの認証情報から自動的に構築されます。 | Optional. Defaults to the environment variable OCR_BASEURL if not specified. |
strategy
| Key | Type | Description | Example |
|---|---|---|---|
| strategy | String | 使用するOCR戦略。 | Determines which OCR service to use. Options are "mistral_ocr", "azure_mistral_ocr", "vertexai_mistral_ocr", "document_parser", or "custom_ocr". Defaults to "mistral_ocr". |
利用可能な戦略:
mistral_ocr: 標準の Mistral API を介して Mistral の OCR 機能を使用します。azure_mistral_ocr: Azure AI Foundry にデプロイされた Mistral OCR モデルを使用します。vertexai_mistral_ocr: Google Cloud Vertex AI にデプロイされた Mistral OCR モデルを使用します。document_parser: PDF、DOCX、XLS/XLSX、およびOpenDocumentファイルに対してローカルでのテキスト抽出を使用します。外部APIは不要です。また、ocr設定が存在しない場合のエージェントによるファイルアップロード時や、設定されたOCR戦略が失敗した場合のフォールバックとしても自動的に実行されます。custom_ocr:baseURLで指定されたカスタムOCRサービスを使用します (未実装)。
このガイドはいかがでしたか?