音声設定
概要
speech オブジェクトを使用すると、librechat.yaml 設定ファイル内で直接 Text-to-Speech (TTS) および Speech-to-Text (STT) プロバイダーを設定できます。これにより、ユーザーが各自の API キーを設定することなく、サーバーサイドの音声サービスを利用できるようになります。
speech 配下のフィールド:
tts- Text-to-Speech プロバイダーの設定stt- Speech-to-Text プロバイダーの設定speechTab- 音声機能のデフォルトUI設定
注記:
- 複数のプロバイダーを同時に設定できます
- ユーザーは利用可能なオプションから好みのプロバイダーを選択できます。
- configファイル内のAPIキーは、セキュリティ上の理由から環境変数参照を使用する必要があります。
例
tts
tts オブジェクトは、Text-to-Speech(テキスト読み上げ)プロバイダーを設定します。複数のプロバイダーを設定でき、ユーザーは使用するプロバイダーを選択できます。
openai
tts-1 や tts-1-hd などのモデルを使用した OpenAI TTS の設定。
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | カスタムAPI URL(オプション)。OpenAI互換のendpointに使用します。 | |
| apiKey | String | OpenAI APIキー。環境変数参照を使用してください。 | Required |
| model | String | 使用するTTSモデル(例: "tts-1", "tts-1-hd") | Required |
| voices | Array of Strings | ユーザーが選択可能な音声オプション。 | Required |
例:
azureOpenAI
Azure OpenAI TTS の設定。
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Azure OpenAI インスタンス名。 | Required |
| apiKey | String | Azure OpenAI APIキー | Required |
| deploymentName | String | TTSモデルのデプロイメント名。 | Required |
| apiVersion | String | Azure OpenAI API バージョン | Required |
| model | String | TTSモデル識別子。 | Required |
| voices | Array of Strings | 利用可能な音声オプション。 | Required |
例:
elevenlabs
高品質な音声合成のためのElevenLabs TTS設定。
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | カスタムAPI URL(オプション) | |
| websocketUrl | String | ストリーミング用のWebSocket URL(オプション)。 | |
| apiKey | String | ElevenLabs APIキー | Required |
| model | String | ElevenLabsモデル(例: "eleven_multilingual_v2") | Required |
| voices | Array of Strings | 選択可能なVoice ID。 | Required |
| voice_settings | Object | 音声カスタマイズ設定(オプション)。 | |
| pronunciation_dictionary_locators | Array of Strings | 発音辞書ID(オプション)。 |
voice_settings サブキー:
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | 音声の類似性向上 (0-1) | |
| stability | Number | 音声の安定性 (0-1) | |
| style | Number | スタイルの誇張度 (0-1) | |
| use_speaker_boost | Boolean | スピーカーブーストを有効にする。 |
例:
localai
セルフホスト型の音声合成のためのLocalAI TTS設定。
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | LocalAIサーバーのURL。 | Required |
| apiKey | String | 認証が有効な場合のAPIキー(オプション)。 | |
| voices | Array of Strings | 利用可能な音声モデル | Required |
| backend | String | 使用するTTSバックエンド(例: "piper") | Required |
例:
stt
stt オブジェクトは、Speech-to-Text プロバイダーを設定します。
openai
OpenAI Whisper STT の設定。
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | カスタムAPI URL(オプション)。OpenAI互換のendpointに使用します。 | |
| apiKey | String | OpenAI APIキー。環境変数参照を使用してください。 | Required |
| model | String | 使用するSTTモデル(例: "whisper-1") | Required |
例:
azureOpenAI
Azure OpenAI Whisper STT の設定。
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Azure OpenAI インスタンス名。 | Required |
| apiKey | String | Azure OpenAI APIキー | Required |
| deploymentName | String | Whisperモデルのデプロイメント名。 | Required |
| apiVersion | String | Azure OpenAI API バージョン | Required |
例:
speechTab
speechTab オブジェクトは、音声機能のデフォルトのUI設定を構成します。これらの設定は、音声設定パネルでユーザーにデフォルトで表示される内容を制御します。
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | デフォルトで会話モードを有効にする。 | false |
| advancedMode | Boolean | デフォルトで詳細な音声設定を表示する。 | false |
| speechToText | Boolean or Object | STTをデフォルトで有効にするか、詳細なSTT設定を構成します。 | false |
| textToSpeech | Boolean or Object | TTSをデフォルトで有効にするか、詳細なTTS設定を構成します。 | false |
speechToText (オブジェクト形式)
booleanの代わりにオブジェクトを使用する場合:
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | デフォルトのSTTエンジン。オプション: `"openai"`、`"azureOpenAI"`。 | |
| languageSTT | String | STTのデフォルト言語。 | |
| autoTranscribeAudio | Boolean | 音声メッセージを自動的に文字起こしします。 | |
| decibelValue | Number | 音声検出のデシベルしきい値。 | |
| autoSendText | Number | 文字起こしされたテキストを自動送信するまでの遅延時間(ミリ秒)(0で無効) |
textToSpeech (オブジェクト形式)
booleanの代わりにオブジェクトを使用する場合:
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | デフォルトのTTSエンジン。オプション: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`。 | |
| voice | String | デフォルトの音声選択。 | |
| languageTTS | String | TTSのデフォルト言語。 | |
| automaticPlayback | Boolean | TTS応答を自動再生する。 | |
| playbackRate | Number | デフォルトの再生速度(1.0 = 標準)。範囲: 0.25–4.0。 | |
| cacheTTS | Boolean | 繰り返し再生するためにTTS音声をキャッシュします。 |
例:
完全な例
注記
- 設定ファイル内のAPIキーには、常に環境変数参照(例:
${API_KEY})を使用してください。 - 複数のTTSプロバイダーを設定でき、ユーザーはUI上で好みのオプションを選択できます。
speechTab設定は、ユーザーが個人設定で上書きできるデフォルト値を定義します。- 詳細な機能ドキュメントについては、Speech to Text & Text to Speech を参照してください。
このガイドはいかがでしたか?