音声設定 | LibreChat

概要

speech オブジェクトを使用すると、librechat.yaml 設定ファイル内で直接 Text-to-Speech (TTS) および Speech-to-Text (STT) プロバイダーを設定できます。これにより、ユーザーが各自の API キーを設定することなく、サーバーサイドの音声サービスを利用できるようになります。

speech 配下のフィールド:

tts - Text-to-Speech プロバイダーの設定
stt - Speech-to-Text プロバイダーの設定
speechTab - 音声機能のデフォルトUI設定

注記:

複数のプロバイダーを同時に設定できます
ユーザーは利用可能なオプションから好みのプロバイダーを選択できます。
configファイル内のAPIキーは、セキュリティ上の理由から環境変数参照を使用する必要があります。

例

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

tts オブジェクトは、Text-to-Speech（テキスト読み上げ）プロバイダーを設定します。複数のプロバイダーを設定でき、ユーザーは使用するプロバイダーを選択できます。

openai

tts-1 や tts-1-hd などのモデルを使用した OpenAI TTS の設定。

Key	Type	Description	Example
url	String	カスタムAPI URL（オプション）。OpenAI互換のendpointに使用します。
apiKey	String	OpenAI APIキー。環境変数参照を使用してください。	Required
model	String	使用するTTSモデル（例: "tts-1", "tts-1-hd"）	Required
voices	Array of Strings	ユーザーが選択可能な音声オプション。	Required

例:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Azure OpenAI TTS の設定。

Key	Type	Description	Example
instanceName	String	Azure OpenAI インスタンス名。	Required
apiKey	String	Azure OpenAI APIキー	Required
deploymentName	String	TTSモデルのデプロイメント名。	Required
apiVersion	String	Azure OpenAI API バージョン	Required
model	String	TTSモデル識別子。	Required
voices	Array of Strings	利用可能な音声オプション。	Required

例:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

高品質な音声合成のためのElevenLabs TTS設定。

Key	Type	Description	Example
url	String	カスタムAPI URL（オプション）
websocketUrl	String	ストリーミング用のWebSocket URL（オプション）。
apiKey	String	ElevenLabs APIキー	Required
model	String	ElevenLabsモデル（例: "eleven_multilingual_v2"）	Required
voices	Array of Strings	選択可能なVoice ID。	Required
voice_settings	Object	音声カスタマイズ設定（オプション）。
pronunciation_dictionary_locators	Array of Strings	発音辞書ID（オプション）。

voice_settings サブキー:

Key	Type	Description
similarity_boost	Number	音声の類似性向上 (0-1)
stability	Number	音声の安定性 (0-1)
style	Number	スタイルの誇張度 (0-1)
use_speaker_boost	Boolean	スピーカーブーストを有効にする。

例:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

セルフホスト型の音声合成のためのLocalAI TTS設定。

Key	Type	Description	Example
url	String	LocalAIサーバーのURL。	Required
apiKey	String	認証が有効な場合のAPIキー（オプション）。
voices	Array of Strings	利用可能な音声モデル	Required
backend	String	使用するTTSバックエンド（例: "piper"）	Required

例:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

stt オブジェクトは、Speech-to-Text プロバイダーを設定します。

openai

OpenAI Whisper STT の設定。

Key	Type	Description	Example
url	String	カスタムAPI URL（オプション）。OpenAI互換のendpointに使用します。
apiKey	String	OpenAI APIキー。環境変数参照を使用してください。	Required
model	String	使用するSTTモデル（例: "whisper-1"）	Required

例:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Azure OpenAI Whisper STT の設定。

Key	Type	Description	Example
instanceName	String	Azure OpenAI インスタンス名。	Required
apiKey	String	Azure OpenAI APIキー	Required
deploymentName	String	Whisperモデルのデプロイメント名。	Required
apiVersion	String	Azure OpenAI API バージョン	Required

例:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

speechTab オブジェクトは、音声機能のデフォルトのUI設定を構成します。これらの設定は、音声設定パネルでユーザーにデフォルトで表示される内容を制御します。

Key	Type	Description	Example
conversationMode	Boolean	デフォルトで会話モードを有効にする。	false
advancedMode	Boolean	デフォルトで詳細な音声設定を表示する。	false
speechToText	Boolean or Object	STTをデフォルトで有効にするか、詳細なSTT設定を構成します。	false
textToSpeech	Boolean or Object	TTSをデフォルトで有効にするか、詳細なTTS設定を構成します。	false

speechToText (オブジェクト形式)

booleanの代わりにオブジェクトを使用する場合：

Key	Type	Description
engineSTT	String	デフォルトのSTTエンジン。オプション: `"openai"`、`"azureOpenAI"`。
languageSTT	String	STTのデフォルト言語。
autoTranscribeAudio	Boolean	音声メッセージを自動的に文字起こしします。
decibelValue	Number	音声検出のデシベルしきい値。
autoSendText	Number	文字起こしされたテキストを自動送信するまでの遅延時間（ミリ秒）（0で無効）

textToSpeech (オブジェクト形式)

booleanの代わりにオブジェクトを使用する場合：

Key	Type	Description
engineTTS	String	デフォルトのTTSエンジン。オプション: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`。
voice	String	デフォルトの音声選択。
languageTTS	String	TTSのデフォルト言語。
automaticPlayback	Boolean	TTS応答を自動再生する。
playbackRate	Number	デフォルトの再生速度（1.0 = 標準）。範囲: 0.25–4.0。
cacheTTS	Boolean	繰り返し再生するためにTTS音声をキャッシュします。

例:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

完全な例

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

注記

設定ファイル内のAPIキーには、常に環境変数参照（例: ${API_KEY}）を使用してください。
複数のTTSプロバイダーを設定でき、ユーザーはUI上で好みのオプションを選択できます。
speechTab 設定は、ユーザーが個人設定で上書きできるデフォルト値を定義します。
詳細な機能ドキュメントについては、Speech to Text & Text to Speech を参照してください。