Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

音声設定

概要

speech オブジェクトを使用すると、librechat.yaml 設定ファイル内で直接 Text-to-Speech (TTS) および Speech-to-Text (STT) プロバイダーを設定できます。これにより、ユーザーが各自の API キーを設定することなく、サーバーサイドの音声サービスを利用できるようになります。

speech 配下のフィールド:

  • tts - Text-to-Speech プロバイダーの設定
  • stt - Speech-to-Text プロバイダーの設定
  • speechTab - 音声機能のデフォルトUI設定

注記:

  • 複数のプロバイダーを同時に設定できます
  • ユーザーは利用可能なオプションから好みのプロバイダーを選択できます。
  • configファイル内のAPIキーは、セキュリティ上の理由から環境変数参照を使用する必要があります。

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

tts オブジェクトは、Text-to-Speech(テキスト読み上げ)プロバイダーを設定します。複数のプロバイダーを設定でき、ユーザーは使用するプロバイダーを選択できます。

openai

tts-1tts-1-hd などのモデルを使用した OpenAI TTS の設定。

KeyTypeDescriptionExample
urlStringカスタムAPI URL(オプション)。OpenAI互換のendpointに使用します。
apiKeyStringOpenAI APIキー。環境変数参照を使用してください。Required
modelString使用するTTSモデル(例: "tts-1", "tts-1-hd")Required
voicesArray of Stringsユーザーが選択可能な音声オプション。Required

例:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Azure OpenAI TTS の設定。

KeyTypeDescriptionExample
instanceNameStringAzure OpenAI インスタンス名。Required
apiKeyStringAzure OpenAI APIキーRequired
deploymentNameStringTTSモデルのデプロイメント名。Required
apiVersionStringAzure OpenAI API バージョンRequired
modelStringTTSモデル識別子。Required
voicesArray of Strings利用可能な音声オプション。Required

例:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

高品質な音声合成のためのElevenLabs TTS設定。

KeyTypeDescriptionExample
urlStringカスタムAPI URL(オプション)
websocketUrlStringストリーミング用のWebSocket URL(オプション)。
apiKeyStringElevenLabs APIキーRequired
modelStringElevenLabsモデル(例: "eleven_multilingual_v2")Required
voicesArray of Strings選択可能なVoice ID。Required
voice_settingsObject音声カスタマイズ設定(オプション)。
pronunciation_dictionary_locatorsArray of Strings発音辞書ID(オプション)。

voice_settings サブキー:

KeyTypeDescriptionExample
similarity_boostNumber音声の類似性向上 (0-1)
stabilityNumber音声の安定性 (0-1)
styleNumberスタイルの誇張度 (0-1)
use_speaker_boostBooleanスピーカーブーストを有効にする。

例:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

セルフホスト型の音声合成のためのLocalAI TTS設定。

KeyTypeDescriptionExample
urlStringLocalAIサーバーのURL。Required
apiKeyString認証が有効な場合のAPIキー(オプション)。
voicesArray of Strings利用可能な音声モデルRequired
backendString使用するTTSバックエンド(例: "piper")Required

例:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

stt オブジェクトは、Speech-to-Text プロバイダーを設定します。

openai

OpenAI Whisper STT の設定。

KeyTypeDescriptionExample
urlStringカスタムAPI URL(オプション)。OpenAI互換のendpointに使用します。
apiKeyStringOpenAI APIキー。環境変数参照を使用してください。Required
modelString使用するSTTモデル(例: "whisper-1")Required

例:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Azure OpenAI Whisper STT の設定。

KeyTypeDescriptionExample
instanceNameStringAzure OpenAI インスタンス名。Required
apiKeyStringAzure OpenAI APIキーRequired
deploymentNameStringWhisperモデルのデプロイメント名。Required
apiVersionStringAzure OpenAI API バージョンRequired

例:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

speechTab オブジェクトは、音声機能のデフォルトのUI設定を構成します。これらの設定は、音声設定パネルでユーザーにデフォルトで表示される内容を制御します。

KeyTypeDescriptionExample
conversationModeBooleanデフォルトで会話モードを有効にする。false
advancedModeBooleanデフォルトで詳細な音声設定を表示する。false
speechToTextBoolean or ObjectSTTをデフォルトで有効にするか、詳細なSTT設定を構成します。false
textToSpeechBoolean or ObjectTTSをデフォルトで有効にするか、詳細なTTS設定を構成します。false

speechToText (オブジェクト形式)

booleanの代わりにオブジェクトを使用する場合:

KeyTypeDescriptionExample
engineSTTStringデフォルトのSTTエンジン。オプション: `"openai"`、`"azureOpenAI"`。
languageSTTStringSTTのデフォルト言語。
autoTranscribeAudioBoolean音声メッセージを自動的に文字起こしします。
decibelValueNumber音声検出のデシベルしきい値。
autoSendTextNumber文字起こしされたテキストを自動送信するまでの遅延時間(ミリ秒)(0で無効)

textToSpeech (オブジェクト形式)

booleanの代わりにオブジェクトを使用する場合:

KeyTypeDescriptionExample
engineTTSStringデフォルトのTTSエンジン。オプション: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`。
voiceStringデフォルトの音声選択。
languageTTSStringTTSのデフォルト言語。
automaticPlaybackBooleanTTS応答を自動再生する。
playbackRateNumberデフォルトの再生速度(1.0 = 標準)。範囲: 0.25–4.0。
cacheTTSBoolean繰り返し再生するためにTTS音声をキャッシュします。

例:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

完全な例

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

注記

  • 設定ファイル内のAPIキーには、常に環境変数参照(例: ${API_KEY})を使用してください。
  • 複数のTTSプロバイダーを設定でき、ユーザーはUI上で好みのオプションを選択できます。
  • speechTab 設定は、ユーザーが個人設定で上書きできるデフォルト値を定義します。
  • 詳細な機能ドキュメントについては、Speech to Text & Text to Speech を参照してください。

このガイドはいかがでしたか?