Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Sprachkonfiguration

Übersicht

Das speech-Objekt ermöglicht es Ihnen, Text-to-Speech (TTS)- und Speech-to-Text (STT)-Anbieter direkt in Ihrer librechat.yaml-Konfigurationsdatei zu konfigurieren. Dies ermöglicht serverseitige Sprachdienste, ohne dass Benutzer ihre eigenen API-Schlüssel konfigurieren müssen.

Felder unter speech:

  • tts - Konfigurationen für Text-to-Speech-Anbieter
  • stt – Konfigurationen für Speech-to-Text-Anbieter
  • speechTab - Standard-UI-Einstellungen für Sprachfunktionen

Hinweise:

  • Mehrere Anbieter können gleichzeitig konfiguriert werden
  • Benutzer können ihren bevorzugten Anbieter aus den verfügbaren Optionen auswählen
  • API-Schlüssel in der Konfigurationsdatei sollten aus Sicherheitsgründen Umgebungsvariablen-Referenzen verwenden

Beispiel

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

Das tts Objekt konfiguriert Text-to-Speech-Anbieter. Es können mehrere Anbieter konfiguriert werden, und Benutzer können wählen, welchen sie verwenden möchten.

openai

OpenAI TTS-Konfiguration unter Verwendung von Modellen wie tts-1 oder tts-1-hd.

KeyTypeDescriptionExample
urlStringBenutzerdefinierte API-URL (optional). Zu verwenden für OpenAI-kompatible endpoints.
apiKeyStringOpenAI API-Schlüssel. Verwenden Sie den Umgebungsvariablen-Verweis.Required
modelStringZu verwendendes TTS-Modell (z. B. "tts-1", "tts-1-hd").Required
voicesArray of StringsVerfügbare Sprachoptionen, die Benutzer auswählen können.Required

Beispiel:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Azure OpenAI TTS Konfiguration.

KeyTypeDescriptionExample
instanceNameStringAzure OpenAI Instanzname.Required
apiKeyStringAzure OpenAI API-Schlüssel.Required
deploymentNameStringDer Bereitstellungsname für das TTS-Modell.Required
apiVersionStringAzure OpenAI API-Version.Required
modelStringTTS-Modellkennung.Required
voicesArray of StringsVerfügbare Sprachoptionen.Required

Beispiel:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

ElevenLabs TTS-Konfiguration für hochwertige Sprachsynthese.

KeyTypeDescriptionExample
urlStringBenutzerdefinierte API-URL (optional).
websocketUrlStringWebSocket-URL für Streaming (optional).
apiKeyStringElevenLabs API-Schlüssel.Required
modelStringElevenLabs-Modell (z. B. "eleven_multilingual_v2").Required
voicesArray of StringsVerfügbare Voice IDs zur Auswahl.Required
voice_settingsObjectEinstellungen zur Sprachanpassung (optional).
pronunciation_dictionary_locatorsArray of StringsIDs für Aussprachewörterbücher (optional).

voice_settings Sub-keys:

KeyTypeDescriptionExample
similarity_boostNumberVerbesserung der Stimmenähnlichkeit (0-1).
stabilityNumberSprachstabilität (0-1).
styleNumberStil-Übertreibung (0-1).
use_speaker_boostBooleanLautsprecherverstärkung aktivieren.

Beispiel:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

LocalAI TTS-Konfiguration für selbst gehostete Sprachsynthese.

KeyTypeDescriptionExample
urlStringLocalAI-Server-URL.Required
apiKeyStringAPI-Schlüssel, falls die Authentifizierung aktiviert ist (optional).
voicesArray of StringsVerfügbare Sprachmodelle.Required
backendStringZu verwendendes TTS-Backend (z. B. "piper").Required

Beispiel:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

Das stt Objekt konfiguriert Speech-to-Text-Anbieter.

openai

OpenAI Whisper STT Konfiguration.

KeyTypeDescriptionExample
urlStringBenutzerdefinierte API-URL (optional). Zu verwenden für OpenAI-kompatible endpoints.
apiKeyStringOpenAI API-Schlüssel. Verwenden Sie den Umgebungsvariablen-Verweis.Required
modelStringZu verwendendes STT-Modell (z. B. "whisper-1").Required

Beispiel:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Azure OpenAI Whisper STT Konfiguration.

KeyTypeDescriptionExample
instanceNameStringAzure OpenAI Instanzname.Required
apiKeyStringAzure OpenAI API-Schlüssel.Required
deploymentNameStringDer Bereitstellungsname für das Whisper-Modell.Required
apiVersionStringAzure OpenAI API-Version.Required

Beispiel:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

Das speechTab-Objekt konfiguriert die Standard-UI-Einstellungen für Sprachfunktionen. Diese Einstellungen steuern, was Benutzer standardmäßig im Bereich für Spracheinstellungen sehen.

KeyTypeDescriptionExample
conversationModeBooleanKonversationsmodus standardmäßig aktivieren.false
advancedModeBooleanErweiterte Spracheinstellungen standardmäßig anzeigen.false
speechToTextBoolean or ObjectSTT standardmäßig aktivieren oder detaillierte STT-Einstellungen konfigurieren.false
textToSpeechBoolean or ObjectTTS standardmäßig aktivieren oder detaillierte TTS-Einstellungen konfigurieren.false

speechToText (Objektformat)

Bei der Verwendung eines Objekts anstelle eines booleschen Werts:

KeyTypeDescriptionExample
engineSTTStringStandard-STT-Engine. Optionen: `"openai"`, `"azureOpenAI"`.
languageSTTStringStandardsprache für STT.
autoTranscribeAudioBooleanAudio-Nachrichten automatisch transkribieren.
decibelValueNumberDezibel-Schwellenwert für die Spracherkennung.
autoSendTextNumberVerzögerung in ms vor dem automatischen Senden von transkribiertem Text (0 zum Deaktivieren).

textToSpeech (Objektformat)

Bei der Verwendung eines Objekts anstelle eines booleschen Werts:

KeyTypeDescriptionExample
engineTTSStringStandard-TTS-Engine. Optionen: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voiceStringStandard-Stimmwahl.
languageTTSStringStandardsprache für TTS.
automaticPlaybackBooleanTTS-Antworten automatisch abspielen.
playbackRateNumberStandard-Wiedergabegeschwindigkeit (1.0 = normal). Bereich: 0.25–4.0.
cacheTTSBooleanTTS-Audio für wiederholte Wiedergabe zwischenspeichern.

Beispiel:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Vollständiges Beispiel

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Hinweise

  • Verwenden Sie in Konfigurationsdateien immer Umgebungsvariablen-Referenzen (z. B. ${API_KEY}) für API-Schlüssel.
  • Es können mehrere TTS-Anbieter konfiguriert werden; Benutzer wählen ihre bevorzugte Option in der UI aus.
  • Die speechTab-Einstellungen definieren Standardwerte, die Benutzer in ihren persönlichen Einstellungen überschreiben können.
  • Für eine detaillierte Funktionsdokumentation siehe Speech to Text & Text to Speech

Wie finden Sie diese Anleitung?