Sprachkonfiguration

Übersicht

Das speech-Objekt ermöglicht es Ihnen, Text-to-Speech (TTS)- und Speech-to-Text (STT)-Anbieter direkt in Ihrer librechat.yaml-Konfigurationsdatei zu konfigurieren. Dies ermöglicht serverseitige Sprachdienste, ohne dass Benutzer ihre eigenen API-Schlüssel konfigurieren müssen.

Felder unter speech:

tts - Konfigurationen für Text-to-Speech-Anbieter
stt – Konfigurationen für Speech-to-Text-Anbieter
speechTab - Standard-UI-Einstellungen für Sprachfunktionen

Hinweise:

Mehrere Anbieter können gleichzeitig konfiguriert werden
Benutzer können ihren bevorzugten Anbieter aus den verfügbaren Optionen auswählen
API-Schlüssel in der Konfigurationsdatei sollten aus Sicherheitsgründen Umgebungsvariablen-Referenzen verwenden

Beispiel

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

Das tts Objekt konfiguriert Text-to-Speech-Anbieter. Es können mehrere Anbieter konfiguriert werden, und Benutzer können wählen, welchen sie verwenden möchten.

openai

OpenAI TTS-Konfiguration unter Verwendung von Modellen wie tts-1 oder tts-1-hd.

Key	Type	Description	Example
url	String	Benutzerdefinierte API-URL (optional). Zu verwenden für OpenAI-kompatible endpoints.
apiKey	String	OpenAI API-Schlüssel. Verwenden Sie den Umgebungsvariablen-Verweis.	Required
model	String	Zu verwendendes TTS-Modell (z. B. "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Verfügbare Sprachoptionen, die Benutzer auswählen können.	Required

Beispiel:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Azure OpenAI TTS Konfiguration.

Key	Type	Description	Example
instanceName	String	Azure OpenAI Instanzname.	Required
apiKey	String	Azure OpenAI API-Schlüssel.	Required
deploymentName	String	Der Bereitstellungsname für das TTS-Modell.	Required
apiVersion	String	Azure OpenAI API-Version.	Required
model	String	TTS-Modellkennung.	Required
voices	Array of Strings	Verfügbare Sprachoptionen.	Required

Beispiel:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

ElevenLabs TTS-Konfiguration für hochwertige Sprachsynthese.

Key	Type	Description	Example
url	String	Benutzerdefinierte API-URL (optional).
websocketUrl	String	WebSocket-URL für Streaming (optional).
apiKey	String	ElevenLabs API-Schlüssel.	Required
model	String	ElevenLabs-Modell (z. B. "eleven_multilingual_v2").	Required
voices	Array of Strings	Verfügbare Voice IDs zur Auswahl.	Required
voice_settings	Object	Einstellungen zur Sprachanpassung (optional).
pronunciation_dictionary_locators	Array of Strings	IDs für Aussprachewörterbücher (optional).

voice_settings Sub-keys:

Key	Type	Description
similarity_boost	Number	Verbesserung der Stimmenähnlichkeit (0-1).
stability	Number	Sprachstabilität (0-1).
style	Number	Stil-Übertreibung (0-1).
use_speaker_boost	Boolean	Lautsprecherverstärkung aktivieren.

Beispiel:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

LocalAI TTS-Konfiguration für selbst gehostete Sprachsynthese.

Key	Type	Description	Example
url	String	LocalAI-Server-URL.	Required
apiKey	String	API-Schlüssel, falls die Authentifizierung aktiviert ist (optional).
voices	Array of Strings	Verfügbare Sprachmodelle.	Required
backend	String	Zu verwendendes TTS-Backend (z. B. "piper").	Required

Beispiel:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

Das stt Objekt konfiguriert Speech-to-Text-Anbieter.

openai

OpenAI Whisper STT Konfiguration.

Key	Type	Description	Example
url	String	Benutzerdefinierte API-URL (optional). Zu verwenden für OpenAI-kompatible endpoints.
apiKey	String	OpenAI API-Schlüssel. Verwenden Sie den Umgebungsvariablen-Verweis.	Required
model	String	Zu verwendendes STT-Modell (z. B. "whisper-1").	Required

Beispiel:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Azure OpenAI Whisper STT Konfiguration.

Key	Type	Description	Example
instanceName	String	Azure OpenAI Instanzname.	Required
apiKey	String	Azure OpenAI API-Schlüssel.	Required
deploymentName	String	Der Bereitstellungsname für das Whisper-Modell.	Required
apiVersion	String	Azure OpenAI API-Version.	Required

Beispiel:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

Das speechTab-Objekt konfiguriert die Standard-UI-Einstellungen für Sprachfunktionen. Diese Einstellungen steuern, was Benutzer standardmäßig im Bereich für Spracheinstellungen sehen.

Key	Type	Description	Example
conversationMode	Boolean	Konversationsmodus standardmäßig aktivieren.	false
advancedMode	Boolean	Erweiterte Spracheinstellungen standardmäßig anzeigen.	false
speechToText	Boolean or Object	STT standardmäßig aktivieren oder detaillierte STT-Einstellungen konfigurieren.	false
textToSpeech	Boolean or Object	TTS standardmäßig aktivieren oder detaillierte TTS-Einstellungen konfigurieren.	false

speechToText (Objektformat)

Bei der Verwendung eines Objekts anstelle eines booleschen Werts:

Key	Type	Description
engineSTT	String	Standard-STT-Engine. Optionen: `"openai"`, `"azureOpenAI"`.
languageSTT	String	Standardsprache für STT.
autoTranscribeAudio	Boolean	Audio-Nachrichten automatisch transkribieren.
decibelValue	Number	Dezibel-Schwellenwert für die Spracherkennung.
autoSendText	Number	Verzögerung in ms vor dem automatischen Senden von transkribiertem Text (0 zum Deaktivieren).

textToSpeech (Objektformat)

Bei der Verwendung eines Objekts anstelle eines booleschen Werts:

Key	Type	Description
engineTTS	String	Standard-TTS-Engine. Optionen: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Standard-Stimmwahl.
languageTTS	String	Standardsprache für TTS.
automaticPlayback	Boolean	TTS-Antworten automatisch abspielen.
playbackRate	Number	Standard-Wiedergabegeschwindigkeit (1.0 = normal). Bereich: 0.25–4.0.
cacheTTS	Boolean	TTS-Audio für wiederholte Wiedergabe zwischenspeichern.

Beispiel:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Vollständiges Beispiel

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Hinweise

Verwenden Sie in Konfigurationsdateien immer Umgebungsvariablen-Referenzen (z. B. ${API_KEY}) für API-Schlüssel.
Es können mehrere TTS-Anbieter konfiguriert werden; Benutzer wählen ihre bevorzugte Option in der UI aus.
Die speechTab-Einstellungen definieren Standardwerte, die Benutzer in ihren persönlichen Einstellungen überschreiben können.
Für eine detaillierte Funktionsdokumentation siehe Speech to Text & Text to Speech