Configuration de la parole

Aperçu

L'objet speech vous permet de configurer directement les fournisseurs de synthèse vocale (TTS) et de reconnaissance vocale (STT) dans votre fichier de configuration librechat.yaml. Cela permet d'activer des services vocaux côté serveur sans que les utilisateurs aient besoin de configurer leurs propres clés API.

Champs sous speech :

tts - Configurations du fournisseur de synthèse vocale (Text-to-Speech)
stt - Configurations du fournisseur Speech-to-Text
speechTab - Paramètres d'interface par défaut pour les fonctionnalités vocales

Notes :

Plusieurs fournisseurs peuvent être configurés simultanément
Les utilisateurs peuvent sélectionner leur fournisseur préféré parmi les options disponibles.
Les clés API dans le fichier de configuration doivent utiliser des références de variables d'environnement pour des raisons de sécurité

Exemple

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

L'objet tts configure les fournisseurs de synthèse vocale (Text-to-Speech). Plusieurs fournisseurs peuvent être configurés, et les utilisateurs peuvent choisir celui qu'ils souhaitent utiliser.

openai

Configuration de OpenAI TTS utilisant des modèles comme tts-1 ou tts-1-hd.

Key	Type	Description	Example
url	String	URL d'API personnalisée (optionnel). À utiliser pour les endpoints compatibles avec OpenAI.
apiKey	String	Clé API OpenAI. Utilisez la référence de variable d'environnement.	Required
model	String	Modèle TTS à utiliser (par ex. "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Options vocales disponibles pour la sélection par les utilisateurs.	Required

Exemple :

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Configuration de Azure OpenAI TTS.

Key	Type	Description	Example
instanceName	String	Nom de l'instance Azure OpenAI.	Required
apiKey	String	Clé API Azure OpenAI.	Required
deploymentName	String	Le nom du déploiement pour le modèle TTS.	Required
apiVersion	String	Version de l'API Azure OpenAI.	Required
model	String	Identifiant du modèle TTS.	Required
voices	Array of Strings	Options vocales disponibles.	Required

Exemple :

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Configuration TTS ElevenLabs pour une synthèse vocale de haute qualité.

Key	Type	Description	Example
url	String	URL d'API personnalisée (optionnel).
websocketUrl	String	URL WebSocket pour le streaming (optionnel).
apiKey	String	Clé API ElevenLabs.	Required
model	String	Modèle ElevenLabs (par ex. "eleven_multilingual_v2").	Required
voices	Array of Strings	IDs de voix disponibles pour la sélection.	Required
voice_settings	Object	Paramètres de personnalisation vocale (optionnel).
pronunciation_dictionary_locators	Array of Strings	IDs de dictionnaire de prononciation (optionnel).

Sous-clés de voice_settings :

Key	Type	Description
similarity_boost	Number	Amélioration de la similarité vocale (0-1).
stability	Number	Stabilité de la voix (0-1).
style	Number	Exagération du style (0-1).
use_speaker_boost	Boolean	Activer l'amplification du haut-parleur.

Exemple :

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Configuration de LocalAI TTS pour la synthèse vocale auto-hébergée.

Key	Type	Description	Example
url	String	URL du serveur LocalAI.	Required
apiKey	String	Clé API si l'authentification est activée (optionnel).
voices	Array of Strings	Modèles vocaux disponibles.	Required
backend	String	Backend TTS à utiliser (par ex., "piper").	Required

Exemple :

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

L'objet stt configure les fournisseurs de Speech-to-Text.

openai

Configuration de OpenAI Whisper STT.

Key	Type	Description	Example
url	String	URL d'API personnalisée (optionnel). À utiliser pour les endpoints compatibles avec OpenAI.
apiKey	String	Clé API OpenAI. Utilisez la référence de variable d'environnement.	Required
model	String	Modèle STT à utiliser (par ex. "whisper-1").	Required

Exemple :

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Configuration de Azure OpenAI Whisper STT.

Key	Type	Description	Example
instanceName	String	Nom de l'instance Azure OpenAI.	Required
apiKey	String	Clé API Azure OpenAI.	Required
deploymentName	String	Le nom de déploiement pour le modèle Whisper.	Required
apiVersion	String	Version de l'API Azure OpenAI.	Required

Exemple :

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

L'objet speechTab configure les paramètres d'interface utilisateur par défaut pour les fonctionnalités vocales. Ces paramètres contrôlent ce que les utilisateurs voient par défaut dans le panneau des paramètres vocaux.

Key	Type	Description	Example
conversationMode	Boolean	Activer le mode conversation par défaut.	false
advancedMode	Boolean	Afficher les paramètres vocaux avancés par défaut.	false
speechToText	Boolean or Object	Activer STT par défaut, ou configurer les paramètres détaillés de STT.	false
textToSpeech	Boolean or Object	Activez TTS par défaut ou configurez des paramètres TTS détaillés.	false

speechToText (Format d'objet)

Lors de l'utilisation d'un objet au lieu d'un booléen :

Key	Type	Description
engineSTT	String	Moteur STT par défaut. Options : `"openai"`, `"azureOpenAI"`.
languageSTT	String	Langue par défaut pour STT.
autoTranscribeAudio	Boolean	Transcrire automatiquement les messages audio.
decibelValue	Number	Seuil de décibels pour la détection vocale.
autoSendText	Number	Délai en ms avant l'envoi automatique du texte transcrit (0 pour désactiver).

textToSpeech (Format d'objet)

Lors de l'utilisation d'un objet au lieu d'un booléen :

Key	Type	Description
engineTTS	String	Moteur TTS par défaut. Options : `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Sélection de la voix par défaut.
languageTTS	String	Langue par défaut pour le TTS.
automaticPlayback	Boolean	Lire automatiquement les réponses TTS.
playbackRate	Number	Vitesse de lecture par défaut (1.0 = normale). Plage : 0.25–4.0.
cacheTTS	Boolean	Mettre en cache l'audio TTS pour une lecture répétée.

Exemple :

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Exemple complet

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Notes

Utilisez toujours des références de variables d'environnement (par ex. ${API_KEY}) pour les clés API dans les fichiers de configuration
Plusieurs fournisseurs de TTS peuvent être configurés ; les utilisateurs sélectionnent leur option préférée dans l'interface utilisateur.
Les paramètres speechTab définissent les valeurs par défaut que les utilisateurs peuvent remplacer dans leurs paramètres personnels.
Pour une documentation détaillée des fonctionnalités, consultez Speech to Text & Text to Speech