Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Configuration de la parole

Aperçu

L'objet speech vous permet de configurer directement les fournisseurs de synthèse vocale (TTS) et de reconnaissance vocale (STT) dans votre fichier de configuration librechat.yaml. Cela permet d'activer des services vocaux côté serveur sans que les utilisateurs aient besoin de configurer leurs propres clés API.

Champs sous speech :

  • tts - Configurations du fournisseur de synthèse vocale (Text-to-Speech)
  • stt - Configurations du fournisseur Speech-to-Text
  • speechTab - Paramètres d'interface par défaut pour les fonctionnalités vocales

Notes :

  • Plusieurs fournisseurs peuvent être configurés simultanément
  • Les utilisateurs peuvent sélectionner leur fournisseur préféré parmi les options disponibles.
  • Les clés API dans le fichier de configuration doivent utiliser des références de variables d'environnement pour des raisons de sécurité

Exemple

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

L'objet tts configure les fournisseurs de synthèse vocale (Text-to-Speech). Plusieurs fournisseurs peuvent être configurés, et les utilisateurs peuvent choisir celui qu'ils souhaitent utiliser.

openai

Configuration de OpenAI TTS utilisant des modèles comme tts-1 ou tts-1-hd.

KeyTypeDescriptionExample
urlStringURL d'API personnalisée (optionnel). À utiliser pour les endpoints compatibles avec OpenAI.
apiKeyStringClé API OpenAI. Utilisez la référence de variable d'environnement.Required
modelStringModèle TTS à utiliser (par ex. "tts-1", "tts-1-hd").Required
voicesArray of StringsOptions vocales disponibles pour la sélection par les utilisateurs.Required

Exemple :

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Configuration de Azure OpenAI TTS.

KeyTypeDescriptionExample
instanceNameStringNom de l'instance Azure OpenAI.Required
apiKeyStringClé API Azure OpenAI.Required
deploymentNameStringLe nom du déploiement pour le modèle TTS.Required
apiVersionStringVersion de l'API Azure OpenAI.Required
modelStringIdentifiant du modèle TTS.Required
voicesArray of StringsOptions vocales disponibles.Required

Exemple :

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Configuration TTS ElevenLabs pour une synthèse vocale de haute qualité.

KeyTypeDescriptionExample
urlStringURL d'API personnalisée (optionnel).
websocketUrlStringURL WebSocket pour le streaming (optionnel).
apiKeyStringClé API ElevenLabs.Required
modelStringModèle ElevenLabs (par ex. "eleven_multilingual_v2").Required
voicesArray of StringsIDs de voix disponibles pour la sélection.Required
voice_settingsObjectParamètres de personnalisation vocale (optionnel).
pronunciation_dictionary_locatorsArray of StringsIDs de dictionnaire de prononciation (optionnel).

Sous-clés de voice_settings :

KeyTypeDescriptionExample
similarity_boostNumberAmélioration de la similarité vocale (0-1).
stabilityNumberStabilité de la voix (0-1).
styleNumberExagération du style (0-1).
use_speaker_boostBooleanActiver l'amplification du haut-parleur.

Exemple :

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Configuration de LocalAI TTS pour la synthèse vocale auto-hébergée.

KeyTypeDescriptionExample
urlStringURL du serveur LocalAI.Required
apiKeyStringClé API si l'authentification est activée (optionnel).
voicesArray of StringsModèles vocaux disponibles.Required
backendStringBackend TTS à utiliser (par ex., "piper").Required

Exemple :

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

L'objet stt configure les fournisseurs de Speech-to-Text.

openai

Configuration de OpenAI Whisper STT.

KeyTypeDescriptionExample
urlStringURL d'API personnalisée (optionnel). À utiliser pour les endpoints compatibles avec OpenAI.
apiKeyStringClé API OpenAI. Utilisez la référence de variable d'environnement.Required
modelStringModèle STT à utiliser (par ex. "whisper-1").Required

Exemple :

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Configuration de Azure OpenAI Whisper STT.

KeyTypeDescriptionExample
instanceNameStringNom de l'instance Azure OpenAI.Required
apiKeyStringClé API Azure OpenAI.Required
deploymentNameStringLe nom de déploiement pour le modèle Whisper.Required
apiVersionStringVersion de l'API Azure OpenAI.Required

Exemple :

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

L'objet speechTab configure les paramètres d'interface utilisateur par défaut pour les fonctionnalités vocales. Ces paramètres contrôlent ce que les utilisateurs voient par défaut dans le panneau des paramètres vocaux.

KeyTypeDescriptionExample
conversationModeBooleanActiver le mode conversation par défaut.false
advancedModeBooleanAfficher les paramètres vocaux avancés par défaut.false
speechToTextBoolean or ObjectActiver STT par défaut, ou configurer les paramètres détaillés de STT.false
textToSpeechBoolean or ObjectActivez TTS par défaut ou configurez des paramètres TTS détaillés.false

speechToText (Format d'objet)

Lors de l'utilisation d'un objet au lieu d'un booléen :

KeyTypeDescriptionExample
engineSTTStringMoteur STT par défaut. Options : `"openai"`, `"azureOpenAI"`.
languageSTTStringLangue par défaut pour STT.
autoTranscribeAudioBooleanTranscrire automatiquement les messages audio.
decibelValueNumberSeuil de décibels pour la détection vocale.
autoSendTextNumberDélai en ms avant l'envoi automatique du texte transcrit (0 pour désactiver).

textToSpeech (Format d'objet)

Lors de l'utilisation d'un objet au lieu d'un booléen :

KeyTypeDescriptionExample
engineTTSStringMoteur TTS par défaut. Options : `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voiceStringSélection de la voix par défaut.
languageTTSStringLangue par défaut pour le TTS.
automaticPlaybackBooleanLire automatiquement les réponses TTS.
playbackRateNumberVitesse de lecture par défaut (1.0 = normale). Plage : 0.25–4.0.
cacheTTSBooleanMettre en cache l'audio TTS pour une lecture répétée.

Exemple :

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Exemple complet

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Notes

  • Utilisez toujours des références de variables d'environnement (par ex. ${API_KEY}) pour les clés API dans les fichiers de configuration
  • Plusieurs fournisseurs de TTS peuvent être configurés ; les utilisateurs sélectionnent leur option préférée dans l'interface utilisateur.
  • Les paramètres speechTab définissent les valeurs par défaut que les utilisateurs peuvent remplacer dans leurs paramètres personnels.
  • Pour une documentation détaillée des fonctionnalités, consultez Speech to Text & Text to Speech

Que pensez-vous de ce guide ?