Configuration de la parole
Aperçu
L'objet speech vous permet de configurer directement les fournisseurs de synthèse vocale (TTS) et de reconnaissance vocale (STT) dans votre fichier de configuration librechat.yaml. Cela permet d'activer des services vocaux côté serveur sans que les utilisateurs aient besoin de configurer leurs propres clés API.
Champs sous speech :
tts- Configurations du fournisseur de synthèse vocale (Text-to-Speech)stt- Configurations du fournisseur Speech-to-TextspeechTab- Paramètres d'interface par défaut pour les fonctionnalités vocales
Notes :
- Plusieurs fournisseurs peuvent être configurés simultanément
- Les utilisateurs peuvent sélectionner leur fournisseur préféré parmi les options disponibles.
- Les clés API dans le fichier de configuration doivent utiliser des références de variables d'environnement pour des raisons de sécurité
Exemple
tts
L'objet tts configure les fournisseurs de synthèse vocale (Text-to-Speech). Plusieurs fournisseurs peuvent être configurés, et les utilisateurs peuvent choisir celui qu'ils souhaitent utiliser.
openai
Configuration de OpenAI TTS utilisant des modèles comme tts-1 ou tts-1-hd.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL d'API personnalisée (optionnel). À utiliser pour les endpoints compatibles avec OpenAI. | |
| apiKey | String | Clé API OpenAI. Utilisez la référence de variable d'environnement. | Required |
| model | String | Modèle TTS à utiliser (par ex. "tts-1", "tts-1-hd"). | Required |
| voices | Array of Strings | Options vocales disponibles pour la sélection par les utilisateurs. | Required |
Exemple :
azureOpenAI
Configuration de Azure OpenAI TTS.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nom de l'instance Azure OpenAI. | Required |
| apiKey | String | Clé API Azure OpenAI. | Required |
| deploymentName | String | Le nom du déploiement pour le modèle TTS. | Required |
| apiVersion | String | Version de l'API Azure OpenAI. | Required |
| model | String | Identifiant du modèle TTS. | Required |
| voices | Array of Strings | Options vocales disponibles. | Required |
Exemple :
elevenlabs
Configuration TTS ElevenLabs pour une synthèse vocale de haute qualité.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL d'API personnalisée (optionnel). | |
| websocketUrl | String | URL WebSocket pour le streaming (optionnel). | |
| apiKey | String | Clé API ElevenLabs. | Required |
| model | String | Modèle ElevenLabs (par ex. "eleven_multilingual_v2"). | Required |
| voices | Array of Strings | IDs de voix disponibles pour la sélection. | Required |
| voice_settings | Object | Paramètres de personnalisation vocale (optionnel). | |
| pronunciation_dictionary_locators | Array of Strings | IDs de dictionnaire de prononciation (optionnel). |
Sous-clés de voice_settings :
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | Amélioration de la similarité vocale (0-1). | |
| stability | Number | Stabilité de la voix (0-1). | |
| style | Number | Exagération du style (0-1). | |
| use_speaker_boost | Boolean | Activer l'amplification du haut-parleur. |
Exemple :
localai
Configuration de LocalAI TTS pour la synthèse vocale auto-hébergée.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL du serveur LocalAI. | Required |
| apiKey | String | Clé API si l'authentification est activée (optionnel). | |
| voices | Array of Strings | Modèles vocaux disponibles. | Required |
| backend | String | Backend TTS Ã utiliser (par ex., "piper"). | Required |
Exemple :
stt
L'objet stt configure les fournisseurs de Speech-to-Text.
openai
Configuration de OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL d'API personnalisée (optionnel). À utiliser pour les endpoints compatibles avec OpenAI. | |
| apiKey | String | Clé API OpenAI. Utilisez la référence de variable d'environnement. | Required |
| model | String | Modèle STT à utiliser (par ex. "whisper-1"). | Required |
Exemple :
azureOpenAI
Configuration de Azure OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nom de l'instance Azure OpenAI. | Required |
| apiKey | String | Clé API Azure OpenAI. | Required |
| deploymentName | String | Le nom de déploiement pour le modèle Whisper. | Required |
| apiVersion | String | Version de l'API Azure OpenAI. | Required |
Exemple :
speechTab
L'objet speechTab configure les paramètres d'interface utilisateur par défaut pour les fonctionnalités vocales. Ces paramètres contrôlent ce que les utilisateurs voient par défaut dans le panneau des paramètres vocaux.
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | Activer le mode conversation par défaut. | false |
| advancedMode | Boolean | Afficher les paramètres vocaux avancés par défaut. | false |
| speechToText | Boolean or Object | Activer STT par défaut, ou configurer les paramètres détaillés de STT. | false |
| textToSpeech | Boolean or Object | Activez TTS par défaut ou configurez des paramètres TTS détaillés. | false |
speechToText (Format d'objet)
Lors de l'utilisation d'un objet au lieu d'un booléen :
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | Moteur STT par défaut. Options : `"openai"`, `"azureOpenAI"`. | |
| languageSTT | String | Langue par défaut pour STT. | |
| autoTranscribeAudio | Boolean | Transcrire automatiquement les messages audio. | |
| decibelValue | Number | Seuil de décibels pour la détection vocale. | |
| autoSendText | Number | Délai en ms avant l'envoi automatique du texte transcrit (0 pour désactiver). |
textToSpeech (Format d'objet)
Lors de l'utilisation d'un objet au lieu d'un booléen :
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | Moteur TTS par défaut. Options : `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`. | |
| voice | String | Sélection de la voix par défaut. | |
| languageTTS | String | Langue par défaut pour le TTS. | |
| automaticPlayback | Boolean | Lire automatiquement les réponses TTS. | |
| playbackRate | Number | Vitesse de lecture par défaut (1.0 = normale). Plage : 0.25–4.0. | |
| cacheTTS | Boolean | Mettre en cache l'audio TTS pour une lecture répétée. |
Exemple :
Exemple complet
Notes
- Utilisez toujours des références de variables d'environnement (par ex.
${API_KEY}) pour les clés API dans les fichiers de configuration - Plusieurs fournisseurs de TTS peuvent être configurés ; les utilisateurs sélectionnent leur option préférée dans l'interface utilisateur.
- Les paramètres
speechTabdéfinissent les valeurs par défaut que les utilisateurs peuvent remplacer dans leurs paramètres personnels. - Pour une documentation détaillée des fonctionnalités, consultez Speech to Text & Text to Speech
Que pensez-vous de ce guide ?