Configuración de voz
Descripción general
El objeto speech le permite configurar proveedores de Texto a Voz (TTS) y Voz a Texto (STT) directamente en su archivo de configuración librechat.yaml. Esto habilita servicios de voz del lado del servidor sin requerir que los usuarios configuren sus propias claves de API.
Campos bajo speech:
tts- Configuraciones del proveedor de Text-to-Speechstt- Configuraciones del proveedor de Speech-to-TextspeechTab- Configuración predeterminada de la interfaz de usuario para las funciones de voz
Notas:
- Se pueden configurar múltiples proveedores simultáneamente
- Los usuarios pueden seleccionar su proveedor preferido de las opciones disponibles
- Las API keys en el archivo de configuración deben usar referencias a variables de entorno por seguridad
Ejemplo
tts
El objeto tts configura los proveedores de Text-to-Speech. Se pueden configurar múltiples proveedores y los usuarios pueden elegir cuál utilizar.
openai
Configuración de OpenAI TTS utilizando modelos como tts-1 o tts-1-hd.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL de API personalizada (opcional). Úselo para endpoints compatibles con OpenAI. | |
| apiKey | String | Clave de API de OpenAI. Utilice la referencia de variable de entorno. | Required |
| model | String | Modelo TTS a utilizar (p. ej., "tts-1", "tts-1-hd"). | Required |
| voices | Array of Strings | Opciones de voz disponibles para que los usuarios seleccionen. | Required |
Ejemplo:
azureOpenAI
Configuración de Azure OpenAI TTS.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nombre de la instancia de Azure OpenAI. | Required |
| apiKey | String | Clave de API de Azure OpenAI. | Required |
| deploymentName | String | El nombre de despliegue para el modelo TTS. | Required |
| apiVersion | String | Versión de la API de Azure OpenAI. | Required |
| model | String | Identificador del modelo TTS. | Required |
| voices | Array of Strings | Opciones de voz disponibles. | Required |
Ejemplo:
elevenlabs
Configuración de ElevenLabs TTS para síntesis de voz de alta calidad.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL de API personalizada (opcional). | |
| websocketUrl | String | URL de WebSocket para streaming (opcional). | |
| apiKey | String | Clave de API de ElevenLabs. | Required |
| model | String | Modelo de ElevenLabs (p. ej., "eleven_multilingual_v2"). | Required |
| voices | Array of Strings | IDs de voz disponibles para selección. | Required |
| voice_settings | Object | Configuración de personalización de voz (opcional). | |
| pronunciation_dictionary_locators | Array of Strings | IDs del diccionario de pronunciación (opcional). |
Sub-claves de voice_settings:
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | Mejora de similitud de voz (0-1). | |
| stability | Number | Estabilidad de voz (0-1). | |
| style | Number | Exageración del estilo (0-1). | |
| use_speaker_boost | Boolean | Habilitar el aumento de altavoz. |
Ejemplo:
localai
Configuración de LocalAI TTS para síntesis de voz autohospedada.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL del servidor LocalAI. | Required |
| apiKey | String | Clave de API si la autenticación está habilitada (opcional). | |
| voices | Array of Strings | Modelos de voz disponibles. | Required |
| backend | String | Backend de TTS a utilizar (p. ej., "piper"). | Required |
Ejemplo:
stt
El objeto stt configura los proveedores de Speech-to-Text.
openai
Configuración de OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL de API personalizada (opcional). Úselo para endpoints compatibles con OpenAI. | |
| apiKey | String | Clave de API de OpenAI. Utilice la referencia de variable de entorno. | Required |
| model | String | Modelo STT a utilizar (p. ej., "whisper-1"). | Required |
Ejemplo:
azureOpenAI
Configuración de Azure OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nombre de la instancia de Azure OpenAI. | Required |
| apiKey | String | Clave de API de Azure OpenAI. | Required |
| deploymentName | String | El nombre de despliegue para el modelo Whisper. | Required |
| apiVersion | String | Versión de la API de Azure OpenAI. | Required |
Ejemplo:
speechTab
El objeto speechTab configura los ajustes predeterminados de la interfaz de usuario para las funciones de voz. Estos ajustes controlan lo que los usuarios ven de forma predeterminada en el panel de configuración de voz.
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | Habilitar el modo de conversación de forma predeterminada. | false |
| advancedMode | Boolean | Mostrar la configuración avanzada de voz de forma predeterminada. | false |
| speechToText | Boolean or Object | Habilitar STT de forma predeterminada, o configurar ajustes detallados de STT. | false |
| textToSpeech | Boolean or Object | Habilitar TTS de forma predeterminada o configurar ajustes detallados de TTS. | false |
speechToText (Formato de objeto)
Cuando se utiliza un objeto en lugar de un booleano:
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | Motor de STT predeterminado. Opciones: `"openai"`, `"azureOpenAI"`. | |
| languageSTT | String | Idioma predeterminado para STT. | |
| autoTranscribeAudio | Boolean | Transcribir automáticamente mensajes de audio. | |
| decibelValue | Number | Umbral de decibelios para la detección de voz. | |
| autoSendText | Number | Retraso en ms antes de enviar automáticamente el texto transcrito (0 para desactivar). |
textToSpeech (Formato de objeto)
Cuando se utiliza un objeto en lugar de un booleano:
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | Motor de TTS predeterminado. Opciones: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`. | |
| voice | String | Selección de voz predeterminada. | |
| languageTTS | String | Idioma predeterminado para TTS. | |
| automaticPlayback | Boolean | Reproducir automáticamente las respuestas TTS. | |
| playbackRate | Number | Velocidad de reproducción predeterminada (1.0 = normal). Rango: 0.25–4.0. | |
| cacheTTS | Boolean | Almacenar en caché el audio TTS para su reproducción repetida. |
Ejemplo:
Ejemplo completo
Notas
- Utilice siempre referencias a variables de entorno (p. ej.,
${API_KEY}) para las claves de API en los archivos de configuración. - Se pueden configurar múltiples proveedores de TTS; los usuarios seleccionan su opción preferida en la interfaz de usuario.
- Los ajustes de
speechTabdefinen los valores predeterminados que los usuarios pueden anular en su configuración personal. - Para obtener documentación detallada sobre las funciones, consulte Speech to Text & Text to Speech
¿Qué te parece esta guía?