Configuración de voz
Configuración de las funciones de voz a texto (STT) y texto a voz (TTS)
Introducción a la voz
La configuración de voz (Speech Configuration) incluye ajustes tanto para la conversión de voz a texto (STT) como de texto a voz (TTS) bajo una sección unificada speech:. Además, hay un nuevo menú speechTab para los ajustes específicos del usuario.
Véase también: Para obtener el esquema de configuración YAML detallado y todas las opciones disponibles, consulte la documentación de Speech Object Structure.
Variables de entorno
Al utilizar servicios de STT/TTS basados en la nube, deberá configurar las claves de API en su archivo .env:
Estas claves se referencian entonces en su configuración de librechat.yaml usando ${STT_API_KEY} y ${TTS_API_KEY}.
Pestaña de voz (opcional)
El menú speechTab ofrece opciones personalizables para los modos de conversación y avanzado, así como ajustes detallados para STT y TTS. Esto establecerá la configuración predeterminada para los usuarios.
ejemplo:
STT (Speech-to-Text)
La función de Speech-to-Text (STT) convierte las palabras habladas en texto escrito. Para habilitar STT, haga clic en el botón STT (cerca del botón de enviar) o utilice la combinación de teclas ++Ctrl+Alt+L++ para iniciar la transcripción.
Servicios STT disponibles
- STT local
- Basado en navegador
- Whisper (probado en LocalAI)
- Cloud STT
- OpenAI Whisper
- Azure Whisper
- Otros servicios de STT compatibles con OpenAI
Configuración de STT local
-
Browser-based
No se requiere configuración. Asegúrese de que el interruptor "Speech To Text" en la pestaña de configuración de voz esté activado y que "Browser" esté seleccionado en el menú desplegable del motor.
-
Whisper Local
Requiere una instancia local de Whisper.
Configuración de Cloud STT
Soporte de dominio para el endpoint de Azure
El campo instanceName admite ambos formatos de dominio de Azure OpenAI:
- Nuevo formato:
.cognitiveservices.azure.com(p. ej.,my-instance.cognitiveservices.azure.com) - Formato heredado:
.openai.azure.com(p. ej.,my-instance.openai.azure.com)
Puede especificar el dominio completo o solo el nombre de la instancia. Si proporciona un dominio completo que incluya .azure.com, se utilizará tal cual. De lo contrario, se aplicará el formato heredado .openai.azure.com para la compatibilidad con versiones anteriores.
Consulte la sección de OpenAI Whisper, ajustando la url y el model según sea necesario.
ejemplo
TTS (Texto a voz)
La función de Text-to-Speech (TTS) convierte texto escrito en palabras habladas. Hay varios servicios de TTS disponibles:
Servicios de TTS disponibles
- TTS Local
- Basado en navegador
- Piper (probado en LocalAI)
- Coqui (probado en LocalAI)
- Cloud TTS
- OpenAI TTS
- Azure OpenAI
- ElevenLabs
- Otros servicios de TTS compatibles con OpenAI/ElevenLabs
Configuración de TTS local
No se requiere configuración. Asegúrese de que el interruptor "Text To Speech" en la pestaña de configuración de voz esté activado y que "Browser" esté seleccionado en el menú desplegable del motor.
Requiere una instancia local de Piper.
Requiere una instancia local de Coqui.
Configuración de Cloud TTS
Soporte de dominio para el endpoint de Azure
El campo instanceName admite ambos formatos de dominio de Azure OpenAI:
- Nuevo formato:
.cognitiveservices.azure.com(p. ej.,my-instance.cognitiveservices.azure.com) - Formato heredado:
.openai.azure.com(p. ej.,my-instance.openai.azure.com)
Puede especificar el dominio completo o solo el nombre de la instancia. Si proporciona un dominio completo que incluya .azure.com, se utilizará tal cual. De lo contrario, se aplicará el formato heredado .openai.azure.com para la compatibilidad con versiones anteriores.
Se pueden añadir parámetros adicionales específicos de ElevenLabs de la siguiente manera:
Consulte la sección OpenAI TTS, ajustando la variable url según sea necesario
ejemplo:
Consulte la sección de ElevenLabs, ajustando la variable url según sea necesario
ejemplo:
¿Qué te parece esta guía?