Configuración de voz

Descripción general

El objeto speech le permite configurar proveedores de Texto a Voz (TTS) y Voz a Texto (STT) directamente en su archivo de configuración librechat.yaml. Esto habilita servicios de voz del lado del servidor sin requerir que los usuarios configuren sus propias claves de API.

Campos bajo speech:

tts - Configuraciones del proveedor de Text-to-Speech
stt - Configuraciones del proveedor de Speech-to-Text
speechTab - Configuración predeterminada de la interfaz de usuario para las funciones de voz

Notas:

Se pueden configurar múltiples proveedores simultáneamente
Los usuarios pueden seleccionar su proveedor preferido de las opciones disponibles
Las API keys en el archivo de configuración deben usar referencias a variables de entorno por seguridad

Ejemplo

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

El objeto tts configura los proveedores de Text-to-Speech. Se pueden configurar múltiples proveedores y los usuarios pueden elegir cuál utilizar.

openai

Configuración de OpenAI TTS utilizando modelos como tts-1 o tts-1-hd.

Key	Type	Description	Example
url	String	URL de API personalizada (opcional). Úselo para endpoints compatibles con OpenAI.
apiKey	String	Clave de API de OpenAI. Utilice la referencia de variable de entorno.	Required
model	String	Modelo TTS a utilizar (p. ej., "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Opciones de voz disponibles para que los usuarios seleccionen.	Required

Ejemplo:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Configuración de Azure OpenAI TTS.

Key	Type	Description	Example
instanceName	String	Nombre de la instancia de Azure OpenAI.	Required
apiKey	String	Clave de API de Azure OpenAI.	Required
deploymentName	String	El nombre de despliegue para el modelo TTS.	Required
apiVersion	String	Versión de la API de Azure OpenAI.	Required
model	String	Identificador del modelo TTS.	Required
voices	Array of Strings	Opciones de voz disponibles.	Required

Ejemplo:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Configuración de ElevenLabs TTS para síntesis de voz de alta calidad.

Key	Type	Description	Example
url	String	URL de API personalizada (opcional).
websocketUrl	String	URL de WebSocket para streaming (opcional).
apiKey	String	Clave de API de ElevenLabs.	Required
model	String	Modelo de ElevenLabs (p. ej., "eleven_multilingual_v2").	Required
voices	Array of Strings	IDs de voz disponibles para selección.	Required
voice_settings	Object	Configuración de personalización de voz (opcional).
pronunciation_dictionary_locators	Array of Strings	IDs del diccionario de pronunciación (opcional).

Sub-claves de voice_settings:

Key	Type	Description
similarity_boost	Number	Mejora de similitud de voz (0-1).
stability	Number	Estabilidad de voz (0-1).
style	Number	Exageración del estilo (0-1).
use_speaker_boost	Boolean	Habilitar el aumento de altavoz.

Ejemplo:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Configuración de LocalAI TTS para síntesis de voz autohospedada.

Key	Type	Description	Example
url	String	URL del servidor LocalAI.	Required
apiKey	String	Clave de API si la autenticación está habilitada (opcional).
voices	Array of Strings	Modelos de voz disponibles.	Required
backend	String	Backend de TTS a utilizar (p. ej., "piper").	Required

Ejemplo:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

El objeto stt configura los proveedores de Speech-to-Text.

openai

Configuración de OpenAI Whisper STT.

Key	Type	Description	Example
url	String	URL de API personalizada (opcional). Úselo para endpoints compatibles con OpenAI.
apiKey	String	Clave de API de OpenAI. Utilice la referencia de variable de entorno.	Required
model	String	Modelo STT a utilizar (p. ej., "whisper-1").	Required

Ejemplo:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Configuración de Azure OpenAI Whisper STT.

Key	Type	Description	Example
instanceName	String	Nombre de la instancia de Azure OpenAI.	Required
apiKey	String	Clave de API de Azure OpenAI.	Required
deploymentName	String	El nombre de despliegue para el modelo Whisper.	Required
apiVersion	String	Versión de la API de Azure OpenAI.	Required

Ejemplo:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

El objeto speechTab configura los ajustes predeterminados de la interfaz de usuario para las funciones de voz. Estos ajustes controlan lo que los usuarios ven de forma predeterminada en el panel de configuración de voz.

Key	Type	Description	Example
conversationMode	Boolean	Habilitar el modo de conversación de forma predeterminada.	false
advancedMode	Boolean	Mostrar la configuración avanzada de voz de forma predeterminada.	false
speechToText	Boolean or Object	Habilitar STT de forma predeterminada, o configurar ajustes detallados de STT.	false
textToSpeech	Boolean or Object	Habilitar TTS de forma predeterminada o configurar ajustes detallados de TTS.	false

speechToText (Formato de objeto)

Cuando se utiliza un objeto en lugar de un booleano:

Key	Type	Description
engineSTT	String	Motor de STT predeterminado. Opciones: `"openai"`, `"azureOpenAI"`.
languageSTT	String	Idioma predeterminado para STT.
autoTranscribeAudio	Boolean	Transcribir automáticamente mensajes de audio.
decibelValue	Number	Umbral de decibelios para la detección de voz.
autoSendText	Number	Retraso en ms antes de enviar automáticamente el texto transcrito (0 para desactivar).

textToSpeech (Formato de objeto)

Cuando se utiliza un objeto en lugar de un booleano:

Key	Type	Description
engineTTS	String	Motor de TTS predeterminado. Opciones: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Selección de voz predeterminada.
languageTTS	String	Idioma predeterminado para TTS.
automaticPlayback	Boolean	Reproducir automáticamente las respuestas TTS.
playbackRate	Number	Velocidad de reproducción predeterminada (1.0 = normal). Rango: 0.25–4.0.
cacheTTS	Boolean	Almacenar en caché el audio TTS para su reproducción repetida.

Ejemplo:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Ejemplo completo

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Notas

Utilice siempre referencias a variables de entorno (p. ej., ${API_KEY}) para las claves de API en los archivos de configuración.
Se pueden configurar múltiples proveedores de TTS; los usuarios seleccionan su opción preferida en la interfaz de usuario.
Los ajustes de speechTab definen los valores predeterminados que los usuarios pueden anular en su configuración personal.
Para obtener documentación detallada sobre las funciones, consulte Speech to Text & Text to Speech