Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Configuración de voz

Descripción general

El objeto speech le permite configurar proveedores de Texto a Voz (TTS) y Voz a Texto (STT) directamente en su archivo de configuración librechat.yaml. Esto habilita servicios de voz del lado del servidor sin requerir que los usuarios configuren sus propias claves de API.

Campos bajo speech:

  • tts - Configuraciones del proveedor de Text-to-Speech
  • stt - Configuraciones del proveedor de Speech-to-Text
  • speechTab - Configuración predeterminada de la interfaz de usuario para las funciones de voz

Notas:

  • Se pueden configurar múltiples proveedores simultáneamente
  • Los usuarios pueden seleccionar su proveedor preferido de las opciones disponibles
  • Las API keys en el archivo de configuración deben usar referencias a variables de entorno por seguridad

Ejemplo

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

El objeto tts configura los proveedores de Text-to-Speech. Se pueden configurar múltiples proveedores y los usuarios pueden elegir cuál utilizar.

openai

Configuración de OpenAI TTS utilizando modelos como tts-1 o tts-1-hd.

KeyTypeDescriptionExample
urlStringURL de API personalizada (opcional). Úselo para endpoints compatibles con OpenAI.
apiKeyStringClave de API de OpenAI. Utilice la referencia de variable de entorno.Required
modelStringModelo TTS a utilizar (p. ej., "tts-1", "tts-1-hd").Required
voicesArray of StringsOpciones de voz disponibles para que los usuarios seleccionen.Required

Ejemplo:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Configuración de Azure OpenAI TTS.

KeyTypeDescriptionExample
instanceNameStringNombre de la instancia de Azure OpenAI.Required
apiKeyStringClave de API de Azure OpenAI.Required
deploymentNameStringEl nombre de despliegue para el modelo TTS.Required
apiVersionStringVersión de la API de Azure OpenAI.Required
modelStringIdentificador del modelo TTS.Required
voicesArray of StringsOpciones de voz disponibles.Required

Ejemplo:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Configuración de ElevenLabs TTS para síntesis de voz de alta calidad.

KeyTypeDescriptionExample
urlStringURL de API personalizada (opcional).
websocketUrlStringURL de WebSocket para streaming (opcional).
apiKeyStringClave de API de ElevenLabs.Required
modelStringModelo de ElevenLabs (p. ej., "eleven_multilingual_v2").Required
voicesArray of StringsIDs de voz disponibles para selección.Required
voice_settingsObjectConfiguración de personalización de voz (opcional).
pronunciation_dictionary_locatorsArray of StringsIDs del diccionario de pronunciación (opcional).

Sub-claves de voice_settings:

KeyTypeDescriptionExample
similarity_boostNumberMejora de similitud de voz (0-1).
stabilityNumberEstabilidad de voz (0-1).
styleNumberExageración del estilo (0-1).
use_speaker_boostBooleanHabilitar el aumento de altavoz.

Ejemplo:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Configuración de LocalAI TTS para síntesis de voz autohospedada.

KeyTypeDescriptionExample
urlStringURL del servidor LocalAI.Required
apiKeyStringClave de API si la autenticación está habilitada (opcional).
voicesArray of StringsModelos de voz disponibles.Required
backendStringBackend de TTS a utilizar (p. ej., "piper").Required

Ejemplo:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

El objeto stt configura los proveedores de Speech-to-Text.

openai

Configuración de OpenAI Whisper STT.

KeyTypeDescriptionExample
urlStringURL de API personalizada (opcional). Úselo para endpoints compatibles con OpenAI.
apiKeyStringClave de API de OpenAI. Utilice la referencia de variable de entorno.Required
modelStringModelo STT a utilizar (p. ej., "whisper-1").Required

Ejemplo:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Configuración de Azure OpenAI Whisper STT.

KeyTypeDescriptionExample
instanceNameStringNombre de la instancia de Azure OpenAI.Required
apiKeyStringClave de API de Azure OpenAI.Required
deploymentNameStringEl nombre de despliegue para el modelo Whisper.Required
apiVersionStringVersión de la API de Azure OpenAI.Required

Ejemplo:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

El objeto speechTab configura los ajustes predeterminados de la interfaz de usuario para las funciones de voz. Estos ajustes controlan lo que los usuarios ven de forma predeterminada en el panel de configuración de voz.

KeyTypeDescriptionExample
conversationModeBooleanHabilitar el modo de conversación de forma predeterminada.false
advancedModeBooleanMostrar la configuración avanzada de voz de forma predeterminada.false
speechToTextBoolean or ObjectHabilitar STT de forma predeterminada, o configurar ajustes detallados de STT.false
textToSpeechBoolean or ObjectHabilitar TTS de forma predeterminada o configurar ajustes detallados de TTS.false

speechToText (Formato de objeto)

Cuando se utiliza un objeto en lugar de un booleano:

KeyTypeDescriptionExample
engineSTTStringMotor de STT predeterminado. Opciones: `"openai"`, `"azureOpenAI"`.
languageSTTStringIdioma predeterminado para STT.
autoTranscribeAudioBooleanTranscribir automáticamente mensajes de audio.
decibelValueNumberUmbral de decibelios para la detección de voz.
autoSendTextNumberRetraso en ms antes de enviar automáticamente el texto transcrito (0 para desactivar).

textToSpeech (Formato de objeto)

Cuando se utiliza un objeto en lugar de un booleano:

KeyTypeDescriptionExample
engineTTSStringMotor de TTS predeterminado. Opciones: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voiceStringSelección de voz predeterminada.
languageTTSStringIdioma predeterminado para TTS.
automaticPlaybackBooleanReproducir automáticamente las respuestas TTS.
playbackRateNumberVelocidad de reproducción predeterminada (1.0 = normal). Rango: 0.25–4.0.
cacheTTSBooleanAlmacenar en caché el audio TTS para su reproducción repetida.

Ejemplo:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Ejemplo completo

version: 1.3.10
cache: true
 
speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Notas

  • Utilice siempre referencias a variables de entorno (p. ej., ${API_KEY}) para las claves de API en los archivos de configuración.
  • Se pueden configurar múltiples proveedores de TTS; los usuarios seleccionan su opción preferida en la interfaz de usuario.
  • Los ajustes de speechTab definen los valores predeterminados que los usuarios pueden anular en su configuración personal.
  • Para obtener documentación detallada sobre las funciones, consulte Speech to Text & Text to Speech

¿Qué te parece esta guía?