Configuração de fala

Visão geral

O objeto speech permite que você configure provedores de Text-to-Speech (TTS) e Speech-to-Text (STT) diretamente no seu arquivo de configuração librechat.yaml. Isso habilita serviços de voz no lado do servidor sem exigir que os usuários configurem suas próprias chaves de API.

Campos sob speech:

tts - Configurações do provedor de Text-to-Speech
stt - Configurações do provedor de Speech-to-Text
speechTab - Configurações padrão da interface para recursos de fala

Notas:

Vários provedores podem ser configurados simultaneamente
Os usuários podem selecionar seu provedor preferido entre as opções disponíveis.
As chaves de API no arquivo de configuração devem usar referências de variáveis de ambiente por segurança

Exemplo

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

O objeto tts configura provedores de Text-to-Speech. Múltiplos provedores podem ser configurados, e os usuários podem escolher qual utilizar.

openai

Configuração do OpenAI TTS usando modelos como tts-1 ou tts-1-hd.

Key	Type	Description	Example
url	String	URL da API personalizada (opcional). Use para endpoints compatíveis com OpenAI.
apiKey	String	Chave de API da OpenAI. Use a referência da variável de ambiente.	Required
model	String	Modelo TTS a ser usado (por exemplo, "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Opções de voz disponíveis para os usuários selecionarem.	Required

Exemplo:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Configuração do Azure OpenAI TTS.

Key	Type	Description	Example
instanceName	String	Nome da instância do Azure OpenAI.	Required
apiKey	String	Chave de API do Azure OpenAI.	Required
deploymentName	String	O nome da implantação para o modelo TTS.	Required
apiVersion	String	Versão da API do Azure OpenAI.	Required
model	String	Identificador do modelo TTS.	Required
voices	Array of Strings	Opções de voz disponíveis.	Required

Exemplo:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Configuração do ElevenLabs TTS para síntese de voz de alta qualidade.

Key	Type	Description	Example
url	String	URL da API personalizada (opcional).
websocketUrl	String	URL de WebSocket para streaming (opcional).
apiKey	String	Chave de API da ElevenLabs.	Required
model	String	Modelo ElevenLabs (por exemplo, "eleven_multilingual_v2").	Required
voices	Array of Strings	IDs de voz disponíveis para seleção.	Required
voice_settings	Object	Configurações de personalização de voz (opcional).
pronunciation_dictionary_locators	Array of Strings	IDs do dicionário de pronúncia (opcional).

Sub-chaves de voice_settings:

Key	Type	Description
similarity_boost	Number	Aprimoramento de similaridade de voz (0-1).
stability	Number	Estabilidade da voz (0-1).
style	Number	Exagero de estilo (0-1).
use_speaker_boost	Boolean	Ativar reforço de áudio.

Exemplo:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Configuração de TTS do LocalAI para síntese de voz auto-hospedada.

Key	Type	Description	Example
url	String	URL do servidor LocalAI.	Required
apiKey	String	Chave de API se a autenticação estiver habilitada (opcional).
voices	Array of Strings	Modelos de voz disponíveis.	Required
backend	String	Backend de TTS a ser usado (por exemplo, "piper").	Required

Exemplo:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

O objeto stt configura provedores de Speech-to-Text.

openai

Configuração do OpenAI Whisper STT.

Key	Type	Description	Example
url	String	URL da API personalizada (opcional). Use para endpoints compatíveis com OpenAI.
apiKey	String	Chave de API da OpenAI. Use a referência da variável de ambiente.	Required
model	String	Modelo STT a ser usado (por exemplo, "whisper-1").	Required

Exemplo:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Configuração do Azure OpenAI Whisper STT.

Key	Type	Description	Example
instanceName	String	Nome da instância do Azure OpenAI.	Required
apiKey	String	Chave de API do Azure OpenAI.	Required
deploymentName	String	O nome da implantação para o modelo Whisper.	Required
apiVersion	String	Versão da API do Azure OpenAI.	Required

Exemplo:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

O objeto speechTab configura as definições padrão da interface para os recursos de fala. Essas configurações controlam o que os usuários veem por padrão no painel de configurações de fala.

Key	Type	Description	Example
conversationMode	Boolean	Habilitar o modo de conversa por padrão.	false
advancedMode	Boolean	Mostrar configurações avançadas de fala por padrão.	false
speechToText	Boolean or Object	Habilitar STT por padrão ou definir configurações detalhadas de STT.	false
textToSpeech	Boolean or Object	Habilitar TTS por padrão ou configurar definições detalhadas de TTS.	false

speechToText (Formato de objeto)

Ao usar um objeto em vez de um booleano:

Key	Type	Description
engineSTT	String	Mecanismo de STT padrão. Opções: `"openai"`, `"azureOpenAI"`.
languageSTT	String	Idioma padrão para STT.
autoTranscribeAudio	Boolean	Transcrever automaticamente mensagens de áudio.
decibelValue	Number	Limiar de decibéis para detecção de voz.
autoSendText	Number	Atraso em ms antes do envio automático do texto transcrito (0 para desativar).

textToSpeech (Formato de objeto)

Ao usar um objeto em vez de um booleano:

Key	Type	Description
engineTTS	String	Mecanismo de TTS padrão. Opções: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Seleção de voz padrão.
languageTTS	String	Idioma padrão para TTS.
automaticPlayback	Boolean	Reproduzir automaticamente respostas de TTS.
playbackRate	Number	Velocidade de reprodução padrão (1.0 = normal). Intervalo: 0.25–4.0.
cacheTTS	Boolean	Armazenar em cache o áudio TTS para reprodução repetida.

Exemplo:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Exemplo Completo

version: 1.3.10
cache: true

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Notas

Sempre utilize referências de variáveis de ambiente (por exemplo, ${API_KEY}) para chaves de API em arquivos de configuração
Vários provedores de TTS podem ser configurados; os usuários selecionam sua opção preferida na interface.
As configurações speechTab definem padrões que os usuários podem substituir em suas configurações pessoais
Para documentação detalhada de recursos, veja Speech to Text & Text to Speech

Configuração de fala

Nesta página