Configuração de fala
Visão geral
O objeto speech permite que você configure provedores de Text-to-Speech (TTS) e Speech-to-Text (STT) diretamente no seu arquivo de configuração librechat.yaml. Isso habilita serviços de voz no lado do servidor sem exigir que os usuários configurem suas próprias chaves de API.
Campos sob speech:
tts- Configurações do provedor de Text-to-Speechstt- Configurações do provedor de Speech-to-TextspeechTab- Configurações padrão da interface para recursos de fala
Notas:
- Vários provedores podem ser configurados simultaneamente
- Os usuários podem selecionar seu provedor preferido entre as opções disponíveis.
- As chaves de API no arquivo de configuração devem usar referências de variáveis de ambiente por segurança
Exemplo
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["voice-id-1", "voice-id-2"]
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: true
advancedMode: false
speechToText: true
textToSpeech: truetts
O objeto tts configura provedores de Text-to-Speech. Múltiplos provedores podem ser configurados, e os usuários podem escolher qual utilizar.
openai
Configuração do OpenAI TTS usando modelos como tts-1 ou tts-1-hd.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL da API personalizada (opcional). Use para endpoints compatíveis com OpenAI. | |
| apiKey | String | Chave de API da OpenAI. Use a referência da variável de ambiente. | Required |
| model | String | Modelo TTS a ser usado (por exemplo, "tts-1", "tts-1-hd"). | Required |
| voices | Array of Strings | Opções de voz disponíveis para os usuários selecionarem. | Required |
Exemplo:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]azureOpenAI
Configuração do Azure OpenAI TTS.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nome da instância do Azure OpenAI. | Required |
| apiKey | String | Chave de API do Azure OpenAI. | Required |
| deploymentName | String | O nome da implantação para o modelo TTS. | Required |
| apiVersion | String | Versão da API do Azure OpenAI. | Required |
| model | String | Identificador do modelo TTS. | Required |
| voices | Array of Strings | Opções de voz disponíveis. | Required |
Exemplo:
tts:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_TTS_API_KEY}"
deploymentName: "tts-deployment"
apiVersion: "2024-02-15-preview"
model: "tts-1"
voices: ["alloy", "echo", "nova"]elevenlabs
Configuração do ElevenLabs TTS para síntese de voz de alta qualidade.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL da API personalizada (opcional). | |
| websocketUrl | String | URL de WebSocket para streaming (opcional). | |
| apiKey | String | Chave de API da ElevenLabs. | Required |
| model | String | Modelo ElevenLabs (por exemplo, "eleven_multilingual_v2"). | Required |
| voices | Array of Strings | IDs de voz disponíveis para seleção. | Required |
| voice_settings | Object | Configurações de personalização de voz (opcional). | |
| pronunciation_dictionary_locators | Array of Strings | IDs do dicionário de pronúncia (opcional). |
Sub-chaves de voice_settings:
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | Aprimoramento de similaridade de voz (0-1). | |
| stability | Number | Estabilidade da voz (0-1). | |
| style | Number | Exagero de estilo (0-1). | |
| use_speaker_boost | Boolean | Ativar reforço de áudio. |
Exemplo:
tts:
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
use_speaker_boost: truelocalai
Configuração de TTS do LocalAI para síntese de voz auto-hospedada.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL do servidor LocalAI. | Required |
| apiKey | String | Chave de API se a autenticação estiver habilitada (opcional). | |
| voices | Array of Strings | Modelos de voz disponíveis. | Required |
| backend | String | Backend de TTS a ser usado (por exemplo, "piper"). | Required |
Exemplo:
tts:
localai:
url: "http://localhost:8080"
voices: ["en-us-amy-low", "en-us-danny-low"]
backend: "piper"stt
O objeto stt configura provedores de Speech-to-Text.
openai
Configuração do OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL da API personalizada (opcional). Use para endpoints compatíveis com OpenAI. | |
| apiKey | String | Chave de API da OpenAI. Use a referência da variável de ambiente. | Required |
| model | String | Modelo STT a ser usado (por exemplo, "whisper-1"). | Required |
Exemplo:
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"azureOpenAI
Configuração do Azure OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nome da instância do Azure OpenAI. | Required |
| apiKey | String | Chave de API do Azure OpenAI. | Required |
| deploymentName | String | O nome da implantação para o modelo Whisper. | Required |
| apiVersion | String | Versão da API do Azure OpenAI. | Required |
Exemplo:
stt:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_STT_API_KEY}"
deploymentName: "whisper-deployment"
apiVersion: "2024-02-15-preview"speechTab
O objeto speechTab configura as definições padrão da interface para os recursos de fala. Essas configurações controlam o que os usuários veem por padrão no painel de configurações de fala.
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | Habilitar o modo de conversa por padrão. | false |
| advancedMode | Boolean | Mostrar configurações avançadas de fala por padrão. | false |
| speechToText | Boolean or Object | Habilitar STT por padrão ou definir configurações detalhadas de STT. | false |
| textToSpeech | Boolean or Object | Habilitar TTS por padrão ou configurar definições detalhadas de TTS. | false |
speechToText (Formato de objeto)
Ao usar um objeto em vez de um booleano:
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | Mecanismo de STT padrão. Opções: `"openai"`, `"azureOpenAI"`. | |
| languageSTT | String | Idioma padrão para STT. | |
| autoTranscribeAudio | Boolean | Transcrever automaticamente mensagens de áudio. | |
| decibelValue | Number | Limiar de decibéis para detecção de voz. | |
| autoSendText | Number | Atraso em ms antes do envio automático do texto transcrito (0 para desativar). |
textToSpeech (Formato de objeto)
Ao usar um objeto em vez de um booleano:
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | Mecanismo de TTS padrão. Opções: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`. | |
| voice | String | Seleção de voz padrão. | |
| languageTTS | String | Idioma padrão para TTS. | |
| automaticPlayback | Boolean | Reproduzir automaticamente respostas de TTS. | |
| playbackRate | Number | Velocidade de reprodução padrão (1.0 = normal). Intervalo: 0.25–4.0. | |
| cacheTTS | Boolean | Armazenar em cache o áudio TTS para reprodução repetida. |
Exemplo:
speechTab:
conversationMode: false
advancedMode: false
speechToText:
engineSTT: "openai"
autoTranscribeAudio: true
decibelValue: -45
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: false
playbackRate: 1.0
cacheTTS: trueExemplo Completo
version: 1.3.10
cache: true
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1-hd"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: false
advancedMode: false
speechToText: true
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: falseNotas
- Sempre utilize referências de variáveis de ambiente (por exemplo,
${API_KEY}) para chaves de API em arquivos de configuração - Vários provedores de TTS podem ser configurados; os usuários selecionam sua opção preferida na interface.
- As configurações
speechTabdefinem padrões que os usuários podem substituir em suas configurações pessoais - Para documentação detalhada de recursos, veja Speech to Text & Text to Speech
Como está este guia?