Configurazione vocale
Panoramica
L'oggetto speech ti consente di configurare i provider di sintesi vocale (TTS) e di riconoscimento vocale (STT) direttamente nel tuo file di configurazione librechat.yaml. Ciò abilita i servizi vocali lato server senza richiedere agli utenti di configurare le proprie chiavi API.
Campi sotto speech:
tts- Configurazioni del provider Text-to-Speechstt- Configurazioni del provider Speech-to-TextspeechTab- Impostazioni predefinite dell'interfaccia utente per le funzionalità vocali
Note:
- È possibile configurare più provider contemporaneamente
- Gli utenti possono selezionare il loro provider preferito tra le opzioni disponibili
- Le API key nel file di configurazione dovrebbero utilizzare riferimenti a variabili d'ambiente per motivi di sicurezza
Esempio
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["voice-id-1", "voice-id-2"]
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: true
advancedMode: false
speechToText: true
textToSpeech: truetts
L'oggetto tts configura i provider di sintesi vocale (Text-to-Speech). È possibile configurare più provider e gli utenti possono scegliere quale utilizzare.
openai
Configurazione OpenAI TTS utilizzando modelli come tts-1 o tts-1-hd.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL API personalizzato (opzionale). Da utilizzare per endpoint compatibili con OpenAI. | |
| apiKey | String | Chiave API OpenAI. Utilizzare il riferimento alla variabile d'ambiente. | Required |
| model | String | Modello TTS da utilizzare (ad es. "tts-1", "tts-1-hd"). | Required |
| voices | Array of Strings | Opzioni vocali disponibili selezionabili dagli utenti. | Required |
Esempio:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]azureOpenAI
Configurazione di Azure OpenAI TTS.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nome dell'istanza Azure OpenAI. | Required |
| apiKey | String | Chiave API di Azure OpenAI. | Required |
| deploymentName | String | Il nome della distribuzione per il modello TTS. | Required |
| apiVersion | String | Versione API di Azure OpenAI. | Required |
| model | String | Identificatore del modello TTS. | Required |
| voices | Array of Strings | Opzioni vocali disponibili. | Required |
Esempio:
tts:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_TTS_API_KEY}"
deploymentName: "tts-deployment"
apiVersion: "2024-02-15-preview"
model: "tts-1"
voices: ["alloy", "echo", "nova"]elevenlabs
Configurazione ElevenLabs TTS per la sintesi vocale di alta qualità.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL API personalizzato (opzionale). | |
| websocketUrl | String | URL WebSocket per lo streaming (opzionale). | |
| apiKey | String | Chiave API di ElevenLabs. | Required |
| model | String | Modello ElevenLabs (es. "eleven_multilingual_v2"). | Required |
| voices | Array of Strings | ID vocali disponibili per la selezione. | Required |
| voice_settings | Object | Impostazioni di personalizzazione vocale (opzionale). | |
| pronunciation_dictionary_locators | Array of Strings | ID del dizionario di pronuncia (opzionale). |
Sotto-chiavi di voice_settings:
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | Miglioramento della somiglianza vocale (0-1). | |
| stability | Number | Stabilità vocale (0-1). | |
| style | Number | Esagerazione dello stile (0-1). | |
| use_speaker_boost | Boolean | Abilita il potenziamento dell'altoparlante. |
Esempio:
tts:
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
use_speaker_boost: truelocalai
Configurazione TTS di LocalAI per la sintesi vocale self-hosted.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL del server LocalAI. | Required |
| apiKey | String | Chiave API se l'autenticazione è abilitata (opzionale). | |
| voices | Array of Strings | Modelli vocali disponibili. | Required |
| backend | String | Backend TTS da utilizzare (ad es. "piper"). | Required |
Esempio:
tts:
localai:
url: "http://localhost:8080"
voices: ["en-us-amy-low", "en-us-danny-low"]
backend: "piper"stt
L'oggetto stt configura i provider di Speech-to-Text.
openai
Configurazione OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL API personalizzato (opzionale). Da utilizzare per endpoint compatibili con OpenAI. | |
| apiKey | String | Chiave API OpenAI. Utilizzare il riferimento alla variabile d'ambiente. | Required |
| model | String | Modello STT da utilizzare (ad es. "whisper-1"). | Required |
Esempio:
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"azureOpenAI
Configurazione Azure OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nome dell'istanza Azure OpenAI. | Required |
| apiKey | String | Chiave API di Azure OpenAI. | Required |
| deploymentName | String | Il nome della distribuzione per il modello Whisper. | Required |
| apiVersion | String | Versione API di Azure OpenAI. | Required |
Esempio:
stt:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_STT_API_KEY}"
deploymentName: "whisper-deployment"
apiVersion: "2024-02-15-preview"speechTab
L'oggetto speechTab configura le impostazioni predefinite dell'interfaccia utente per le funzionalità vocali. Queste impostazioni controllano ciò che gli utenti vedono per impostazione predefinita nel pannello delle impostazioni vocali.
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | Abilita la modalità conversazione per impostazione predefinita. | false |
| advancedMode | Boolean | Mostra le impostazioni vocali avanzate per impostazione predefinita. | false |
| speechToText | Boolean or Object | Abilita STT per impostazione predefinita o configura le impostazioni dettagliate di STT. | false |
| textToSpeech | Boolean or Object | Abilita TTS per impostazione predefinita o configura impostazioni TTS dettagliate. | false |
speechToText (Formato oggetto)
Quando si utilizza un oggetto invece di un booleano:
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | Motore STT predefinito. Opzioni: `"openai"`, `"azureOpenAI"`. | |
| languageSTT | String | Lingua predefinita per STT. | |
| autoTranscribeAudio | Boolean | Trascrivi automaticamente i messaggi audio. | |
| decibelValue | Number | Soglia di decibel per il rilevamento vocale. | |
| autoSendText | Number | Ritardo in ms prima dell'invio automatico del testo trascritto (0 per disabilitare). |
textToSpeech (Formato oggetto)
Quando si utilizza un oggetto invece di un booleano:
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | Motore TTS predefinito. Opzioni: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`. | |
| voice | String | Selezione vocale predefinita. | |
| languageTTS | String | Lingua predefinita per TTS. | |
| automaticPlayback | Boolean | Riproduci automaticamente le risposte TTS. | |
| playbackRate | Number | Velocità di riproduzione predefinita (1.0 = normale). Intervallo: 0.25–4.0. | |
| cacheTTS | Boolean | Memorizza nella cache l'audio TTS per la riproduzione ripetuta. |
Esempio:
speechTab:
conversationMode: false
advancedMode: false
speechToText:
engineSTT: "openai"
autoTranscribeAudio: true
decibelValue: -45
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: false
playbackRate: 1.0
cacheTTS: trueEsempio completo
version: 1.3.10
cache: true
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1-hd"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: false
advancedMode: false
speechToText: true
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: falseNote
- Utilizzare sempre riferimenti a variabili d'ambiente (ad esempio,
${API_KEY}) per le chiavi API nei file di configurazione - È possibile configurare più provider TTS; gli utenti selezionano la loro opzione preferita nell'interfaccia utente.
- Le impostazioni
speechTabdefiniscono i valori predefiniti che gli utenti possono sovrascrivere nelle loro impostazioni personali - Per una documentazione dettagliata delle funzionalità, consulta Speech to Text & Text to Speech
Com’è questa guida?