Configurazione vocale

Panoramica

L'oggetto speech ti consente di configurare i provider di sintesi vocale (TTS) e di riconoscimento vocale (STT) direttamente nel tuo file di configurazione librechat.yaml. Ciò abilita i servizi vocali lato server senza richiedere agli utenti di configurare le proprie chiavi API.

Campi sotto speech:

tts - Configurazioni del provider Text-to-Speech
stt - Configurazioni del provider Speech-to-Text
speechTab - Impostazioni predefinite dell'interfaccia utente per le funzionalità vocali

Note:

È possibile configurare più provider contemporaneamente
Gli utenti possono selezionare il loro provider preferito tra le opzioni disponibili
Le API key nel file di configurazione dovrebbero utilizzare riferimenti a variabili d'ambiente per motivi di sicurezza

Esempio

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

L'oggetto tts configura i provider di sintesi vocale (Text-to-Speech). È possibile configurare più provider e gli utenti possono scegliere quale utilizzare.

openai

Configurazione OpenAI TTS utilizzando modelli come tts-1 o tts-1-hd.

Key	Type	Description	Example
url	String	URL API personalizzato (opzionale). Da utilizzare per endpoint compatibili con OpenAI.
apiKey	String	Chiave API OpenAI. Utilizzare il riferimento alla variabile d'ambiente.	Required
model	String	Modello TTS da utilizzare (ad es. "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Opzioni vocali disponibili selezionabili dagli utenti.	Required

Esempio:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Configurazione di Azure OpenAI TTS.

Key	Type	Description	Example
instanceName	String	Nome dell'istanza Azure OpenAI.	Required
apiKey	String	Chiave API di Azure OpenAI.	Required
deploymentName	String	Il nome della distribuzione per il modello TTS.	Required
apiVersion	String	Versione API di Azure OpenAI.	Required
model	String	Identificatore del modello TTS.	Required
voices	Array of Strings	Opzioni vocali disponibili.	Required

Esempio:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Configurazione ElevenLabs TTS per la sintesi vocale di alta qualità.

Key	Type	Description	Example
url	String	URL API personalizzato (opzionale).
websocketUrl	String	URL WebSocket per lo streaming (opzionale).
apiKey	String	Chiave API di ElevenLabs.	Required
model	String	Modello ElevenLabs (es. "eleven_multilingual_v2").	Required
voices	Array of Strings	ID vocali disponibili per la selezione.	Required
voice_settings	Object	Impostazioni di personalizzazione vocale (opzionale).
pronunciation_dictionary_locators	Array of Strings	ID del dizionario di pronuncia (opzionale).

Sotto-chiavi di voice_settings:

Key	Type	Description
similarity_boost	Number	Miglioramento della somiglianza vocale (0-1).
stability	Number	Stabilità vocale (0-1).
style	Number	Esagerazione dello stile (0-1).
use_speaker_boost	Boolean	Abilita il potenziamento dell'altoparlante.

Esempio:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Configurazione TTS di LocalAI per la sintesi vocale self-hosted.

Key	Type	Description	Example
url	String	URL del server LocalAI.	Required
apiKey	String	Chiave API se l'autenticazione è abilitata (opzionale).
voices	Array of Strings	Modelli vocali disponibili.	Required
backend	String	Backend TTS da utilizzare (ad es. "piper").	Required

Esempio:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

L'oggetto stt configura i provider di Speech-to-Text.

openai

Configurazione OpenAI Whisper STT.

Key	Type	Description	Example
url	String	URL API personalizzato (opzionale). Da utilizzare per endpoint compatibili con OpenAI.
apiKey	String	Chiave API OpenAI. Utilizzare il riferimento alla variabile d'ambiente.	Required
model	String	Modello STT da utilizzare (ad es. "whisper-1").	Required

Esempio:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Configurazione Azure OpenAI Whisper STT.

Key	Type	Description	Example
instanceName	String	Nome dell'istanza Azure OpenAI.	Required
apiKey	String	Chiave API di Azure OpenAI.	Required
deploymentName	String	Il nome della distribuzione per il modello Whisper.	Required
apiVersion	String	Versione API di Azure OpenAI.	Required

Esempio:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

L'oggetto speechTab configura le impostazioni predefinite dell'interfaccia utente per le funzionalità vocali. Queste impostazioni controllano ciò che gli utenti vedono per impostazione predefinita nel pannello delle impostazioni vocali.

Key	Type	Description	Example
conversationMode	Boolean	Abilita la modalità conversazione per impostazione predefinita.	false
advancedMode	Boolean	Mostra le impostazioni vocali avanzate per impostazione predefinita.	false
speechToText	Boolean or Object	Abilita STT per impostazione predefinita o configura le impostazioni dettagliate di STT.	false
textToSpeech	Boolean or Object	Abilita TTS per impostazione predefinita o configura impostazioni TTS dettagliate.	false

speechToText (Formato oggetto)

Quando si utilizza un oggetto invece di un booleano:

Key	Type	Description
engineSTT	String	Motore STT predefinito. Opzioni: `"openai"`, `"azureOpenAI"`.
languageSTT	String	Lingua predefinita per STT.
autoTranscribeAudio	Boolean	Trascrivi automaticamente i messaggi audio.
decibelValue	Number	Soglia di decibel per il rilevamento vocale.
autoSendText	Number	Ritardo in ms prima dell'invio automatico del testo trascritto (0 per disabilitare).

textToSpeech (Formato oggetto)

Quando si utilizza un oggetto invece di un booleano:

Key	Type	Description
engineTTS	String	Motore TTS predefinito. Opzioni: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Selezione vocale predefinita.
languageTTS	String	Lingua predefinita per TTS.
automaticPlayback	Boolean	Riproduci automaticamente le risposte TTS.
playbackRate	Number	Velocità di riproduzione predefinita (1.0 = normale). Intervallo: 0.25–4.0.
cacheTTS	Boolean	Memorizza nella cache l'audio TTS per la riproduzione ripetuta.

Esempio:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Esempio completo

version: 1.3.10
cache: true

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Note

Utilizzare sempre riferimenti a variabili d'ambiente (ad esempio, ${API_KEY}) per le chiavi API nei file di configurazione
È possibile configurare più provider TTS; gli utenti selezionano la loro opzione preferita nell'interfaccia utente.
Le impostazioni speechTab definiscono i valori predefiniti che gli utenti possono sovrascrivere nelle loro impostazioni personali
Per una documentazione dettagliata delle funzionalità, consulta Speech to Text & Text to Speech

Configurazione vocale

In questa pagina