Konfiguracja mowy

Przegląd

Obiekt speech umożliwia konfigurację dostawców zamiany tekstu na mowę (TTS) oraz mowy na tekst (STT) bezpośrednio w pliku konfiguracyjnym librechat.yaml. Pozwala to na korzystanie z usług głosowych po stronie serwera bez konieczności konfigurowania przez użytkowników własnych kluczy API.

Pola w speech:

tts - Konfiguracje dostawców Text-to-Speech
stt - Konfiguracje dostawcy Speech-to-Text
speechTab - Domyślne ustawienia interfejsu użytkownika dla funkcji mowy

Uwagi:

Wiele dostawców może być skonfigurowanych jednocześnie
Użytkownicy mogą wybrać preferowanego dostawcę spośród dostępnych opcji
Klucze API w pliku konfiguracyjnym powinny używać odniesień do zmiennych środowiskowych ze względów bezpieczeństwa

Przykład

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

Obiekt tts konfiguruje dostawców zamiany tekstu na mowę (Text-to-Speech). Można skonfigurować wielu dostawców, a użytkownicy mogą wybrać, którego z nich chcą używać.

openai

Konfiguracja OpenAI TTS przy użyciu modeli takich jak tts-1 lub tts-1-hd.

Key	Type	Description	Example
url	String	Niestandardowy adres URL API (opcjonalnie). Użyj dla endpointów zgodnych z OpenAI.
apiKey	String	Klucz API OpenAI. Użyj odniesienia do zmiennej środowiskowej.	Required
model	String	Model TTS do użycia (np. "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Dostępne opcje głosowe do wyboru przez użytkowników.	Required

Przykład:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Konfiguracja Azure OpenAI TTS.

Key	Type	Description	Example
instanceName	String	Nazwa instancji Azure OpenAI.	Required
apiKey	String	Klucz API Azure OpenAI.	Required
deploymentName	String	Nazwa wdrożenia dla modelu TTS.	Required
apiVersion	String	Wersja API Azure OpenAI.	Required
model	String	Identyfikator modelu TTS.	Required
voices	Array of Strings	Dostępne opcje głosowe.	Required

Przykład:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Konfiguracja ElevenLabs TTS dla wysokiej jakości syntezy mowy.

Key	Type	Description	Example
url	String	Niestandardowy adres URL API (opcjonalnie).
websocketUrl	String	Adres URL WebSocket do przesyłania strumieniowego (opcjonalnie).
apiKey	String	Klucz API ElevenLabs.	Required
model	String	Model ElevenLabs (np. "eleven_multilingual_v2").	Required
voices	Array of Strings	Dostępne identyfikatory głosów do wyboru.	Required
voice_settings	Object	Ustawienia personalizacji głosu (opcjonalne).
pronunciation_dictionary_locators	Array of Strings	Identyfikatory słownika wymowy (opcjonalne).

Podklucze voice_settings:

Key	Type	Description
similarity_boost	Number	Ulepszenie podobieństwa głosu (0-1).
stability	Number	Stabilność głosu (0-1).
style	Number	Przesada stylu (0-1).
use_speaker_boost	Boolean	Włącz wzmocnienie głośnika.

Przykład:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Konfiguracja LocalAI TTS dla samodzielnie hostowanej syntezy mowy.

Key	Type	Description	Example
url	String	Adres URL serwera LocalAI.	Required
apiKey	String	Klucz API, jeśli uwierzytelnianie jest włączone (opcjonalnie).
voices	Array of Strings	Dostępne modele głosowe.	Required
backend	String	Backend TTS do użycia (np. "piper").	Required

Przykład:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

Obiekt stt konfiguruje dostawców funkcji Speech-to-Text.

openai

Konfiguracja OpenAI Whisper STT.

Key	Type	Description	Example
url	String	Niestandardowy adres URL API (opcjonalnie). Użyj dla endpointów zgodnych z OpenAI.
apiKey	String	Klucz API OpenAI. Użyj odniesienia do zmiennej środowiskowej.	Required
model	String	Model STT do użycia (np. "whisper-1").	Required

Przykład:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Konfiguracja Azure OpenAI Whisper STT.

Key	Type	Description	Example
instanceName	String	Nazwa instancji Azure OpenAI.	Required
apiKey	String	Klucz API Azure OpenAI.	Required
deploymentName	String	Nazwa wdrożenia dla modelu Whisper.	Required
apiVersion	String	Wersja API Azure OpenAI.	Required

Przykład:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

Obiekt speechTab konfiguruje domyślne ustawienia interfejsu użytkownika dla funkcji mowy. Ustawienia te określają, co użytkownicy widzą domyślnie w panelu ustawień mowy.

Key	Type	Description	Example
conversationMode	Boolean	Włącz tryb konwersacji domyślnie.	false
advancedMode	Boolean	Domyślnie pokazuj zaawansowane ustawienia mowy.	false
speechToText	Boolean or Object	Włącz STT domyślnie lub skonfiguruj szczegółowe ustawienia STT.	false
textToSpeech	Boolean or Object	Włącz TTS domyślnie lub skonfiguruj szczegółowe ustawienia TTS.	false

speechToText (Format obiektu)

W przypadku użycia obiektu zamiast wartości logicznej:

Key	Type	Description
engineSTT	String	Domyślny silnik STT. Opcje: `"openai"`, `"azureOpenAI"`.
languageSTT	String	Domyślny język dla STT.
autoTranscribeAudio	Boolean	Automatycznie transkrybuj wiadomości audio.
decibelValue	Number	Próg decybeli dla wykrywania głosu.
autoSendText	Number	Opóźnienie w ms przed automatycznym wysłaniem transkrybowanego tekstu (0, aby wyłączyć).

textToSpeech (Format obiektu)

W przypadku użycia obiektu zamiast wartości logicznej:

Key	Type	Description
engineTTS	String	Domyślny silnik TTS. Opcje: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Domyślny wybór głosu.
languageTTS	String	Domyślny język dla TTS.
automaticPlayback	Boolean	Automatycznie odtwarzaj odpowiedzi TTS.
playbackRate	Number	Domyślna prędkość odtwarzania (1.0 = normalna). Zakres: 0.25–4.0.
cacheTTS	Boolean	Buforuj dźwięk TTS dla powtarzanego odtwarzania.

Przykład:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Kompletny przykład

version: 1.3.10
cache: true

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Uwagi

Zawsze używaj odwołań do zmiennych środowiskowych (np. ${API_KEY}) dla kluczy API w plikach konfiguracyjnych
Można skonfigurować wielu dostawców TTS; użytkownicy wybierają preferowaną opcję w interfejsie użytkownika.
Ustawienia speechTab definiują wartości domyślne, które użytkownicy mogą nadpisać w swoich ustawieniach osobistych.
Aby uzyskać szczegółową dokumentację funkcji, zobacz Speech to Text & Text to Speech

Konfiguracja mowy

Na tej stronie