Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Konfiguracja mowy

Przegląd

Obiekt speech umożliwia konfigurację dostawców zamiany tekstu na mowę (TTS) oraz mowy na tekst (STT) bezpośrednio w pliku konfiguracyjnym librechat.yaml. Pozwala to na korzystanie z usług głosowych po stronie serwera bez konieczności konfigurowania przez użytkowników własnych kluczy API.

Pola w speech:

  • tts - Konfiguracje dostawców Text-to-Speech
  • stt - Konfiguracje dostawcy Speech-to-Text
  • speechTab - Domyślne ustawienia interfejsu użytkownika dla funkcji mowy

Uwagi:

  • Wiele dostawców może być skonfigurowanych jednocześnie
  • Użytkownicy mogą wybrać preferowanego dostawcę spośród dostępnych opcji
  • Klucze API w pliku konfiguracyjnym powinny używać odniesień do zmiennych środowiskowych ze względów bezpieczeństwa

Przykład

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

Obiekt tts konfiguruje dostawców zamiany tekstu na mowę (Text-to-Speech). Można skonfigurować wielu dostawców, a użytkownicy mogą wybrać, którego z nich chcą używać.

openai

Konfiguracja OpenAI TTS przy użyciu modeli takich jak tts-1 lub tts-1-hd.

KeyTypeDescriptionExample
urlStringNiestandardowy adres URL API (opcjonalnie). Użyj dla endpointów zgodnych z OpenAI.
apiKeyStringKlucz API OpenAI. Użyj odniesienia do zmiennej środowiskowej.Required
modelStringModel TTS do użycia (np. "tts-1", "tts-1-hd").Required
voicesArray of StringsDostępne opcje głosowe do wyboru przez użytkowników.Required

Przykład:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Konfiguracja Azure OpenAI TTS.

KeyTypeDescriptionExample
instanceNameStringNazwa instancji Azure OpenAI.Required
apiKeyStringKlucz API Azure OpenAI.Required
deploymentNameStringNazwa wdrożenia dla modelu TTS.Required
apiVersionStringWersja API Azure OpenAI.Required
modelStringIdentyfikator modelu TTS.Required
voicesArray of StringsDostępne opcje głosowe.Required

Przykład:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Konfiguracja ElevenLabs TTS dla wysokiej jakości syntezy mowy.

KeyTypeDescriptionExample
urlStringNiestandardowy adres URL API (opcjonalnie).
websocketUrlStringAdres URL WebSocket do przesyłania strumieniowego (opcjonalnie).
apiKeyStringKlucz API ElevenLabs.Required
modelStringModel ElevenLabs (np. "eleven_multilingual_v2").Required
voicesArray of StringsDostępne identyfikatory głosów do wyboru.Required
voice_settingsObjectUstawienia personalizacji głosu (opcjonalne).
pronunciation_dictionary_locatorsArray of StringsIdentyfikatory słownika wymowy (opcjonalne).

Podklucze voice_settings:

KeyTypeDescriptionExample
similarity_boostNumberUlepszenie podobieństwa głosu (0-1).
stabilityNumberStabilność głosu (0-1).
styleNumberPrzesada stylu (0-1).
use_speaker_boostBooleanWłącz wzmocnienie głośnika.

Przykład:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Konfiguracja LocalAI TTS dla samodzielnie hostowanej syntezy mowy.

KeyTypeDescriptionExample
urlStringAdres URL serwera LocalAI.Required
apiKeyStringKlucz API, jeśli uwierzytelnianie jest włączone (opcjonalnie).
voicesArray of StringsDostępne modele głosowe.Required
backendStringBackend TTS do użycia (np. "piper").Required

Przykład:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

Obiekt stt konfiguruje dostawców funkcji Speech-to-Text.

openai

Konfiguracja OpenAI Whisper STT.

KeyTypeDescriptionExample
urlStringNiestandardowy adres URL API (opcjonalnie). Użyj dla endpointów zgodnych z OpenAI.
apiKeyStringKlucz API OpenAI. Użyj odniesienia do zmiennej środowiskowej.Required
modelStringModel STT do użycia (np. "whisper-1").Required

Przykład:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Konfiguracja Azure OpenAI Whisper STT.

KeyTypeDescriptionExample
instanceNameStringNazwa instancji Azure OpenAI.Required
apiKeyStringKlucz API Azure OpenAI.Required
deploymentNameStringNazwa wdrożenia dla modelu Whisper.Required
apiVersionStringWersja API Azure OpenAI.Required

Przykład:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

Obiekt speechTab konfiguruje domyślne ustawienia interfejsu użytkownika dla funkcji mowy. Ustawienia te określają, co użytkownicy widzą domyślnie w panelu ustawień mowy.

KeyTypeDescriptionExample
conversationModeBooleanWłącz tryb konwersacji domyślnie.false
advancedModeBooleanDomyślnie pokazuj zaawansowane ustawienia mowy.false
speechToTextBoolean or ObjectWłącz STT domyślnie lub skonfiguruj szczegółowe ustawienia STT.false
textToSpeechBoolean or ObjectWłącz TTS domyślnie lub skonfiguruj szczegółowe ustawienia TTS.false

speechToText (Format obiektu)

W przypadku użycia obiektu zamiast wartości logicznej:

KeyTypeDescriptionExample
engineSTTStringDomyślny silnik STT. Opcje: `"openai"`, `"azureOpenAI"`.
languageSTTStringDomyślny język dla STT.
autoTranscribeAudioBooleanAutomatycznie transkrybuj wiadomości audio.
decibelValueNumberPróg decybeli dla wykrywania głosu.
autoSendTextNumberOpóźnienie w ms przed automatycznym wysłaniem transkrybowanego tekstu (0, aby wyłączyć).

textToSpeech (Format obiektu)

W przypadku użycia obiektu zamiast wartości logicznej:

KeyTypeDescriptionExample
engineTTSStringDomyślny silnik TTS. Opcje: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voiceStringDomyślny wybór głosu.
languageTTSStringDomyślny język dla TTS.
automaticPlaybackBooleanAutomatycznie odtwarzaj odpowiedzi TTS.
playbackRateNumberDomyślna prędkość odtwarzania (1.0 = normalna). Zakres: 0.25–4.0.
cacheTTSBooleanBuforuj dźwięk TTS dla powtarzanego odtwarzania.

Przykład:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Kompletny przykład

version: 1.3.10
cache: true

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Uwagi

  • Zawsze używaj odwołań do zmiennych środowiskowych (np. ${API_KEY}) dla kluczy API w plikach konfiguracyjnych
  • Można skonfigurować wielu dostawców TTS; użytkownicy wybierają preferowaną opcję w interfejsie użytkownika.
  • Ustawienia speechTab definiują wartości domyślne, które użytkownicy mogą nadpisać w swoich ustawieniach osobistych.
  • Aby uzyskać szczegółową dokumentację funkcji, zobacz Speech to Text & Text to Speech

Jaka jest ta instrukcja?