Konfiguracja mowy
Przegląd
Obiekt speech umożliwia konfigurację dostawców zamiany tekstu na mowę (TTS) oraz mowy na tekst (STT) bezpośrednio w pliku konfiguracyjnym librechat.yaml. Pozwala to na korzystanie z usług głosowych po stronie serwera bez konieczności konfigurowania przez użytkowników własnych kluczy API.
Pola w speech:
tts- Konfiguracje dostawców Text-to-Speechstt- Konfiguracje dostawcy Speech-to-TextspeechTab- Domyślne ustawienia interfejsu użytkownika dla funkcji mowy
Uwagi:
- Wiele dostawców może być skonfigurowanych jednocześnie
- Użytkownicy mogą wybrać preferowanego dostawcę spośród dostępnych opcji
- Klucze API w pliku konfiguracyjnym powinny używać odniesień do zmiennych środowiskowych ze względów bezpieczeństwa
Przykład
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["voice-id-1", "voice-id-2"]
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: true
advancedMode: false
speechToText: true
textToSpeech: truetts
Obiekt tts konfiguruje dostawców zamiany tekstu na mowę (Text-to-Speech). Można skonfigurować wielu dostawców, a użytkownicy mogą wybrać, którego z nich chcą używać.
openai
Konfiguracja OpenAI TTS przy użyciu modeli takich jak tts-1 lub tts-1-hd.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | Niestandardowy adres URL API (opcjonalnie). Użyj dla endpointów zgodnych z OpenAI. | |
| apiKey | String | Klucz API OpenAI. Użyj odniesienia do zmiennej środowiskowej. | Required |
| model | String | Model TTS do użycia (np. "tts-1", "tts-1-hd"). | Required |
| voices | Array of Strings | Dostępne opcje głosowe do wyboru przez użytkowników. | Required |
Przykład:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]azureOpenAI
Konfiguracja Azure OpenAI TTS.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nazwa instancji Azure OpenAI. | Required |
| apiKey | String | Klucz API Azure OpenAI. | Required |
| deploymentName | String | Nazwa wdrożenia dla modelu TTS. | Required |
| apiVersion | String | Wersja API Azure OpenAI. | Required |
| model | String | Identyfikator modelu TTS. | Required |
| voices | Array of Strings | Dostępne opcje głosowe. | Required |
Przykład:
tts:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_TTS_API_KEY}"
deploymentName: "tts-deployment"
apiVersion: "2024-02-15-preview"
model: "tts-1"
voices: ["alloy", "echo", "nova"]elevenlabs
Konfiguracja ElevenLabs TTS dla wysokiej jakości syntezy mowy.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | Niestandardowy adres URL API (opcjonalnie). | |
| websocketUrl | String | Adres URL WebSocket do przesyłania strumieniowego (opcjonalnie). | |
| apiKey | String | Klucz API ElevenLabs. | Required |
| model | String | Model ElevenLabs (np. "eleven_multilingual_v2"). | Required |
| voices | Array of Strings | Dostępne identyfikatory głosów do wyboru. | Required |
| voice_settings | Object | Ustawienia personalizacji głosu (opcjonalne). | |
| pronunciation_dictionary_locators | Array of Strings | Identyfikatory słownika wymowy (opcjonalne). |
Podklucze voice_settings:
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | Ulepszenie podobieństwa głosu (0-1). | |
| stability | Number | Stabilność głosu (0-1). | |
| style | Number | Przesada stylu (0-1). | |
| use_speaker_boost | Boolean | Włącz wzmocnienie głośnika. |
Przykład:
tts:
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
use_speaker_boost: truelocalai
Konfiguracja LocalAI TTS dla samodzielnie hostowanej syntezy mowy.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | Adres URL serwera LocalAI. | Required |
| apiKey | String | Klucz API, jeśli uwierzytelnianie jest włączone (opcjonalnie). | |
| voices | Array of Strings | Dostępne modele głosowe. | Required |
| backend | String | Backend TTS do użycia (np. "piper"). | Required |
Przykład:
tts:
localai:
url: "http://localhost:8080"
voices: ["en-us-amy-low", "en-us-danny-low"]
backend: "piper"stt
Obiekt stt konfiguruje dostawców funkcji Speech-to-Text.
openai
Konfiguracja OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | Niestandardowy adres URL API (opcjonalnie). Użyj dla endpointów zgodnych z OpenAI. | |
| apiKey | String | Klucz API OpenAI. Użyj odniesienia do zmiennej środowiskowej. | Required |
| model | String | Model STT do użycia (np. "whisper-1"). | Required |
Przykład:
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"azureOpenAI
Konfiguracja Azure OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Nazwa instancji Azure OpenAI. | Required |
| apiKey | String | Klucz API Azure OpenAI. | Required |
| deploymentName | String | Nazwa wdrożenia dla modelu Whisper. | Required |
| apiVersion | String | Wersja API Azure OpenAI. | Required |
Przykład:
stt:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_STT_API_KEY}"
deploymentName: "whisper-deployment"
apiVersion: "2024-02-15-preview"speechTab
Obiekt speechTab konfiguruje domyślne ustawienia interfejsu użytkownika dla funkcji mowy. Ustawienia te określają, co użytkownicy widzą domyślnie w panelu ustawień mowy.
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | Włącz tryb konwersacji domyślnie. | false |
| advancedMode | Boolean | Domyślnie pokazuj zaawansowane ustawienia mowy. | false |
| speechToText | Boolean or Object | Włącz STT domyślnie lub skonfiguruj szczegółowe ustawienia STT. | false |
| textToSpeech | Boolean or Object | Włącz TTS domyślnie lub skonfiguruj szczegółowe ustawienia TTS. | false |
speechToText (Format obiektu)
W przypadku użycia obiektu zamiast wartości logicznej:
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | Domyślny silnik STT. Opcje: `"openai"`, `"azureOpenAI"`. | |
| languageSTT | String | Domyślny język dla STT. | |
| autoTranscribeAudio | Boolean | Automatycznie transkrybuj wiadomości audio. | |
| decibelValue | Number | Próg decybeli dla wykrywania głosu. | |
| autoSendText | Number | Opóźnienie w ms przed automatycznym wysłaniem transkrybowanego tekstu (0, aby wyłączyć). |
textToSpeech (Format obiektu)
W przypadku użycia obiektu zamiast wartości logicznej:
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | Domyślny silnik TTS. Opcje: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`. | |
| voice | String | Domyślny wybór głosu. | |
| languageTTS | String | Domyślny język dla TTS. | |
| automaticPlayback | Boolean | Automatycznie odtwarzaj odpowiedzi TTS. | |
| playbackRate | Number | Domyślna prędkość odtwarzania (1.0 = normalna). Zakres: 0.25–4.0. | |
| cacheTTS | Boolean | Buforuj dźwięk TTS dla powtarzanego odtwarzania. |
Przykład:
speechTab:
conversationMode: false
advancedMode: false
speechToText:
engineSTT: "openai"
autoTranscribeAudio: true
decibelValue: -45
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: false
playbackRate: 1.0
cacheTTS: trueKompletny przykład
version: 1.3.10
cache: true
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1-hd"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: false
advancedMode: false
speechToText: true
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: falseUwagi
- Zawsze używaj odwołań do zmiennych środowiskowych (np.
${API_KEY}) dla kluczy API w plikach konfiguracyjnych - Można skonfigurować wielu dostawców TTS; użytkownicy wybierają preferowaną opcję w interfejsie użytkownika.
- Ustawienia
speechTabdefiniują wartości domyślne, które użytkownicy mogą nadpisać w swoich ustawieniach osobistych. - Aby uzyskać szczegółową dokumentację funkcji, zobacz Speech to Text & Text to Speech
Jaka jest ta instrukcja?