Cấu hình giọng nói
Tổng quan
Đối tượng speech cho phép bạn cấu hình các nhà cung cấp Chuyển văn bản thành giọng nói (TTS) và Chuyển giọng nói thành văn bản (STT) trực tiếp trong tệp cấu hình librechat.yaml của bạn. Điều này cho phép sử dụng các dịch vụ giọng nói phía máy chủ mà không yêu cầu người dùng phải tự cấu hình khóa API của riêng họ.
Các trường trong speech:
tts- Cấu hình nhà cung cấp Text-to-Speechstt- Cấu hình nhà cung cấp Speech-to-TextspeechTab- Các cài đặt giao diện mặc định cho các tính năng giọng nói
Ghi chú:
- Nhiều nhà cung cấp có thể được cấu hình đồng thời
- Người dùng có thể chọn nhà cung cấp ưa thích của họ từ các tùy chọn có sẵn
- Các API key trong tệp cấu hình nên sử dụng tham chiếu biến môi trường để đảm bảo tính bảo mật.
Ví dụ
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["voice-id-1", "voice-id-2"]
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: true
advancedMode: false
speechToText: true
textToSpeech: truetts
Đối tượng tts cấu hình các nhà cung cấp Chuyển văn bản thành giọng nói (Text-to-Speech). Nhiều nhà cung cấp có thể được cấu hình và người dùng có thể chọn nhà cung cấp để sử dụng.
openai
Cấu hình OpenAI TTS sử dụng các model như tts-1 hoặc tts-1-hd.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL API tùy chỉnh (tùy chọn). Sử dụng cho các endpoint tương thích với OpenAI. | |
| apiKey | String | Khóa API OpenAI. Sử dụng tham chiếu biến môi trường. | Required |
| model | String | Mô hình TTS cần sử dụng (ví dụ: "tts-1", "tts-1-hd"). | Required |
| voices | Array of Strings | Các tùy chọn giọng nói khả dụng để người dùng lựa chọn. | Required |
Ví dụ:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]azureOpenAI
Cấu hình Azure OpenAI TTS.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Tên instance Azure OpenAI. | Required |
| apiKey | String | Khóa API Azure OpenAI. | Required |
| deploymentName | String | Tên triển khai cho mô hình TTS. | Required |
| apiVersion | String | Phiên bản API Azure OpenAI. | Required |
| model | String | Định danh mô hình TTS. | Required |
| voices | Array of Strings | Các tùy chọn giọng nói khả dụng. | Required |
Ví dụ:
tts:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_TTS_API_KEY}"
deploymentName: "tts-deployment"
apiVersion: "2024-02-15-preview"
model: "tts-1"
voices: ["alloy", "echo", "nova"]elevenlabs
Cấu hình ElevenLabs TTS để tổng hợp giọng nói chất lượng cao.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL API tùy chỉnh (tùy chọn). | |
| websocketUrl | String | URL WebSocket để truyền phát (tùy chọn). | |
| apiKey | String | Khóa API ElevenLabs. | Required |
| model | String | Mô hình ElevenLabs (ví dụ: "eleven_multilingual_v2"). | Required |
| voices | Array of Strings | Các ID giọng nói khả dụng để lựa chọn. | Required |
| voice_settings | Object | Cài đặt tùy chỉnh giọng nói (tùy chọn). | |
| pronunciation_dictionary_locators | Array of Strings | Các ID từ điển phát âm (tùy chọn). |
Các khóa con của voice_settings:
| Key | Type | Description | Example |
|---|---|---|---|
| similarity_boost | Number | Tăng cường độ tương đồng giọng nói (0-1). | |
| stability | Number | Độ ổn định giọng nói (0-1). | |
| style | Number | Mức độ phóng đại phong cách (0-1). | |
| use_speaker_boost | Boolean | Bật tăng cường loa. |
Ví dụ:
tts:
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
use_speaker_boost: truelocalai
Cấu hình LocalAI TTS cho tổng hợp giọng nói tự lưu trữ (self-hosted).
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL máy chủ LocalAI. | Required |
| apiKey | String | Khóa API nếu xác thực được bật (tùy chọn). | |
| voices | Array of Strings | Các model giọng nói khả dụng. | Required |
| backend | String | Backend TTS cần sử dụng (ví dụ: "piper"). | Required |
Ví dụ:
tts:
localai:
url: "http://localhost:8080"
voices: ["en-us-amy-low", "en-us-danny-low"]
backend: "piper"stt
Đối tượng stt cấu hình các nhà cung cấp Speech-to-Text.
openai
Cấu hình OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| url | String | URL API tùy chỉnh (tùy chọn). Sử dụng cho các endpoint tương thích với OpenAI. | |
| apiKey | String | Khóa API OpenAI. Sử dụng tham chiếu biến môi trường. | Required |
| model | String | Model STT cần sử dụng (ví dụ: "whisper-1"). | Required |
Ví dụ:
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"azureOpenAI
Cấu hình Azure OpenAI Whisper STT.
| Key | Type | Description | Example |
|---|---|---|---|
| instanceName | String | Tên instance Azure OpenAI. | Required |
| apiKey | String | Khóa API Azure OpenAI. | Required |
| deploymentName | String | Tên triển khai cho mô hình Whisper. | Required |
| apiVersion | String | Phiên bản API Azure OpenAI. | Required |
Ví dụ:
stt:
azureOpenAI:
instanceName: "my-azure-instance"
apiKey: "${AZURE_STT_API_KEY}"
deploymentName: "whisper-deployment"
apiVersion: "2024-02-15-preview"speechTab
Đối tượng speechTab cấu hình các cài đặt giao diện mặc định cho các tính năng giọng nói. Các cài đặt này kiểm soát những gì người dùng thấy theo mặc định trong bảng cài đặt giọng nói.
| Key | Type | Description | Example |
|---|---|---|---|
| conversationMode | Boolean | Bật chế độ hội thoại theo mặc định. | false |
| advancedMode | Boolean | Hiển thị các cài đặt giọng nói nâng cao theo mặc định. | false |
| speechToText | Boolean or Object | Bật STT theo mặc định hoặc cấu hình các cài đặt STT chi tiết. | false |
| textToSpeech | Boolean or Object | Bật TTS theo mặc định hoặc cấu hình các cài đặt TTS chi tiết. | false |
speechToText (Định dạng Object)
Khi sử dụng một object thay vì một boolean:
| Key | Type | Description | Example |
|---|---|---|---|
| engineSTT | String | Công cụ STT mặc định. Các tùy chọn: `"openai"`, `"azureOpenAI"`. | |
| languageSTT | String | Ngôn ngữ mặc định cho STT. | |
| autoTranscribeAudio | Boolean | Tự động chuyển đổi tin nhắn âm thanh thành văn bản. | |
| decibelValue | Number | Ngưỡng decibel cho phát hiện giọng nói. | |
| autoSendText | Number | Độ trễ tính bằng ms trước khi tự động gửi văn bản đã chuyển đổi (0 để tắt). |
textToSpeech (Định dạng Object)
Khi sử dụng một object thay vì một boolean:
| Key | Type | Description | Example |
|---|---|---|---|
| engineTTS | String | Công cụ TTS mặc định. Các tùy chọn: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`. | |
| voice | String | Lựa chọn giọng nói mặc định. | |
| languageTTS | String | Ngôn ngữ mặc định cho TTS. | |
| automaticPlayback | Boolean | Tự động phát các phản hồi TTS. | |
| playbackRate | Number | Tốc độ phát mặc định (1.0 = bình thường). Phạm vi: 0.25–4.0. | |
| cacheTTS | Boolean | Lưu bộ nhớ đệm âm thanh TTS để phát lại nhiều lần. |
Ví dụ:
speechTab:
conversationMode: false
advancedMode: false
speechToText:
engineSTT: "openai"
autoTranscribeAudio: true
decibelValue: -45
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: false
playbackRate: 1.0
cacheTTS: trueVí dụ hoàn chỉnh
version: 1.3.10
cache: true
speech:
tts:
openai:
apiKey: "${TTS_API_KEY}"
model: "tts-1-hd"
voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
elevenlabs:
apiKey: "${ELEVENLABS_API_KEY}"
model: "eleven_multilingual_v2"
voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
voice_settings:
stability: 0.5
similarity_boost: 0.75
stt:
openai:
apiKey: "${STT_API_KEY}"
model: "whisper-1"
speechTab:
conversationMode: false
advancedMode: false
speechToText: true
textToSpeech:
engineTTS: "openai"
voice: "nova"
automaticPlayback: falseGhi chú
- Luôn sử dụng các tham chiếu biến môi trường (ví dụ:
${API_KEY}) cho các khóa API trong các tệp cấu hình - Có thể cấu hình nhiều nhà cung cấp TTS; người dùng chọn tùy chọn ưa thích của họ trong giao diện người dùng (UI)
- Các cài đặt
speechTabxác định các giá trị mặc định mà người dùng có thể ghi đè trong cài đặt cá nhân của họ - Để biết tài liệu chi tiết về tính năng, hãy xem Speech to Text & Text to Speech
Hướng dẫn này thế nào?