Cấu hình giọng nói

Tổng quan

Đối tượng speech cho phép bạn cấu hình các nhà cung cấp Chuyển văn bản thành giọng nói (TTS) và Chuyển giọng nói thành văn bản (STT) trực tiếp trong tệp cấu hình librechat.yaml của bạn. Điều này cho phép sử dụng các dịch vụ giọng nói phía máy chủ mà không yêu cầu người dùng phải tự cấu hình khóa API của riêng họ.

Các trường trong speech:

tts - Cấu hình nhà cung cấp Text-to-Speech
stt - Cấu hình nhà cung cấp Speech-to-Text
speechTab - Các cài đặt giao diện mặc định cho các tính năng giọng nói

Ghi chú:

Nhiều nhà cung cấp có thể được cấu hình đồng thời
Người dùng có thể chọn nhà cung cấp ưa thích của họ từ các tùy chọn có sẵn
Các API key trong tệp cấu hình nên sử dụng tham chiếu biến môi trường để đảm bảo tính bảo mật.

Ví dụ

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

Đối tượng tts cấu hình các nhà cung cấp Chuyển văn bản thành giọng nói (Text-to-Speech). Nhiều nhà cung cấp có thể được cấu hình và người dùng có thể chọn nhà cung cấp để sử dụng.

openai

Cấu hình OpenAI TTS sử dụng các model như tts-1 hoặc tts-1-hd.

Key	Type	Description	Example
url	String	URL API tùy chỉnh (tùy chọn). Sử dụng cho các endpoint tương thích với OpenAI.
apiKey	String	Khóa API OpenAI. Sử dụng tham chiếu biến môi trường.	Required
model	String	Mô hình TTS cần sử dụng (ví dụ: "tts-1", "tts-1-hd").	Required
voices	Array of Strings	Các tùy chọn giọng nói khả dụng để người dùng lựa chọn.	Required

Ví dụ:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Cấu hình Azure OpenAI TTS.

Key	Type	Description	Example
instanceName	String	Tên instance Azure OpenAI.	Required
apiKey	String	Khóa API Azure OpenAI.	Required
deploymentName	String	Tên triển khai cho mô hình TTS.	Required
apiVersion	String	Phiên bản API Azure OpenAI.	Required
model	String	Định danh mô hình TTS.	Required
voices	Array of Strings	Các tùy chọn giọng nói khả dụng.	Required

Ví dụ:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Cấu hình ElevenLabs TTS để tổng hợp giọng nói chất lượng cao.

Key	Type	Description	Example
url	String	URL API tùy chỉnh (tùy chọn).
websocketUrl	String	URL WebSocket để truyền phát (tùy chọn).
apiKey	String	Khóa API ElevenLabs.	Required
model	String	Mô hình ElevenLabs (ví dụ: "eleven_multilingual_v2").	Required
voices	Array of Strings	Các ID giọng nói khả dụng để lựa chọn.	Required
voice_settings	Object	Cài đặt tùy chỉnh giọng nói (tùy chọn).
pronunciation_dictionary_locators	Array of Strings	Các ID từ điển phát âm (tùy chọn).

Các khóa con của voice_settings:

Key	Type	Description
similarity_boost	Number	Tăng cường độ tương đồng giọng nói (0-1).
stability	Number	Độ ổn định giọng nói (0-1).
style	Number	Mức độ phóng đại phong cách (0-1).
use_speaker_boost	Boolean	Bật tăng cường loa.

Ví dụ:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Cấu hình LocalAI TTS cho tổng hợp giọng nói tự lưu trữ (self-hosted).

Key	Type	Description	Example
url	String	URL máy chủ LocalAI.	Required
apiKey	String	Khóa API nếu xác thực được bật (tùy chọn).
voices	Array of Strings	Các model giọng nói khả dụng.	Required
backend	String	Backend TTS cần sử dụng (ví dụ: "piper").	Required

Ví dụ:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

Đối tượng stt cấu hình các nhà cung cấp Speech-to-Text.

openai

Cấu hình OpenAI Whisper STT.

Key	Type	Description	Example
url	String	URL API tùy chỉnh (tùy chọn). Sử dụng cho các endpoint tương thích với OpenAI.
apiKey	String	Khóa API OpenAI. Sử dụng tham chiếu biến môi trường.	Required
model	String	Model STT cần sử dụng (ví dụ: "whisper-1").	Required

Ví dụ:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Cấu hình Azure OpenAI Whisper STT.

Key	Type	Description	Example
instanceName	String	Tên instance Azure OpenAI.	Required
apiKey	String	Khóa API Azure OpenAI.	Required
deploymentName	String	Tên triển khai cho mô hình Whisper.	Required
apiVersion	String	Phiên bản API Azure OpenAI.	Required

Ví dụ:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

Đối tượng speechTab cấu hình các cài đặt giao diện mặc định cho các tính năng giọng nói. Các cài đặt này kiểm soát những gì người dùng thấy theo mặc định trong bảng cài đặt giọng nói.

Key	Type	Description	Example
conversationMode	Boolean	Bật chế độ hội thoại theo mặc định.	false
advancedMode	Boolean	Hiển thị các cài đặt giọng nói nâng cao theo mặc định.	false
speechToText	Boolean or Object	Bật STT theo mặc định hoặc cấu hình các cài đặt STT chi tiết.	false
textToSpeech	Boolean or Object	Bật TTS theo mặc định hoặc cấu hình các cài đặt TTS chi tiết.	false

speechToText (Định dạng Object)

Khi sử dụng một object thay vì một boolean:

Key	Type	Description
engineSTT	String	Công cụ STT mặc định. Các tùy chọn: `"openai"`, `"azureOpenAI"`.
languageSTT	String	Ngôn ngữ mặc định cho STT.
autoTranscribeAudio	Boolean	Tự động chuyển đổi tin nhắn âm thanh thành văn bản.
decibelValue	Number	Ngưỡng decibel cho phát hiện giọng nói.
autoSendText	Number	Độ trễ tính bằng ms trước khi tự động gửi văn bản đã chuyển đổi (0 để tắt).

textToSpeech (Định dạng Object)

Khi sử dụng một object thay vì một boolean:

Key	Type	Description
engineTTS	String	Công cụ TTS mặc định. Các tùy chọn: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voice	String	Lựa chọn giọng nói mặc định.
languageTTS	String	Ngôn ngữ mặc định cho TTS.
automaticPlayback	Boolean	Tự động phát các phản hồi TTS.
playbackRate	Number	Tốc độ phát mặc định (1.0 = bình thường). Phạm vi: 0.25–4.0.
cacheTTS	Boolean	Lưu bộ nhớ đệm âm thanh TTS để phát lại nhiều lần.

Ví dụ:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Ví dụ hoàn chỉnh

version: 1.3.10
cache: true

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Ghi chú

Luôn sử dụng các tham chiếu biến môi trường (ví dụ: ${API_KEY}) cho các khóa API trong các tệp cấu hình
Có thể cấu hình nhiều nhà cung cấp TTS; người dùng chọn tùy chọn ưa thích của họ trong giao diện người dùng (UI)
Các cài đặt speechTab xác định các giá trị mặc định mà người dùng có thể ghi đè trong cài đặt cá nhân của họ
Để biết tài liệu chi tiết về tính năng, hãy xem Speech to Text & Text to Speech

Cấu hình giọng nói

Trên trang này