Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Cấu hình giọng nói

Tổng quan

Đối tượng speech cho phép bạn cấu hình các nhà cung cấp Chuyển văn bản thành giọng nói (TTS) và Chuyển giọng nói thành văn bản (STT) trực tiếp trong tệp cấu hình librechat.yaml của bạn. Điều này cho phép sử dụng các dịch vụ giọng nói phía máy chủ mà không yêu cầu người dùng phải tự cấu hình khóa API của riêng họ.

Các trường trong speech:

  • tts - Cấu hình nhà cung cấp Text-to-Speech
  • stt - Cấu hình nhà cung cấp Speech-to-Text
  • speechTab - Các cài đặt giao diện mặc định cho các tính năng giọng nói

Ghi chú:

  • Nhiều nhà cung cấp có thể được cấu hình đồng thời
  • Người dùng có thể chọn nhà cung cấp ưa thích của họ từ các tùy chọn có sẵn
  • Các API key trong tệp cấu hình nên sử dụng tham chiếu biến môi trường để đảm bảo tính bảo mật.

Ví dụ

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["voice-id-1", "voice-id-2"]
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: true
    advancedMode: false
    speechToText: true
    textToSpeech: true

tts

Đối tượng tts cấu hình các nhà cung cấp Chuyển văn bản thành giọng nói (Text-to-Speech). Nhiều nhà cung cấp có thể được cấu hình và người dùng có thể chọn nhà cung cấp để sử dụng.

openai

Cấu hình OpenAI TTS sử dụng các model như tts-1 hoặc tts-1-hd.

KeyTypeDescriptionExample
urlStringURL API tùy chỉnh (tùy chọn). Sử dụng cho các endpoint tương thích với OpenAI.
apiKeyStringKhóa API OpenAI. Sử dụng tham chiếu biến môi trường.Required
modelStringMô hình TTS cần sử dụng (ví dụ: "tts-1", "tts-1-hd").Required
voicesArray of StringsCác tùy chọn giọng nói khả dụng để người dùng lựa chọn.Required

Ví dụ:

tts:
  openai:
    apiKey: "${TTS_API_KEY}"
    model: "tts-1"
    voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]

azureOpenAI

Cấu hình Azure OpenAI TTS.

KeyTypeDescriptionExample
instanceNameStringTên instance Azure OpenAI.Required
apiKeyStringKhóa API Azure OpenAI.Required
deploymentNameStringTên triển khai cho mô hình TTS.Required
apiVersionStringPhiên bản API Azure OpenAI.Required
modelStringĐịnh danh mô hình TTS.Required
voicesArray of StringsCác tùy chọn giọng nói khả dụng.Required

Ví dụ:

tts:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_TTS_API_KEY}"
    deploymentName: "tts-deployment"
    apiVersion: "2024-02-15-preview"
    model: "tts-1"
    voices: ["alloy", "echo", "nova"]

elevenlabs

Cấu hình ElevenLabs TTS để tổng hợp giọng nói chất lượng cao.

KeyTypeDescriptionExample
urlStringURL API tùy chỉnh (tùy chọn).
websocketUrlStringURL WebSocket để truyền phát (tùy chọn).
apiKeyStringKhóa API ElevenLabs.Required
modelStringMô hình ElevenLabs (ví dụ: "eleven_multilingual_v2").Required
voicesArray of StringsCác ID giọng nói khả dụng để lựa chọn.Required
voice_settingsObjectCài đặt tùy chỉnh giọng nói (tùy chọn).
pronunciation_dictionary_locatorsArray of StringsCác ID từ điển phát âm (tùy chọn).

Các khóa con của voice_settings:

KeyTypeDescriptionExample
similarity_boostNumberTăng cường độ tương đồng giọng nói (0-1).
stabilityNumberĐộ ổn định giọng nói (0-1).
styleNumberMức độ phóng đại phong cách (0-1).
use_speaker_boostBooleanBật tăng cường loa.

Ví dụ:

tts:
  elevenlabs:
    apiKey: "${ELEVENLABS_API_KEY}"
    model: "eleven_multilingual_v2"
    voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
    voice_settings:
      stability: 0.5
      similarity_boost: 0.75
      use_speaker_boost: true

localai

Cấu hình LocalAI TTS cho tổng hợp giọng nói tự lưu trữ (self-hosted).

KeyTypeDescriptionExample
urlStringURL máy chủ LocalAI.Required
apiKeyStringKhóa API nếu xác thực được bật (tùy chọn).
voicesArray of StringsCác model giọng nói khả dụng.Required
backendStringBackend TTS cần sử dụng (ví dụ: "piper").Required

Ví dụ:

tts:
  localai:
    url: "http://localhost:8080"
    voices: ["en-us-amy-low", "en-us-danny-low"]
    backend: "piper"

stt

Đối tượng stt cấu hình các nhà cung cấp Speech-to-Text.

openai

Cấu hình OpenAI Whisper STT.

KeyTypeDescriptionExample
urlStringURL API tùy chỉnh (tùy chọn). Sử dụng cho các endpoint tương thích với OpenAI.
apiKeyStringKhóa API OpenAI. Sử dụng tham chiếu biến môi trường.Required
modelStringModel STT cần sử dụng (ví dụ: "whisper-1").Required

Ví dụ:

stt:
  openai:
    apiKey: "${STT_API_KEY}"
    model: "whisper-1"

azureOpenAI

Cấu hình Azure OpenAI Whisper STT.

KeyTypeDescriptionExample
instanceNameStringTên instance Azure OpenAI.Required
apiKeyStringKhóa API Azure OpenAI.Required
deploymentNameStringTên triển khai cho mô hình Whisper.Required
apiVersionStringPhiên bản API Azure OpenAI.Required

Ví dụ:

stt:
  azureOpenAI:
    instanceName: "my-azure-instance"
    apiKey: "${AZURE_STT_API_KEY}"
    deploymentName: "whisper-deployment"
    apiVersion: "2024-02-15-preview"

speechTab

Đối tượng speechTab cấu hình các cài đặt giao diện mặc định cho các tính năng giọng nói. Các cài đặt này kiểm soát những gì người dùng thấy theo mặc định trong bảng cài đặt giọng nói.

KeyTypeDescriptionExample
conversationModeBooleanBật chế độ hội thoại theo mặc định.false
advancedModeBooleanHiển thị các cài đặt giọng nói nâng cao theo mặc định.false
speechToTextBoolean or ObjectBật STT theo mặc định hoặc cấu hình các cài đặt STT chi tiết.false
textToSpeechBoolean or ObjectBật TTS theo mặc định hoặc cấu hình các cài đặt TTS chi tiết.false

speechToText (Định dạng Object)

Khi sử dụng một object thay vì một boolean:

KeyTypeDescriptionExample
engineSTTStringCông cụ STT mặc định. Các tùy chọn: `"openai"`, `"azureOpenAI"`.
languageSTTStringNgôn ngữ mặc định cho STT.
autoTranscribeAudioBooleanTự động chuyển đổi tin nhắn âm thanh thành văn bản.
decibelValueNumberNgưỡng decibel cho phát hiện giọng nói.
autoSendTextNumberĐộ trễ tính bằng ms trước khi tự động gửi văn bản đã chuyển đổi (0 để tắt).

textToSpeech (Định dạng Object)

Khi sử dụng một object thay vì một boolean:

KeyTypeDescriptionExample
engineTTSStringCông cụ TTS mặc định. Các tùy chọn: `"openai"`, `"azureOpenAI"`, `"elevenlabs"`, `"localai"`.
voiceStringLựa chọn giọng nói mặc định.
languageTTSStringNgôn ngữ mặc định cho TTS.
automaticPlaybackBooleanTự động phát các phản hồi TTS.
playbackRateNumberTốc độ phát mặc định (1.0 = bình thường). Phạm vi: 0.25–4.0.
cacheTTSBooleanLưu bộ nhớ đệm âm thanh TTS để phát lại nhiều lần.

Ví dụ:

speechTab:
  conversationMode: false
  advancedMode: false
  speechToText:
    engineSTT: "openai"
    autoTranscribeAudio: true
    decibelValue: -45
  textToSpeech:
    engineTTS: "openai"
    voice: "nova"
    automaticPlayback: false
    playbackRate: 1.0
    cacheTTS: true

Ví dụ hoàn chỉnh

version: 1.3.10
cache: true

speech:
  tts:
    openai:
      apiKey: "${TTS_API_KEY}"
      model: "tts-1-hd"
      voices: ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
    elevenlabs:
      apiKey: "${ELEVENLABS_API_KEY}"
      model: "eleven_multilingual_v2"
      voices: ["21m00Tcm4TlvDq8ikWAM", "AZnzlk1XvdvUeBnXmlld"]
      voice_settings:
        stability: 0.5
        similarity_boost: 0.75
  stt:
    openai:
      apiKey: "${STT_API_KEY}"
      model: "whisper-1"
  speechTab:
    conversationMode: false
    advancedMode: false
    speechToText: true
    textToSpeech:
      engineTTS: "openai"
      voice: "nova"
      automaticPlayback: false

Ghi chú

  • Luôn sử dụng các tham chiếu biến môi trường (ví dụ: ${API_KEY}) cho các khóa API trong các tệp cấu hình
  • Có thể cấu hình nhiều nhà cung cấp TTS; người dùng chọn tùy chọn ưa thích của họ trong giao diện người dùng (UI)
  • Các cài đặt speechTab xác định các giá trị mặc định mà người dùng có thể ghi đè trong cài đặt cá nhân của họ
  • Để biết tài liệu chi tiết về tính năng, hãy xem Speech to Text & Text to Speech

Hướng dẫn này thế nào?