Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Tạo & Chỉnh sửa Hình ảnh

Hướng dẫn toàn diện về các công cụ tạo và chỉnh sửa hình ảnh tích hợp sẵn của LibreChat

LibreChat đi kèm với các công cụ hình ảnh tích hợp mà bạn có thể thêm vào một Agent. Mỗi công cụ đều có mô hình, mức giá và thiết lập riêng, thường chỉ cần một khóa API hoặc một URL. Không có trang hình ảnh riêng biệt: bạn tạo hoặc chỉnh sửa hình ảnh bằng cách trò chuyện với một Agent đã được bật công cụ hình ảnh.

Cách thức hoạt động của tính năng tạo hình ảnh

Tải lên một hình ảnh khi bạn muốn chỉnh sửa, hoặc gửi một câu lệnh văn bản thuần túy khi bạn muốn tạo hình ảnh mới. Các hình ảnh được tạo sẽ tuân theo fileStrategy đã được cấu hình và kết quả đầu ra của công cụ sẽ được gửi đến LLM như một phần của ngữ cảnh trò chuyện ngay sau khi tạo.

Bắt đầu nhanh

Thiết lập tính năng tạo hình ảnh trong vài phút với OpenAI Image Tools.

Tạo một agent. Chọn Agents từ menu endpoint, mở Agent Builder từ bảng điều khiển bên, và tạo một agent mới. Đặt tên cho nó là "Image Creator".

Thêm OpenAI Image Tools. Mở danh sách Tools của tác nhân, chọn OpenAI Image Tools, và lưu tác nhân đó. Thao tác này sẽ thêm cả khả năng tạo ảnh và chỉnh sửa ảnh.

Thiết lập khóa API của bạn. Thêm nội dung sau vào tệp .env của bạn:

IMAGE_GEN_OAI_API_KEY=sk-your-openai-api-key
# Optional; defaults to gpt-image-1
IMAGE_GEN_OAI_MODEL=gpt-image-1

Khởi động lại và kiểm tra. Khởi động lại LibreChat, sau đó gửi một tin nhắn như "Generate an image of a sunset over mountains" cho agent của bạn.

Triển khaiLệnh
Dockerdocker compose down && docker compose up -d
LocalDừng (Ctrl+C) sau đó npm run backend

Thông tin hữu ích

  • Các API key có thể được bỏ qua để cho phép người dùng nhập key của riêng họ từ giao diện người dùng (UI).
  • Các đầu ra hình ảnh chỉ được gửi đến LLM ngay sau khi tạo, không phải trong mọi tin nhắn. Nếu không, LLM chỉ nhận được ngữ cảnh hình ảnh từ các hình ảnh được đính kèm trong tin nhắn của người dùng. Xem Image Storage and Handling.
  • Các công cụ MCP server cũng có thể xuất hình ảnh, mặc dù chúng có thể không phải lúc nào cũng sử dụng đúng định dạng. Xem phần MCP.

Các công cụ hình ảnh OpenAI

"OpenAI Image Tools" là một bộ công cụ tác nhân bao gồm hai công cụ riêng biệt:

  • Image Generation tạo ra các hình ảnh hoàn toàn mới từ các câu lệnh văn bản (không cần tải lên).
  • Image Editing chỉnh sửa hoặc phối lại các hình ảnh bạn đã tải lên: thay đổi màu sắc, thêm đối tượng, mở rộng khung hình và hơn thế nữa.

Cả hai đều mặc định sử dụng GPT-Image-1 để tuân thủ hướng dẫn, hiển thị văn bản, chỉnh sửa chi tiết và kiến thức thực tế. Sử dụng IMAGE_GEN_OAI_MODEL để chọn một mô hình hình ảnh OpenAI khác khi quá trình triển khai của bạn hỗ trợ. Xem tài liệu về Tạo hình ảnh của OpenAI để biết thêm chi tiết.

Tạo mới so với Chỉnh sửa

Trường hợp sử dụngKích hoạt
"Bắt đầu từ đầu"Tạo hình ảnh
"Sử dụng (các) hình ảnh có sẵn"Chỉnh sửa hình ảnh

Cả hai công cụ đều luôn khả dụng và agent sẽ chọn công cụ phù hợp dựa trên yêu cầu:

  • Image Generation tạo ra các hình ảnh mới chỉ từ các mô tả văn bản.
  • Chỉnh sửa hình ảnh (Image Editing) sửa đổi hoặc phối lại các hình ảnh hiện có bằng cách sử dụng ID hình ảnh của chúng. Đây có thể là các hình ảnh từ tin nhắn hiện tại hoặc các hình ảnh đã được tạo và tham chiếu trước đó. LLM sẽ theo dõi các ID hình ảnh miễn là chúng vẫn nằm trong cửa sổ ngữ cảnh và bao gồm chúng trong đầu ra của công cụ.

Chỉnh sửa hình ảnh dựa vào ID hình ảnh

  • Các ID hình ảnh được lưu giữ trong lịch sử trò chuyện. Khi các tệp được tải lên cho yêu cầu hiện tại, ID của chúng sẽ được thêm vào ngữ cảnh của LLM trước khi bất kỳ token nào được tạo.
  • Các ID hình ảnh đã được tham chiếu hoặc tạo trước đó có thể được sử dụng để chỉnh sửa miễn là chúng vẫn nằm trong cửa sổ ngữ cảnh. LLM sẽ bao gồm mọi ID liên quan trong mảng image_ids khi gọi công cụ chỉnh sửa.
  • Bạn có thể đính kèm các hình ảnh đã tải lên trước đó từ bảng điều khiển bên mà không cần phải tải lên lại. Điều này cũng cung cấp cho mô hình thị giác (vision model) ngữ cảnh hình ảnh, giúp hỗ trợ cung cấp thông tin cho prompt của công cụ chỉnh sửa.

Các tham số

Tạo hình ảnh

  • prompt: mô tả văn bản (bắt buộc)
  • size: auto (mặc định), 1024x1024 (hình vuông), 1536x1024 (ngang), hoặc 1024x1536 (dọc)
  • quality: auto (mặc định), high, medium, hoặc low
  • background: auto (mặc định), transparent (trong suốt), hoặc opaque (đục) (chế độ trong suốt yêu cầu định dạng PNG hoặc WebP)

Chỉnh sửa hình ảnh

  • image_ids: mảng các ID hình ảnh để sử dụng làm tham chiếu cho việc chỉnh sửa (bắt buộc)
  • prompt: mô tả văn bản về các thay đổi (bắt buộc)
  • size: auto (mặc định), 1024x1024, 1536x1024, 1024x1536, 256x256, hoặc 512x512
  • quality: auto (mặc định), high, medium, hoặc low

Thiết lập

Tạo hoặc sử dụng lại khóa OpenAI và thêm nó vào .env, sau đó thêm "OpenAI Image Tools" vào danh sách Tools của tác nhân (agent) của bạn:

IMAGE_GEN_OAI_API_KEY=sk-...
# optional extras
IMAGE_GEN_OAI_MODEL=gpt-image-1
IMAGE_GEN_OAI_BASEURL=https://...

Đối với các triển khai Azure OpenAI, trước tiên hãy yêu cầu quyền truy cập tại https://aka.ms/oai/gptimage1access, sau đó thêm thông tin xác thực của bạn vào .env:

IMAGE_GEN_OAI_API_KEY=your-api-key
# optional extras
IMAGE_GEN_OAI_MODEL=gpt-image-1
IMAGE_GEN_OAI_BASEURL=https://deploymentname.openai.azure.com/openai/deployments/gpt-image-1/
IMAGE_GEN_OAI_AZURE_API_VERSION=2025-04-01-preview

Cấu hình nâng cao

Tùy chỉnh mô tả công cụ và hướng dẫn nhắc lệnh với các biến môi trường sau:

# Image Model
IMAGE_GEN_OAI_MODEL=gpt-image-1

# Image Generation Tool Descriptions
IMAGE_GEN_OAI_DESCRIPTION=...
IMAGE_GEN_OAI_PROMPT_DESCRIPTION=...

# Image Editing Tool Descriptions
IMAGE_EDIT_OAI_DESCRIPTION=...
IMAGE_EDIT_OAI_PROMPT_DESCRIPTION=...

Định giá

Xem trang định giá GPT-Image-1tài liệu về Tạo hình ảnh để biết chi phí tạo hình ảnh.

Công cụ hình ảnh Gemini

Gemini Image Tools tích hợp các mô hình tạo ảnh mới nhất của Google, hỗ trợ cả việc tạo ảnh từ văn bản và chỉnh sửa ảnh có nhận biết ngữ cảnh.

  • Tạo hình ảnh từ văn bản: tạo ra các hình ảnh chất lượng cao từ các mô tả văn bản chi tiết.
  • Hỗ trợ ngữ cảnh hình ảnh: sử dụng các hình ảnh hiện có làm ngữ cảnh hoặc nguồn cảm hứng cho các thế hệ mới.
  • Chỉnh sửa hình ảnh: tạo hình ảnh mới dựa trên các sửa đổi đối với hình ảnh hiện có (bao gồm ID của hình ảnh gốc).
  • Nhiều mô hình: chọn gemini-2.5-flash-image (mặc định) hoặc gemini-3-pro-image-preview.
  • Hỗ trợ API kép: hoạt động với cả khóa API Gemini đơn giản và Google Cloud Vertex AI.

Các tham số

  • prompt: mô tả văn bản chi tiết về hình ảnh mong muốn (bắt buộc, tối đa 32.000 ký tự)
  • image_ids: mảng tùy chọn các ID hình ảnh để sử dụng làm ngữ cảnh trực quan cho việc tạo nội dung

Thiết lập

Đối với Gemini API, hãy lấy khóa từ Google AI Studio:

GEMINI_API_KEY=your_api_key_here

Đối với Vertex AI (người dùng Google Cloud có quyền truy cập Vertex AI):

GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
GOOGLE_CLOUD_LOCATION=us-central1  # optional, default: global

Lựa chọn Model

# Default model (fast and efficient)
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Higher quality model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Cấu hình nâng cao

Tùy chỉnh mô tả công cụ thông qua các biến môi trường:

GEMINI_IMAGE_GEN_DESCRIPTION=...
GEMINI_IMAGE_GEN_PROMPT_DESCRIPTION=...
GEMINI_IMAGE_IDS_DESCRIPTION=...

Thông tin chi tiết có trong hướng dẫn Gemini Image Gen chuyên biệt.

DALL·E (legacy)

DALL·E cung cấp tính năng tạo hình ảnh kế thừa bằng cách sử dụng mô hình hình ảnh dall-e-3 của OpenAI.

Các tham số

  • prompt: mô tả văn bản của hình ảnh mong muốn (bắt buộc, tối đa 4000 ký tự)
  • style: vivid (siêu thực, ấn tượng, mặc định) hoặc natural (ít siêu thực hơn)
  • quality: standard (mặc định) hoặc hd
  • size: 1024x1024 (mặc định, hình vuông), 1792x1024 (ngang), hoặc 1024x1792 (dọc)

Thiết lập

# Required
DALLE_API_KEY=sk-...  # or DALLE3_API_KEY=sk-...

# Optional
DALLE_REVERSE_PROXY=https://...  # Alternative endpoint
DALLE3_BASEURL=https://...  # For Azure or custom endpoints
DALLE3_AZURE_API_VERSION=2023-12-01-preview  # For Azure deployments
DALLE3_SYSTEM_PROMPT=...  # Custom system prompt for DALL·E

Bật công cụ DALL·E cho tác nhân và bắt đầu nhập câu lệnh.

Cấu hình nâng cao

Đối với các triển khai Azure OpenAI, hãy cấu hình base URL và API version:

DALLE3_BASEURL=https://your-resource-name.openai.azure.com/openai/deployments/your-deployment-name
DALLE3_AZURE_API_VERSION=2023-12-01-preview
DALLE3_API_KEY=your-azure-api-key

Định giá

Xem trang định giá DALL-Etài liệu Tạo hình ảnh để biết chi phí tạo hình ảnh.

Stable Diffusion (cục bộ)

Chạy hình ảnh hoàn toàn trên máy tính hoặc máy chủ của riêng bạn. Chỉ cần trỏ LibreChat tới bất kỳ endpoint Automatic1111 (hoặc tương thích) nào là bạn đã sẵn sàng.

Các tham số

  • prompt: các từ khóa chi tiết mô tả các yếu tố mong muốn trong hình ảnh (bắt buộc)
  • negative_prompt: các từ khóa mô tả những yếu tố cần loại trừ khỏi hình ảnh (bắt buộc)

Việc triển khai Stable Diffusion sử dụng các tham số mặc định cố định này, vốn mang lại kết quả tốt cho hầu hết các trường hợp sử dụng:

  • cfg_scale: 4.5
  • các bước: 22
  • width: 1024
  • height: 1024

Thiết lập

Không cần API key, chỉ cần URL có thể truy cập được của Automatic1111 WebUI của bạn:

SD_WEBUI_URL=http://127.0.0.1:7860  # URL to your Automatic1111 WebUI

Thông tin chi tiết về cách thiết lập Automatic1111 có trong hướng dẫn Stable Diffusion chuyên biệt.

Flux

Trình tạo đám mây tập trung vào tốc độ và các mô hình tùy chỉnh tùy chọn.

  • Tạo hình ảnh dựa trên đám mây tốc độ cao
  • Hỗ trợ cho các mô hình đã được tinh chỉnh (fine-tuned)
  • Nhiều cấp độ chất lượng và tỷ lệ khung hình
  • Chế độ thô (Raw mode) để có hình ảnh ít qua xử lý và trông tự nhiên hơn

Các tham số

Công cụ Flux hỗ trợ ba hành động chính:

  1. generate: tạo một hình ảnh mới từ một câu lệnh văn bản
  2. generate_finetuned: tạo một hình ảnh bằng cách sử dụng một mô hình đã được tinh chỉnh (fine-tuned)
  3. list_finetunes: liệt kê các custom model khả dụng cho người dùng

Thông tin chi tiết có trong hướng dẫn Flux chuyên biệt.

Thiết lập

Chọn công cụ Flux bên trong agent. Các câu lệnh (prompt) là văn bản thuần túy và mỗi lần gọi sẽ tạo ra một hình ảnh.

FLUX_API_KEY=flux_live_...
FLUX_API_BASE_URL=https://api.us1.bfl.ai   # default is fine for most users

Định giá

Xem trang giá của Flux để biết chi phí tạo hình ảnh.

Model Context Protocol (MCP)

Các đầu ra hình ảnh được hỗ trợ từ các máy chủ MCP. Ví dụ, Puppeteer MCP Server có thể tạo ảnh chụp màn hình của các trang web, xuất ra hình ảnh theo định dạng mong đợi và được xử lý giống như các công cụ hình ảnh tích hợp sẵn của LibreChat.

Hỗ trợ hình ảnh MCP vẫn đang trong giai đoạn phát triển

  • Các ví dụ dưới đây giả định LibreChat chạy bên ngoài Docker, sử dụng trực tiếp Node.js. Model Context Protocol là một framework tương đối mới và nhiều nhà phát triển vẫn đang tìm hiểu cách phục vụ hệ thống của họ bằng uv/node để phân phối có khả năng mở rộng.
  • Hiện có rất ít máy chủ tạo hình ảnh, và nhiều máy chủ vẫn chưa áp dụng đúng định dạng phản hồi cho hình ảnh.
  • Trong khi nhiều MCP server hoạt động tốt trong Docker, các ví dụ sau đây thì không, hoặc không thể hoạt động nếu thiếu các cấu hình nâng cao hơn, cho thấy một số điểm không nhất quán hiện tại giữa các MCP server.
mcpServers:
  puppeteer:
    command: npx
    args:
      - -y
      - '@modelcontextprotocol/server-puppeteer'

Dưới đây là ví dụ về một Image Generation server xuất ra hình ảnh bằng cách sử dụng Replicate API, nhưng lại trả về các URL của hình ảnh, điều này không tuân thủ tiêu chuẩn phản hồi hình ảnh của MCP.

Yêu cầu cài đặt toàn cục

Đối với máy chủ cụ thể này, hãy cài đặt gói @gongrzhe/image-gen-server trên toàn cục bằng lệnh npm install -g @gongrzhe/image-gen-server, sau đó trỏ đến các tệp đã biên dịch của gói như được hiển thị bên dưới.

mcpServers:
  image-gen:
    command: 'node'
    # First, install the package globally using npm:
    # `npm install -g @gongrzhe/image-gen-server`
    # Then, point to the location of the installed package,
    # which you can find by running `npm root -g`
    args:
      - '{REPLACE_WITH_NODE_MODULES_LOCATION}/@gongrzhe/image-gen-server/build/index.js'
      # Example with output from `npm root -g`:
      # - "/home/danny/.nvm/versions/node/v24.16.0/lib/node_modules/@gongrzhe/image-gen-server/build/index.js"
    env:
      # Do not hardcode the API token here, use the environment variable instead
      # The following will pick up the token from your .env file or environment
      REPLICATE_API_TOKEN: '${REPLICATE_API_TOKEN}'
      MODEL: 'google/imagen-3'

Lưu trữ và xử lý hình ảnh

Tất cả các hình ảnh được tạo là:

  1. Được lưu theo fileStrategy đã định cấu hình
  2. Được hiển thị trực tiếp trong giao diện trò chuyện
  3. Được gửi đến LLM như một phần của ngữ cảnh trò chuyện tức thời sau khi tạo.

Một vài lưu ý nhỏ áp dụng cho điểm cuối cùng đó:

  • Điều này có thể gây ra sự cố với các LLM không hỗ trợ đầu vào hình ảnh. Một tùy chọn để tắt hành vi này cho từng agent đang được lên kế hoạch.
  • Các đầu ra chỉ được gửi đến LLM khi tạo, không phải trên mỗi tin nhắn.
  • Để bao gồm hình ảnh trong các lượt phản hồi sau, hãy đính kèm hình ảnh đó vào tin nhắn từ bảng điều khiển bên cạnh.
  • Tóm lại, LLM chỉ nhận ngữ cảnh hình ảnh từ các hình ảnh được đính kèm vào tin nhắn của người dùng, và từ các nội dung được tạo hoặc chỉnh sửa ngay sau khi chúng xảy ra.

Hỗ trợ Proxy

Tất cả các công cụ tạo hình ảnh đều hỗ trợ cấu hình proxy thông qua biến môi trường PROXY:

PROXY=http://proxy-url:port

Khi PROXY không được thiết lập, các client phía máy chủ được hỗ trợ sẽ tuân theo HTTP_PROXY, HTTPS_PROXYNO_PROXY/no_proxy.

Xử lý lỗi

Nếu một công cụ gặp lỗi, nó sẽ trả về một thông báo giải thích nguyên nhân xảy ra sự cố. Các vấn đề thường gặp bao gồm:

  • Khóa API không hợp lệ
  • API không khả dụng
  • Vi phạm chính sách nội dung
  • Các vấn đề về Proxy/mạng
  • Các tham số không hợp lệ
  • Payload hình ảnh không được hỗ trợ (xem Image Storage and Handling ở trên)

Prompting

Bạn có thể tùy chỉnh các câu lệnh (prompt) cho OpenAI Image ToolsDALL·E, nhưng các mẹo sau đây cung cấp thông tin về các câu lệnh mặc định mà các công cụ này sử dụng, điều này rất hữu ích để bạn nắm được khi tự viết câu lệnh cho riêng mình:

  1. Bắt đầu với chủ thểphong cách (ảnh chụp, tranh sơn dầu, v.v.).
  2. Thêm bố cụcgóc máy/phương tiện ("cảnh góc rộng của…", "màu nước…").
  3. Đề cập đến ánh sáng và tâm trạng ("giờ vàng", "bóng đổ ấn tượng").
  4. Kết thúc bằng các từ khóa chi tiết (kết cấu, màu sắc, biểu cảm).
  5. Giữ các câu phủ định ở dạng khẳng định: hãy mô tả những gì cần bao gồm, thay vì những gì cần tránh.

Ví dụ:

Một bức ảnh điện ảnh về một thư viện cổ kính ngập trong ánh nắng chiều ấm áp. Những kệ gỗ cao chất đầy sách bọc da, và các hạt bụi lấp lánh trong ánh sáng. Một chiếc đèn bàn kiểu ngân hàng với chao đèn màu xanh lục chiếu sáng một cuốn tập bản đồ đang mở trên chiếc bàn gỗ gụ được đánh bóng ở tiền cảnh. Ống kính 85 mm, độ sâu trường ảnh nông, tông màu hổ phách phong phú, chi tiết cực cao.

Hướng dẫn này thế nào?