Pembuatan & Penyuntingan Gambar

Panduan komprehensif untuk alat pembuatan dan penyuntingan gambar bawaan LibreChat

LibreChat hadir dengan alat gambar bawaan yang dapat Anda tambahkan ke Agent. Setiap alat memiliki model, titik harga, dan pengaturannya sendiri, biasanya hanya berupa kunci API atau URL. Tidak ada halaman gambar terpisah: Anda membuat atau mengedit gambar dengan mengobrol bersama Agent yang telah mengaktifkan alat gambar.

Cara kerja pembuatan gambar

Unggah gambar saat Anda menginginkan pengeditan, atau kirim prompt teks biasa saat Anda menginginkan gambar baru. Gambar yang dihasilkan mengikuti fileStrategy yang dikonfigurasi dan output alat dikirim ke LLM sebagai bagian dari konteks obrolan segera setelah pembuatan.

Memulai Cepat

Aktifkan pembuatan gambar dalam beberapa menit dengan OpenAI Image Tools.

Buat agen. Pilih Agents dari menu endpoint, buka Agent Builder dari panel samping, dan buat agen baru. Beri nama seperti "Image Creator".

Tambahkan OpenAI Image Tools. Buka daftar Tools agen, pilih OpenAI Image Tools, lalu simpan agen tersebut. Ini akan menambahkan kemampuan pembuatan gambar sekaligus penyuntingan gambar.

Atur kunci API Anda. Tambahkan baris berikut ke file .env Anda:

IMAGE_GEN_OAI_API_KEY=sk-your-openai-api-key
# Optional; defaults to gpt-image-1
IMAGE_GEN_OAI_MODEL=gpt-image-1

Mulai ulang dan uji. Mulai ulang LibreChat, lalu kirim pesan seperti "Generate an image of a sunset over mountains" ke agen Anda.

Deployment	Command
Docker	`docker compose down && docker compose up -d`
Lokal	Berhenti (Ctrl+C) lalu `npm run backend`

Perlu diketahui

API keys dapat dikosongkan agar pengguna dapat memasukkan kunci mereka sendiri dari UI.
Output gambar dikirim ke LLM hanya segera setelah pembuatan, bukan pada setiap pesan. Selebihnya, LLM mendapatkan konteks visual hanya dari gambar yang dilampirkan pada pesan pengguna. Lihat Image Storage and Handling.
Alat server MCP juga dapat mengeluarkan gambar, meskipun mungkin tidak selalu menggunakan format yang benar. Lihat bagian MCP.

Alat Gambar OpenAI

"OpenAI Image Tools" adalah perangkat alat agen yang terdiri dari dua alat terpisah:

Image Generation membuat gambar baru dari perintah teks (tidak perlu unggah).
Image Editing mengedit atau mengubah gambar yang Anda unggah: mengubah warna, menambahkan objek, memperluas kanvas, dan banyak lagi.

Keduanya secara default menggunakan GPT-Image-1 untuk mengikuti instruksi, rendering teks, pengeditan mendetail, dan pengetahuan dunia nyata. Gunakan IMAGE_GEN_OAI_MODEL untuk memilih model gambar OpenAI yang berbeda saat deployment Anda mendukungnya. Lihat dokumentasi Pembuatan Gambar OpenAI untuk detail lebih lanjut.

Generasi vs. Penyuntingan

Kasus penggunaan	Memanggil
"Mulai dari awal"	Image Generation
"Gunakan gambar yang ada"	Image Editing

Kedua alat tersebut selalu tersedia, dan agen akan memilih alat yang tepat berdasarkan permintaan:

Image Generation membuat gambar baru hanya dari deskripsi teks.
Image Editing memodifikasi atau meremix gambar yang sudah ada menggunakan ID gambar tersebut. Gambar-gambar ini bisa berasal dari pesan saat ini atau gambar yang sebelumnya telah dibuat dan direferensikan. LLM melacak ID gambar selama gambar tersebut tetap berada dalam jendela konteks dan menyertakannya dalam output alat.

Pengeditan gambar bergantung pada ID gambar

ID Gambar dipertahankan dalam riwayat obrolan. Saat file diunggah ke permintaan saat ini, ID file tersebut ditambahkan ke konteks LLM sebelum token apa pun dibuat.
ID gambar yang sebelumnya direferensikan atau dibuat dapat digunakan untuk penyuntingan selama ID tersebut tetap berada dalam jendela konteks. LLM menyertakan ID yang relevan dalam array image_ids saat memanggil alat penyuntingan.
Anda dapat melampirkan gambar yang sebelumnya telah diunggah dari panel samping tanpa perlu mengunggahnya kembali. Hal ini juga memberikan konteks gambar kepada model vision, yang dapat membantu memberikan informasi untuk prompt pada alat penyuntingan.

Parameter

Pembuatan Gambar

prompt: deskripsi teks (wajib)
size: auto (default), 1024x1024 (persegi), 1536x1024 (lanskap), atau 1024x1536 (potret)
quality: auto (default), high, medium, atau low
background: auto (default), transparent, atau opaque (transparent memerlukan format PNG atau WebP)

Pengeditan Gambar

image_ids: array ID gambar yang akan digunakan sebagai referensi untuk penyuntingan (wajib)
prompt: deskripsi teks mengenai perubahan (wajib)
size: auto (default), 1024x1024, 1536x1024, 1024x1536, 256x256, atau 512x512
quality: auto (default), high, medium, atau low

Pengaturan

Buat atau gunakan kembali kunci OpenAI dan tambahkan ke .env, lalu tambahkan "OpenAI Image Tools" ke daftar Tools agen Anda:

IMAGE_GEN_OAI_API_KEY=sk-...
# optional extras
IMAGE_GEN_OAI_MODEL=gpt-image-1
IMAGE_GEN_OAI_BASEURL=https://...

Untuk deployment Azure OpenAI, pertama-tama ajukan akses di https://aka.ms/oai/gptimage1access, kemudian tambahkan kredensial Anda ke .env:

IMAGE_GEN_OAI_API_KEY=your-api-key
# optional extras
IMAGE_GEN_OAI_MODEL=gpt-image-1
IMAGE_GEN_OAI_BASEURL=https://deploymentname.openai.azure.com/openai/deployments/gpt-image-1/
IMAGE_GEN_OAI_AZURE_API_VERSION=2025-04-01-preview

Konfigurasi Lanjutan

Sesuaikan deskripsi alat dan panduan prompt dengan variabel lingkungan berikut:

# Image Model
IMAGE_GEN_OAI_MODEL=gpt-image-1

# Image Generation Tool Descriptions
IMAGE_GEN_OAI_DESCRIPTION=...
IMAGE_GEN_OAI_PROMPT_DESCRIPTION=...

# Image Editing Tool Descriptions
IMAGE_EDIT_OAI_DESCRIPTION=...
IMAGE_EDIT_OAI_PROMPT_DESCRIPTION=...

Harga

Lihat halaman harga GPT-Image-1 dan dokumentasi Pembuatan Gambar untuk biaya pembuatan gambar.

Alat Gambar Gemini

Gemini Image Tools mengintegrasikan model pembuatan gambar terbaru dari Google, yang mendukung pembuatan teks-ke-gambar serta penyuntingan gambar yang peka terhadap konteks.

Pembuatan teks-ke-gambar: buat gambar berkualitas tinggi dari deskripsi teks yang mendetail.
Dukungan konteks gambar: gunakan gambar yang sudah ada sebagai konteks atau inspirasi untuk pembuatan gambar baru.
Pengeditan gambar: menghasilkan gambar baru berdasarkan modifikasi pada gambar yang sudah ada (sertakan ID gambar asli).
Multiple models: pilih gemini-2.5-flash-image (default) atau gemini-3-pro-image-preview.
Dukungan API ganda: berfungsi dengan kunci API Gemini sederhana maupun Google Cloud Vertex AI.

Parameter

prompt: deskripsi teks mendetail mengenai gambar yang diinginkan (wajib, hingga 32.000 karakter)
image_ids: array opsional dari ID gambar yang akan digunakan sebagai konteks visual untuk pembuatan

Pengaturan

Untuk Gemini API, dapatkan kunci dari Google AI Studio:

GEMINI_API_KEY=your_api_key_here

Untuk Vertex AI (pengguna Google Cloud dengan akses Vertex AI):

GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
GOOGLE_CLOUD_LOCATION=us-central1  # optional, default: global

Pemilihan Model

# Default model (fast and efficient)
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Higher quality model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Konfigurasi Lanjutan

Sesuaikan deskripsi alat melalui variabel lingkungan:

GEMINI_IMAGE_GEN_DESCRIPTION=...
GEMINI_IMAGE_GEN_PROMPT_DESCRIPTION=...
GEMINI_IMAGE_IDS_DESCRIPTION=...

Detail lebih lanjut ada di panduan Gemini Image Gen khusus.

DALL·E (legacy)

DALL·E menyediakan pembuatan gambar warisan menggunakan model gambar dall-e-3 dari OpenAI.

Parameter

prompt: deskripsi teks dari gambar yang diinginkan (wajib, hingga 4000 karakter)
style: vivid (hiper-realistis, dramatis, default) atau natural (kurang hiper-realistis)
quality: standard (default) atau hd
size: 1024x1024 (default, persegi), 1792x1024 (lebar), atau 1024x1792 (tinggi)

Pengaturan

# Required
DALLE_API_KEY=sk-...  # or DALLE3_API_KEY=sk-...

# Optional
DALLE_REVERSE_PROXY=https://...  # Alternative endpoint
DALLE3_BASEURL=https://...  # For Azure or custom endpoints
DALLE3_AZURE_API_VERSION=2023-12-01-preview  # For Azure deployments
DALLE3_SYSTEM_PROMPT=...  # Custom system prompt for DALL·E

Aktifkan alat DALL·E untuk agen tersebut dan mulailah memberikan perintah (prompt).

Konfigurasi Lanjutan

Untuk deployment Azure OpenAI, konfigurasikan base URL dan API version:

DALLE3_BASEURL=https://your-resource-name.openai.azure.com/openai/deployments/your-deployment-name
DALLE3_AZURE_API_VERSION=2023-12-01-preview
DALLE3_API_KEY=your-azure-api-key

Harga

Lihat halaman harga DALL-E dan dokumentasi Pembuatan Gambar untuk biaya pembuatan gambar.

Stable Diffusion (lokal)

Jalankan gambar sepenuhnya di mesin atau server Anda sendiri. Arahkan LibreChat ke endpoint Automatic1111 (atau yang kompatibel) mana pun dan Anda siap menggunakannya.

Parameter

prompt: kata kunci mendetail yang mendeskripsikan elemen yang diinginkan dalam gambar (wajib)
negative_prompt: kata kunci yang mendeskripsikan elemen untuk dikecualikan dari gambar (wajib)

Implementasi Stable Diffusion menggunakan parameter default tetap ini, yang menghasilkan hasil yang baik untuk sebagian besar kasus penggunaan:

cfg_scale: 4.5
langkah: 22
width: 1024
height: 1024

Pengaturan

Tidak diperlukan API key, cukup URL yang dapat diakses dari Automatic1111 WebUI Anda:

SD_WEBUI_URL=http://127.0.0.1:7860  # URL to your Automatic1111 WebUI

Detail lebih lanjut mengenai pengaturan Automatic1111 ada di panduan Stable Diffusion khusus.

Flux

Generator cloud dengan penekanan pada kecepatan dan model yang telah disesuaikan (fine-tuned) secara opsional.

Pembuatan gambar berbasis cloud yang cepat
Dukungan untuk model yang telah di-fine-tune
Beberapa tingkat kualitas dan rasio aspek
Mode raw untuk gambar yang kurang diproses dan terlihat lebih alami

Parameter

Alat Flux mendukung tiga tindakan utama:

generate: membuat gambar baru dari prompt teks
generate_finetuned: membuat gambar menggunakan model yang telah di-fine-tune
list_finetunes: mencantumkan model kustom yang tersedia untuk pengguna

Detail lebih lanjut ada di panduan Flux khusus.

Pengaturan

Pilih alat Flux di dalam agen. Prompt berupa teks biasa, dan satu panggilan akan menghasilkan satu gambar.

FLUX_API_KEY=flux_live_...
FLUX_API_BASE_URL=https://api.us1.bfl.ai   # default is fine for most users

Harga

Lihat halaman harga Flux untuk biaya pembuatan gambar.

Model Context Protocol (MCP)

Output gambar didukung dari server MCP. Sebagai contoh, Puppeteer MCP Server dapat menghasilkan tangkapan layar halaman web, yang mengeluarkan gambar dalam format yang diharapkan dan diperlakukan sama seperti alat gambar bawaan LibreChat.

Dukungan gambar MCP masih dalam tahap pengembangan

Contoh di bawah ini mengasumsikan LibreChat berjalan di luar Docker, langsung menggunakan Node.js. Model Context Protocol adalah kerangka kerja yang relatif baru, dan banyak pengembang masih mempelajari cara menyajikan sistem mereka dengan uv/node untuk distribusi yang dapat diskalakan.
Hanya sedikit server pembuat gambar yang tersedia, dan banyak yang belum mengadopsi format respons yang benar untuk gambar.
Meskipun banyak server MCP berfungsi dengan baik di dalam Docker, contoh-contoh berikut tidak demikian, atau tidak dapat berfungsi tanpa konfigurasi yang lebih lanjut, yang menunjukkan beberapa ketidakkonsistenan saat ini di antara server-server MCP.

mcpServers:
  puppeteer:
    command: npx
    args:
      - -y
      - '@modelcontextprotocol/server-puppeteer'

Berikut adalah contoh dari Image Generation server yang menghasilkan gambar menggunakan Replicate API, namun mengembalikan URL gambar tersebut, yang tidak sesuai dengan standar respons gambar MCP.

Instalasi global diperlukan

Untuk server khusus ini, instal paket @gongrzhe/image-gen-server secara global dengan npm install -g @gongrzhe/image-gen-server, kemudian arahkan ke file terkompilasi paket tersebut seperti yang ditunjukkan di bawah ini.

mcpServers:
  image-gen:
    command: 'node'
    # First, install the package globally using npm:
    # `npm install -g @gongrzhe/image-gen-server`
    # Then, point to the location of the installed package,
    # which you can find by running `npm root -g`
    args:
      - '{REPLACE_WITH_NODE_MODULES_LOCATION}/@gongrzhe/image-gen-server/build/index.js'
      # Example with output from `npm root -g`:
      # - "/home/danny/.nvm/versions/node/v24.16.0/lib/node_modules/@gongrzhe/image-gen-server/build/index.js"
    env:
      # Do not hardcode the API token here, use the environment variable instead
      # The following will pick up the token from your .env file or environment
      REPLICATE_API_TOKEN: '${REPLICATE_API_TOKEN}'
      MODEL: 'google/imagen-3'

Penyimpanan dan Penanganan Gambar

Semua gambar yang dihasilkan adalah:

Disimpan sesuai dengan fileStrategy yang dikonfigurasi
Ditampilkan langsung di antarmuka obrolan
Dikirim ke LLM sebagai bagian dari konteks obrolan langsung setelah pembuatan

Beberapa peringatan berlaku untuk poin terakhir tersebut:

Hal ini dapat menyebabkan masalah pada LLM yang tidak mendukung input gambar. Opsi untuk menonaktifkan perilaku tersebut per agen sedang direncanakan.
Output dikirim ke LLM hanya saat pembuatan, bukan pada setiap pesan.
Untuk menyertakan gambar pada giliran berikutnya, lampirkan gambar tersebut ke pesan dari panel samping.
Singkatnya, LLM mendapatkan konteks visual hanya dari gambar yang dilampirkan pada pesan pengguna, serta dari hasil generasi atau penyuntingan yang terjadi tepat setelahnya.

Dukungan Proxy

Semua alat pembuatan gambar mendukung konfigurasi proksi melalui variabel lingkungan PROXY:

PROXY=http://proxy-url:port

Saat PROXY tidak diatur, klien sisi server yang didukung akan mengikuti HTTP_PROXY, HTTPS_PROXY, dan NO_PROXY/no_proxy.

Penanganan Error

Jika sebuah tool mengalami error, ia akan mengembalikan pesan yang menjelaskan apa yang salah. Masalah umum meliputi:

Kunci API tidak valid
Ketidaktersediaan API
Pelanggaran kebijakan konten
Masalah proxy/jaringan
Parameter tidak valid
Payload gambar tidak didukung (lihat Image Storage and Handling di atas)

Prompting

Anda dapat menyesuaikan prompt untuk OpenAI Image Tools dan DALL·E, namun tips berikut ini menginformasikan prompt default yang disediakan oleh alat tersebut, yang berguna untuk diketahui bagi penulisan Anda sendiri:

Mulai dengan subjek dan gaya (foto, lukisan cat minyak, dll.).
Tambahkan komposisi dan kamera/medium ("wide-angle shot of…", "watercolour…").
Sebutkan pencahayaan dan suasana ("golden hour", "dramatic shadows").
Selesaikan dengan kata kunci detail (tekstur, warna, ekspresi).
Jaga agar hal negatif tetap positif: jelaskan apa yang harus disertakan, bukan apa yang harus dihindari.

Contoh:

Foto sinematik sebuah perpustakaan antik yang bermandikan cahaya matahari sore yang hangat. Rak kayu tinggi dipenuhi dengan buku-buku bersampul kulit, dan partikel debu berkilauan terkena cahaya. Sebuah lampu meja banker berwarna hijau menerangi atlas terbuka di atas meja mahoni yang dipoles di latar depan. Lensa 85 mm, kedalaman bidang dangkal, warna amber yang kaya, detail ultra-tinggi.

Agen

Buat dan konfigurasikan agen AI dengan alat kustom

→

Server MCP

Bawa alat Anda sendiri melalui Model Context Protocol

→

Alat Gambar Gemini

Panduan pengaturan terperinci untuk pembuatan gambar Google Gemini

→

Pembuatan & Penyuntingan Gambar

Agen

Server MCP

Alat Gambar Gemini

Di halaman ini