Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Generowanie obrazów Gemini

Instrukcje konfiguracji i użytkowania generowania obrazów przez Google Gemini

Generowanie obrazów przez Gemini to potężne narzędzie, które integruje modele obrazów Gemini od Google w celu generowania wysokiej jakości obrazów na podstawie tekstu oraz edycji obrazów z uwzględnieniem kontekstu. Obsługuje zarówno prosty interfejs Gemini API, jak i Google Cloud Vertex AI.

Instrukcje konfiguracji

Możesz użyć albo Gemini API (zalecane dla większości użytkowników), albo Vertex AI z kontem serwisowym.

  1. Pobierz swój klucz API z Google AI Studio
  2. Ustaw zmienną środowiskową GEMINI_API_KEY w swoim pliku .env:
GEMINI_API_KEY=your_api_key_here

Opcja 2: Vertex AI (dla użytkowników Enterprise/GCP)

  1. Utwórz konto serwisowe w Google Cloud Console z uprawnieniami Vertex AI
  2. Pobierz plik klucza JSON konta serwisowego
  3. Umieść plik JSON w projekcie (np. api/data/auth.json) lub ustaw ścieżkę:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Gdy nie skonfigurowano GEMINI_API_KEY ani GOOGLE_KEY, narzędzie automatycznie przełącza się na Vertex AI przy użyciu pliku konta serwisowego.

Po skonfigurowaniu danych uwierzytelniających zrestartuj LibreChat i dodaj Gemini Image Tools do listy Tools agenta.

WdrożeniePolecenie
Dockerdocker compose down && docker compose up -d
LokalneZatrzymaj serwer, a następnie ponownie uruchom npm run backend

Opcje konfiguracji

Wybór modelu

Możesz wybrać, którego modelu obrazów Gemini użyć, za pomocą zmiennej środowiskowej:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Dostępne modele

ModelOpis
gemini-2.5-flash-imageDomyślny model, szybki i wydajny
gemini-3-pro-image-previewWyższa jakość, bardziej szczegółowe generacje

Funkcje

Główne możliwości

  • Generowanie obrazów z tekstu: Tworzenie obrazów na podstawie szczegółowych opisów tekstowych
  • Obsługa kontekstu obrazu: Wykorzystuj istniejące obrazy jako kontekst/inspirację dla nowych generacji
  • Edycja obrazów: Generowanie nowych obrazów na podstawie modyfikacji istniejących
  • Filtrowanie bezpieczeństwa: Wbudowane zabezpieczenia treści z przyjaznymi dla użytkownika komunikatami o błędach

Parametry

Narzędzie Gemini Image Gen akceptuje następujące parametry:

  • prompt (wymagane) – Szczegółowy opis tekstowy pożądanego obrazu, do 32 000 znaków
  • image_ids (opcjonalne) – Tablica identyfikatorów obrazów, które mają zostać użyte jako kontekst wizualny dla generowania

Najlepsze praktyki

Pisanie promptów

  1. Bądź konkretny i szczegółowy w swoich opisach
  2. Zacznij od typu obrazu: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render itp.
  3. Uwzględnij kluczowe elementy:
    • Tematyka i kompozycja
    • Styl i podejście artystyczne
    • Oświetlenie i atmosfera
    • Preferencje palety kolorów
    • Specyfikacje techniczne

Wskazówki dotyczące edycji obrazów

Podczas edycji istniejących obrazów:

  1. Dołącz oryginalny identyfikator obrazu w tablicy image_ids
  2. Użyj bezpośrednich instrukcji edycji:
    • Usuń tło z tego obrazu
    • Dodaj okulary przeciwsłoneczne do osoby na tym obrazie
    • Zmień kolor samochodu na czerwony
  3. Nie rekonstruuj oryginalnego promptu – używaj prostych, bezpośrednich instrukcji modyfikacji

Przykłady użycia

Podstawowe generowanie obrazów

Spokojny japoński ogród o złotej godzinie, z tradycyjnym czerwonym mostkiem nad stawem z karpiami koi. Drzewa wiśni otaczają scenę, a w powietrzu unoszą się opadające delikatne różowe płatki. Styl fotorealistyczny z ciepłym, rozproszonym oświetleniem i nasyconymi kolorami.

Obraz z kontekstem

Gdy masz już istniejący obraz i chcesz stworzyć coś, co jest nim inspirowane:

  1. Odnieś się do identyfikatora obrazu w parametrze image_ids
  2. Opisz, czego oczekujesz: "Stwórz zimową wersję tej scenerii z ośnieżonymi drzewami i zamarzniętym jeziorem"

Edycja obrazów

Aby zmodyfikować istniejący obraz:

  1. Uwzględnij identyfikator obrazu w image_ids
  2. Opisz zmianę: "Usuń osobę z tła tego obrazu"

Obsługa błędów

Typowe problemy

BłądRozwiązanie
"Image blocked by content safety filters"Zmodyfikuj swój prompt, aby uniknąć treści naruszających zasady bezpieczeństwa
"No image was generated"Spróbuj użyć innego promptu lub uprość swoje żądanie
"GEMINI_API_KEY or service account required"Upewnij się, że skonfigurowałeś klucz API lub poświadczenia Vertex AI

Filtrowanie bezpieczeństwa

Gemini zawiera wbudowane filtry bezpieczeństwa. Jeśli Twój obraz został zablokowany:

  • Sprawdź swój prompt pod kątem potencjalnie problematycznych treści
  • Spróbuj przeformułować zapytanie, aby było bardziej precyzyjne pod kątem intencji artystycznej
  • Unikaj żądań dotyczących treści szkodliwych, brutalnych lub obscenicznych

Szczegóły techniczne

Integracja z pamięcią masową

Wygenerowane obrazy są automatycznie zapisywane przy użyciu skonfigurowanej strategii plików (local, S3, Azure lub Firebase). Jest to obsługiwane przez framework — narzędzie zwraca dane obrazu, a system wywołań zwrotnych agenta utrwala je jako załącznik do wiadomości.

Format obrazu

  • Domyślny format wyjściowy to PNG, konfigurowalny za pomocą ustawienia imageOutputType w aplikacji
  • Obrazy zawierają unikalne identyfikatory do wykorzystania w kolejnych żądaniach

Limity szybkości (Rate Limits)

Limity szybkości zależą od Twojego poziomu API:

  • Gemini API: Sprawdź Google AI Studio, aby poznać aktualne limity
  • Vertex AI: W oparciu o limity Twojego projektu Google Cloud

Jaka jest ta instrukcja?