Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Prześlij pliki jako tekst

Upuść dowolny plik w czacie, a LibreChat go odczyta — bez konieczności konfiguracji.

Przesyłaj pliki jako tekst

Czy kiedykolwiek chciałeś przekazać plik PDF, plik z kodem lub arkusz kalkulacyjny do AI i po prostu powiedzieć "przeczytaj to"? Dokładnie to robi funkcja Upload as Text.

Załączasz plik, LibreChat wyodrębnia z niego tekst, a pełna zawartość zostaje wklejona bezpośrednio do Twojej konwersacji. AI może następnie przeczytać każde słowo — bez wtyczek, bez baz danych wektorowych, bez dodatkowych usług do skonfigurowania. Działa to od razu po uruchomieniu.

Nie wymaga konfiguracji

Upload as Text działa natychmiast na każdej instancji LibreChat. Wykorzystuje wbudowane parsowanie tekstu — nie potrzebujesz OCR, potoku RAG ani żadnej zewnętrznej usługi, aby rozpocząć.


Jak tego używać

Kliknij ikonę załącznika

W pasku wprowadzania czatu kliknij ikonę spinacza (📎).

Wybierz "Upload as Text"

Z menu rozwijanego wybierz Upload as Text. Informuje to LibreChat, aby odczytał zawartość pliku zamiast przesyłać go jako zwykły załącznik.

Wybierz swój plik

Wybierz plik ze swojego urządzenia. LibreChat wyodrębni tekst i osadzi go bezpośrednio w Twojej wiadomości.

Zadaj swoje pytanie

Wpisz swój prompt jak zwykle. AI ma teraz pełny tekst Twojego pliku w kontekście i może odwołać się do dowolnej jego części.

Nie widzisz tej opcji?

Jeśli „Upload as Text” się nie pojawia, funkcja context mogła zostać wyłączona przez administratora. Jest ona domyślnie włączona, ale jeśli lista możliwości została dostosowana, context musi zostać wyraźnie uwzględniony. Zobacz sekcję konfiguracji poniżej.


Co dzieje się „pod maską”

Kiedy przesyłasz plik w ten sposób, LibreChat nie tylko wrzuca surowe bajty do promptu. Przechodzi on przez potok przetwarzania w celu wyodrębnienia czystego, czytelnego tekstu:

  1. Wykrywanie typu MIME — LibreChat sprawdza, jaki rodzaj pliku został przesłany (PDF, obraz, audio, kod źródłowy itp.), analizując jego typ MIME.
  2. Wybór metody — W zależności od typu pliku oraz dostępnych usług, wybiera najlepszą metodę ekstrakcji, stosując następujący priorytet:
PriorytetMetodaKiedy jest używana
1.OCRPlik jest obrazem lub zeskanowanym dokumentem oraz skonfigurowano OCR
2.STT (Speech-to-Text)Plik jest nagraniem audio oraz skonfigurowano STT
3.Analiza tekstuPlik pasuje do znanego typu MIME tekstu
4.FallbackŻaden z powyższych warunków nie został spełniony — mimo to próbuje analizy tekstu

Plik .pdf na instancji z skonfigurowanym OCR: → OCR uruchamia się. Świetne rozwiązanie dla zeskanowanych dokumentów i złożonych układów.

Plik .pdf w domyślnej instancji (bez OCR): → Obsługiwane przez parsowanie tekstu. Działa dobrze w przypadku plików PDF utworzonych cyfrowo.

Plik Python .py: → Bezpośrednio do parsowania tekstu. Kod źródłowy jest już tekstem — nie jest wymagana żadna konwersja.

Plik .mp3 w instancji ze skonfigurowanym STT: → Speech-to-Text transkrybuje go na tekst w ramach konwersacji.

Zrzut ekranu .png bez skonfigurowanego OCR: → Powraca do parsowania tekstu (ograniczone wyniki — rozważ skonfigurowanie OCR dla obrazów).

  1. Obcinanie tokenów — Wyodrębniony tekst jest przycinany do wartości fileTokenLimit (domyślnie: 100 000 tokenów), aby nie przekroczyć okna kontekstowego modelu.
  2. Wstrzyknięcie promptu (Prompt injection) — Tekst zostaje dołączony do kontekstu konwersacji, bezpośrednio obok Twojej wiadomości.

Jakie pliki są obsługiwane

Są one parsowane bezpośrednio — są już tekstem, więc konwersja nie jest wymagana.

  • Zwykły tekst (.txt), Markdown (.md), CSV, JSON, XML, HTML, CSS
  • Języki programowania — Python, JavaScript, TypeScript, Java, C#, PHP, Ruby, Go, Rust, Kotlin, Swift, Scala, Perl, Lua
  • Pliki konfiguracyjne — YAML, TOML, INI
  • Skrypty powłoki, pliki SQL

Analiza tekstu obsługuje to automatycznie. Jeśli skonfigurowano OCR, przejmuje on to zadanie, zapewniając lepszą dokładność w przypadku złożonych układów.

  • PDF — cyfrowe i skanowane (skanowane pliki PDF korzystają z OCR)
  • Word.docx, .doc
  • PowerPoint.pptx, .ppt
  • Excel.xlsx, .xls
  • Książki EPUB

Obrazy wymagają OCR, aby wygenerować użyteczny tekst. Bez tego wyniki będą słabej jakości.

  • JPEG, PNG, GIF, WebP
  • HEIC, HEIF (formaty Apple)
  • Zrzuty ekranu, zdjęcia dokumentów, zeskanowane strony

Pliki audio wymagają skonfigurowanego STT. Nie ma mechanizmu zastępczego — audio nie może być „przetworzone jako tekst”.

  • MP3, WAV, OGG, FLAC
  • M4A, WebM
  • Nagrania głosowe, fragmenty podcastów

Przesyłanie jako tekst a inne opcje przesyłania

LibreChat oferuje trzy sposoby przesyłania plików. Każdy z nich działa inaczej i sprawdza się w różnych sytuacjach:

Szybki przewodnik decyzyjny:

SytuacjaNajlepsza opcja
"Przeczytaj tę 5-stronicową umowę i podsumuj ją"Prześlij jako tekst
"Mam 50 plików PDF, znajdź wzmianki o cenach"Wyszukiwanie w plikach (RAG)
"Co jest na tym zrzucie ekranu?" (model wizyjny)Standardowe przesyłanie
"Uruchom ten skrypt w Pythonie" (interpreter kodu)Standardowe przesyłanie
"Sprawdź ten plik z kodem pod kątem błędów"Prześlij jako tekst
"Przeszukaj nasze dokumenty firmowe"Wyszukiwanie w plikach (RAG)

Możliwość context

Pod maską, funkcja Upload as Text jest obsługiwana przez możliwość context. To ona decyduje o tym, czy funkcja ta pojawi się w interfejsie czatu.

Funkcja context jest domyślnie włączona. Musisz się nią zająć tylko wtedy, gdy administrator dostosował listę funkcji i przypadkowo ją pominął.

librechat.yaml
endpoints:
  agents:
    capabilities:
      - "context"  # This is what enables "Upload as Text"

Ta sama funkcja context obsługuje również Agent File Context (przesyłanie plików przez Kreator Agentów w celu osadzenia tekstu w instrukcjach systemowych agenta). Różnica polega na tym, gdzie trafia tekst:

Prześlij jako tekstKontekst pliku agenta
GdzieDane wejściowe czatu (dowolna konwersacja)Panel kreatora agenta
ZakresTylko bieżąca konwersacjaUtrzymuje się w instrukcjach agenta
Przypadek użyciaJednorazowe pytania dotyczące dokumentówTworzenie wyspecjalizowanych agentów z wbudowaną wiedzą

Limity tokenów i obcinanie (truncation)

Gdy plik jest zbyt długi, aby zmieścić się w oknie kontekstowym modelu, LibreChat przycina wyodrębniony tekst, aby zachować go w wyznaczonych granicach. Dzieje się to automatycznie — nie musisz się o to martwić, ale warto wiedzieć, jak to działa.

librechat.yaml
fileConfig:
  fileTokenLimit: 100000  # Default: 100,000 tokens

Ucięcie oznacza utratę zawartości

Jeśli Twój plik przekracza limit, tekst zostanie ucięty na końcu. Jeśli otrzymujesz niekompletne odpowiedzi, może to być powód. Możesz zwiększyć fileTokenLimit, ale pamiętaj, że większe wartości zużywają więcej tokenów na wiadomość — co zwiększa koszt i może spowodować przekroczenie limitu kontekstu samego modelu.

Zasady praktyczne:

  • 100 tys. tokenów ≈ 300-stronicowa książka (wystarczająco dla większości zastosowań)
  • Jeśli pracujesz z bardzo dużymi plikami, rozważ użycie File Search (RAG) — pobiera ono tylko odpowiednie sekcje zamiast umieszczać wszystko w kontekście.

Opcjonalnie: zwiększanie skuteczności ekstrakcji za pomocą OCR

Analiza tekstu działa poprawnie w przypadku dokumentów utworzonych cyfrowo (pliki PDF zapisane z programu Word, pliki z kodem, zwykły tekst). Jeśli jednak przesyłasz zeskanowane dokumenty, zdjęcia stron lub obrazy z tekstem, wbudowany parser nie zapewni zadowalających rezultatów.

W tym miejscu z pomocą przychodzi OCR. Po skonfigurowaniu, LibreChat automatycznie używa OCR dla typów plików, które na tym korzystają — jako użytkownik nie musisz robić niczego inaczej.


Dokumentacja konfiguracji obsługi plików

Ta sekcja jest przeznaczona dla administratorów, którzy chcą kontrolować, które typy plików są przetwarzane za pomocą jakiej metody. Ustawienia domyślne działają dobrze — należy je zmieniać tylko wtedy, gdy chcesz dostosować zachowanie systemu.


Rozwiązywanie problemów


Jaka jest ta instrukcja?