API RAG (Trò chuyện với tệp)

API Retrieval-Augmented Generation (RAG) để lập chỉ mục và truy xuất tài liệu sử dụng Langchain và FastAPI. API này tích hợp với LibreChat để cung cấp các phản hồi có nhận biết ngữ cảnh dựa trên các tệp do người dùng tải lên.

RAG (Retrieval-Augmented Generation) API là một công cụ mạnh mẽ tích hợp với LibreChat để cung cấp các phản hồi có nhận thức về ngữ cảnh dựa trên các tệp tin do người dùng tải lên.

Nó tận dụng LangChain, PostgresQL + PGVector và Python FastAPI để lập chỉ mục và truy xuất các tài liệu liên quan, giúp nâng cao trải nghiệm hội thoại.

Để biết thêm chi tiết, hãy tham khảo hướng dẫn cấu hình được cung cấp tại đây: RAG API Configuration

Hiện tại, tính năng này khả dụng thông qua Agents, cũng như thông qua Custom Endpoints, OpenAI, Azure OpenAI, Anthropic và Google.

OpenAI Assistants có cơ chế triển khai RAG riêng thông qua khả năng "Retrieval". Tìm hiểu thêm về nó tại đây.

Việc triển khai sử dụng RAG API với Assistants API vẫn sẽ rất hữu ích vì OpenAI tính phí cho cả lưu trữ tệp và việc sử dụng "Retrieval", và tính năng này sẽ được giới thiệu trong một bản cập nhật trong tương lai.

Vẫn còn bối rối về RAG? Hãy đọc phần tôi đã viết bên dưới để giải thích chi tiết hơn về khái niệm chung cùng với liên kết đến một video hữu ích.

RAG là gì?

RAG, hay Retrieval-Augmented Generation, là một khung làm việc AI được thiết kế để cải thiện chất lượng và độ chính xác của các phản hồi được tạo ra bởi các mô hình ngôn ngữ lớn (LLM). Nó đạt được điều này bằng cách dựa trên các nguồn kiến thức bên ngoài, bổ sung cho biểu diễn thông tin nội bộ của mô hình.

Các tính năng

Document Indexing: RAG API lập chỉ mục các tệp do người dùng tải lên, tạo các embedding để truy xuất hiệu quả.
Tìm kiếm ngữ nghĩa: Tính năng này thực hiện tìm kiếm ngữ nghĩa trên các tài liệu đã được lập chỉ mục để tìm thông tin phù hợp nhất dựa trên đầu vào của người dùng.
Phản hồi nhận biết ngữ cảnh: Bằng cách tăng cường câu lệnh của người dùng với thông tin được truy xuất, API cho phép LibreChat tạo ra các phản hồi chính xác và phù hợp với ngữ cảnh hơn.
Xử lý bất đồng bộ: API hỗ trợ các thao tác bất đồng bộ để cải thiện hiệu suất và khả năng mở rộng.
Cấu hình linh hoạt: Cho phép tùy chỉnh các tham số khác nhau như kích thước đoạn (chunk size), độ chồng lấp (overlap) và các mô hình nhúng (embedding models).

Các lợi ích chính của RAG

Truy cập vào các thông tin thực tế đáng tin cậy và cập nhật: RAG đảm bảo rằng LLM có quyền truy cập vào thông tin đáng tin cậy và mới nhất bằng cách truy xuất các dữ kiện liên quan từ một cơ sở tri thức bên ngoài.
Tính minh bạch và tin cậy: Người dùng có thể truy cập các nguồn của mô hình, cho phép họ xác minh tính chính xác của các phản hồi được tạo và xây dựng niềm tin vào hệ thống.
Giảm thiểu rò rỉ dữ liệu và hiện tượng ảo giác: Bằng cách dựa trên một tập hợp các dữ liệu thực tế có thể kiểm chứng từ bên ngoài, RAG giúp giảm thiểu khả năng mô hình làm rò rỉ dữ liệu nhạy cảm hoặc tạo ra thông tin không chính xác hoặc gây hiểu lầm.
Giảm chi phí tính toán và tài chính: RAG giảm nhu cầu đào tạo và cập nhật liên tục các tham số của mô hình, từ đó có khả năng giảm chi phí tính toán và tài chính khi vận hành các chatbot hỗ trợ bởi LLM trong môi trường doanh nghiệp.

Cách thức hoạt động của RAG

RAG bao gồm hai giai đoạn chính: truy xuất và tạo nội dung.

Giai đoạn Truy xuất (Retrieval Phase): Các thuật toán tìm kiếm và truy xuất các đoạn thông tin liên quan đến lời nhắc hoặc câu hỏi của người dùng từ một cơ sở tri thức bên ngoài. Trong môi trường mở dành cho người tiêu dùng, các dữ kiện này có thể đến từ các tài liệu được lập chỉ mục trên internet. Trong môi trường doanh nghiệp khép kín, một tập hợp các nguồn hạn chế hơn thường được sử dụng để tăng cường tính bảo mật và độ tin cậy.
Giai đoạn Tạo sinh (Generative Phase): Kiến thức bên ngoài được truy xuất sẽ được thêm vào lời nhắc (prompt) của người dùng và chuyển đến LLM. Sau đó, LLM sẽ dựa trên lời nhắc đã được tăng cường và biểu diễn nội bộ về dữ liệu huấn luyện của chính nó để tổng hợp một câu trả lời phù hợp, hấp dẫn cho người dùng. Câu trả lời này có thể được chuyển đến chatbot kèm theo các liên kết đến nguồn thông tin của nó.

Các thách thức và nghiên cứu đang thực hiện

Mặc dù RAG hiện là một trong những công cụ nổi tiếng nhất để giúp các LLM dựa trên thông tin mới nhất, có thể kiểm chứng và giảm chi phí cho việc đào tạo cũng như cập nhật liên tục, nhưng nó vẫn chưa hoàn hảo. Một số thách thức bao gồm:

Nhận diện các câu hỏi không thể trả lời: Các LLM cần được huấn luyện một cách rõ ràng để nhận diện những câu hỏi mà chúng không thể trả lời dựa trên thông tin có sẵn. Điều này có thể đòi hỏi việc tinh chỉnh (fine-tuning) trên hàng nghìn ví dụ về các câu hỏi có thể trả lời và không thể trả lời.
Cải thiện việc truy xuất và tạo nội dung: Các nghiên cứu đang diễn ra tập trung vào việc đổi mới ở cả hai đầu của quy trình RAG: cải thiện việc truy xuất thông tin phù hợp nhất có thể để cung cấp cho LLM, và tối ưu hóa cấu trúc của thông tin đó để thu được những phản hồi phong phú nhất từ LLM.

Tóm lại, RAG là một khung làm việc mạnh mẽ giúp nâng cao khả năng của các LLM bằng cách dựa trên kiến thức bên ngoài có thể kiểm chứng được. Nó giúp đảm bảo các phản hồi chính xác, cập nhật và đáng tin cậy hơn, đồng thời giảm chi phí liên quan đến việc đào tạo lại mô hình liên tục. Khi nghiên cứu trong lĩnh vực này tiến triển, chúng ta có thể kỳ vọng vào những cải tiến hơn nữa về chất lượng và hiệu quả của các hệ thống AI hội thoại được hỗ trợ bởi LLM.

Để có giải thích chi tiết hơn về RAG, bạn có thể xem video thông tin này của IBM trên Youtube:

Kết luận

RAG API là một bổ sung mạnh mẽ cho LibreChat, cho phép tạo ra các phản hồi có nhận thức về ngữ cảnh dựa trên các tệp do người dùng tải lên. Bằng cách tận dụng Langchain và FastAPI, nó cung cấp các khả năng lập chỉ mục, truy xuất và tạo tài liệu hiệu quả. Với các tùy chọn cấu hình linh hoạt và khả năng tích hợp liền mạch, RAG API nâng cao trải nghiệm hội thoại trong LibreChat.

Để biết thêm thông tin chi tiết về RAG API, bao gồm các endpoint của API, định dạng yêu cầu/phản hồi và cấu hình nâng cao, vui lòng tham khảo tài liệu chính thức của RAG API.