Multimodal RAG
Một index cho cả text, ảnh và bảng.
Khi nào dùng
Khi tri thức nằm trong ẢNH/BIỂU ĐỒ/BẢNG/PDF scan/slide/khung video (báo cáo tài chính, sơ đồ kỹ thuật, hoá đơn, ảnh sản phẩm) mà OCR-ra-text làm mất bố cục và ý nghĩa hình ảnh. ❌ Không cần nếu tài liệu vốn là text sạch: pipeline text rẻ hơn và chính xác hơn.
Ví dụ thực tế
- Q&A trên báo cáo tài chính: hỏi con số nằm trong biểu đồ/bảng chứ không phải trong đoạn văn.
- Tra cứu slide thuyết trình nội bộ: nội dung là hình, sơ đồ, ít chữ.
- Xử lý hoá đơn/chứng từ scan: bóc thông tin từ ảnh giữ đúng bố cục.
- Hỏi đáp trên catalog sản phẩm có ảnh, hoặc đọc sơ đồ kỹ thuật/bản vẽ.
Sơ đồ
Sơ đồ minh hoạ luồng xử lý; xem mô tả từng bước ở mục Luồng hoạt động bên dưới.Luồng hoạt động
- 1Nguồn đa dạng: Text Chunks · Images/Charts · Tables
- 2Shared Multimodal Embedding Model (vd CLIP / ColPali)
- 3Unified Vector Index (một index chung)
- 4Retrieval
- 5Multimodal LLM (vision + text) → Answer
Hiểu nôm na
Như một đồng nghiệp có thể THẬT SỰ NHÌN biểu đồ và tấm ảnh, thay vì chỉ đọc dòng chú thích "đây là biểu đồ doanh số". Nhờ nhìn được, họ đọc đúng con số trên từng cột, hiểu sơ đồ kỹ thuật, và trả lời chính xác — thứ mà RAG text thuần (chỉ đọc chữ) bỏ lỡ.
Khái niệm A–Z
Rất nhiều tri thức KHÔNG phải text: biểu đồ trong báo cáo, sơ đồ kiến trúc, bảng số liệu, PDF scan, hoá đơn. RAG text thuần bỏ sót hết. Multimodal RAG nhúng MỌI loại nội dung vào CÙNG một không gian vector bằng một embedding model đa phương thức (CLIP cho ảnh-text; ColPali/ColQwen nhúng thẳng ẢNH TRANG tài liệu, bỏ qua OCR), lưu trong một Unified Vector Index. Khi truy vấn (bằng text), hệ thống lấy về cả đoạn text lẫn ảnh/bảng liên quan, rồi đưa cho một Multimodal LLM (GPT-4o, Gemini, Claude vision) "nhìn" để trả lời. Hai hướng chính: (A) chuyển mọi thứ về text (caption ảnh, parse bảng) rồi RAG bình thường; (B) embed trực tiếp ảnh (ColPali) — chính xác hơn cho tài liệu giàu hình.
Cách hoạt động
Hai chiến lược nhúng
Chọn theo độ "giàu hình" của tài liệu và ngân sách.
- A — Translate-to-text: dùng vision LLM caption ảnh/biểu đồ, parse bảng thành markdown, rồi RAG text bình thường. Đơn giản, rẻ, nhưng MẤT chi tiết hình.
- B — Embed ảnh trực tiếp: ColPali/ColQwen nhúng ảnh trang (multi-vector, late interaction) → giữ trọn layout/biểu đồ, bỏ qua OCR. Chính xác cao cho PDF/slide phức tạp.
- Thực tế hay HYBRID: text → embed text; trang giàu hình → embed ảnh; gộp trong unified index.
Truy xuất + sinh đáp án
Truy vấn text, lấy về hỗn hợp text+ảnh, rồi để vision LLM đọc.
- Một query text được embed cùng không gian → lấy được cả chunk text lẫn ảnh trang.
- Đưa ảnh THẬT (không phải caption) vào Multimodal LLM để nó "nhìn" biểu đồ/bảng và suy luận.
- Trích dẫn: trả về cả trang/ảnh nguồn để người dùng kiểm chứng số liệu trong biểu đồ.
Nội dung chuyên sâu 5 mô hình RAG
Mở khoá phần Thực hành (code), Mẹo thực chiến, Lưu ý bảo mật, Áp dụng dự án thật, Lỗi thường gặp và Thuật ngữ — dành cho gói Senior trở lên.
Cần đăng nhập + gói Senior trở lên
Đã có tài khoản gói phù hợp? Đăng nhập để mở khoá ngay.
Kiến trúc liên quan
Luyện phỏng vấn AI/RAG thực chiến
Hàng nghìn câu hỏi phỏng vấn IT + lộ trình — học nhanh, đi làm sớm.
Bắt đầu luyện