Nghiên cứu từ Bloomberg công bố ngày 28/04/2025 cho thấy Retrieval Augmented Generation (RAG) có thể làm cho LLMs kém an toàn hơn, trái ngược với niềm tin phổ biến trước đó.
Trong báo cáo “RAG LLMs are Not Safer”, nhóm nghiên cứu đã đánh giá 11 LLMs phổ biến như Claude-3.5-Sonnet, Llama-3-8B và GPT-4o, cho thấy tỷ lệ phản hồi không an toàn tăng mạnh khi áp dụng RAG.
Ví dụ, tỷ lệ phản hồi không an toàn của Llama-3-8B tăng từ 0,3% lên 9,2% khi sử dụng RAG.
Nguyên nhân chính được cho là do các mô hình hiện nay chưa được đào tạo đầy đủ về an toàn với các đầu vào văn bản dài hoặc khi được cung cấp thêm ngữ cảnh từ RAG.
RAG có thể vô tình vượt qua các hệ thống bảo vệ tích hợp trong LLMs, ngay cả khi tài liệu truy xuất thêm hoàn toàn an toàn.
Amanda Stent, Trưởng bộ phận Chiến lược và Nghiên cứu AI của Bloomberg, nhấn mạnh rằng RAG có rủi ro cố hữu, cần phải có kiểm tra nghiệp vụ và xác thực thực tế bổ sung.
Bloomberg cũng công bố một nghiên cứu thứ hai về taxonomy rủi ro nội dung AI dành riêng cho lĩnh vực tài chính, nhằm xử lý những mối lo ngại mà các hệ thống bảo vệ AI chung không phát hiện được.
Qua thử nghiệm các hệ thống bảo vệ nguồn mở như Llama Guard, AEGIS, ShieldGemma, nghiên cứu cho thấy các hệ thống này bỏ sót nhiều rủi ro đặc thù ngành tài chính.
Bloomberg đề xuất doanh nghiệp cần xây dựng các taxonomy rủi ro riêng biệt cho từng ngành thay vì chỉ dựa vào mô hình bảo vệ chung chung.
Công ty cũng nhấn mạnh cam kết minh bạch trong AI, đảm bảo mọi dữ liệu đầu ra đều có thể truy ngược về nguồn gốc.
📌 Nghiên cứu từ Bloomberg cho thấy việc sử dụng RAG làm tăng tỷ lệ phản hồi không an toàn của LLMs, ví dụ như Llama-3-8B tăng từ 0,3% lên 9,2%. RAG có thể vượt qua các hệ thống bảo vệ tích hợp, buộc các doanh nghiệp phải thiết kế lại kiến trúc an toàn AI, đồng thời xây dựng các taxonomy rủi ro chuyên biệt theo từng ngành để ứng phó hiệu quả.
https://venturebeat.com/ai/does-rag-make-llms-less-safe-bloomberg-research-reveals-hidden-dangers/