- Các mô hình ngôn ngữ lớn (LLMs) đã cách mạng hóa xử lý ngôn ngữ tự nhiên (NLP), đặc biệt trong lĩnh vực trả lời câu hỏi (QA). Tuy nhiên, vấn đề hallucination (sinh ra câu trả lời không chính xác hoặc không có căn cứ) vẫn là một trở ngại lớn.
- Phương pháp tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) được coi là một hướng tiếp cận triển vọng để giải quyết những hạn chế về kiến thức của LLMs. Tuy nhiên, RAG cũng đối mặt với nhiều thách thức như lựa chọn thông tin liên quan, giảm độ trễ và tổng hợp thông tin cho các truy vấn phức tạp.
- Các nhà nghiên cứu đề xuất bộ dữ liệu CRAG nhằm kết hợp 5 tính năng quan trọng: tính thực tế, tính phong phú, tính sâu sắc, tính đáng tin cậy và tính bền vững. Bộ dữ liệu chứa 4.409 cặp câu hỏi-câu trả lời đa dạng từ 5 lĩnh vực, bao gồm các câu hỏi đơn giản dựa trên sự kiện và 7 loại câu hỏi phức tạp.
- CRAG cung cấp các API giả lập truy xuất từ các trang web và đồ thị kiến thức giả với 2,6 triệu thực thể, phản ánh nhiễu thực tế. Bộ dữ liệu đưa ra 3 tác vụ để đánh giá khả năng truy xuất web, truy vấn có cấu trúc và tóm tắt của các giải pháp RAG.
- Kết quả cho thấy mô hình GPT-4 chỉ đạt độ chính xác khoảng 34% trên CRAG, trong khi kết hợp RAG cải thiện độ chính xác lên 44%. Tuy nhiên, ngay cả các giải pháp RAG tiên tiến trong ngành cũng chỉ trả lời được 63% câu hỏi mà không bị hallucination.
- CRAG cho thấy mức độ khó phù hợp và cung cấp những hiểu biết sâu sắc từ dữ liệu đa dạng của nó. Các đánh giá cũng nhấn mạnh khoảng cách nghiên cứu để phát triển các hệ thống trả lời câu hỏi hoàn toàn đáng tin cậy.
📌 Bộ dữ liệu CRAG giúp thúc đẩy nghiên cứu về RAG cho các hệ thống trả lời câu hỏi. Qua các đánh giá thực nghiệm chặt chẽ, CRAG chỉ ra những hạn chế của các giải pháp RAG hiện tại và đưa ra những hiểu biết quý giá cho các cải tiến trong tương lai. Bộ dữ liệu sẽ tiếp tục được mở rộng, bao gồm các câu hỏi đa ngôn ngữ, đầu vào đa phương thức, hội thoại nhiều lượt và hơn thế nữa, nhằm đảm bảo CRAG luôn đi đầu trong việc thúc đẩy nghiên cứu RAG.
https://www.marktechpost.com/2024/06/11/advancing-reliable-question-answering-with-the-crag-benchmark/