AI benchmark 2024-06-11 23:45:07

Bộ dữ liệu CRAG: thúc đẩy nghiên cứu trả lời câu hỏi đáng tin cậy với phương pháp RAG

- Các mô hình ngôn ngữ lớn (LLMs) đã cách mạng hóa xử lý ngôn ngữ tự nhiên (NLP), đặc biệt trong lĩnh vực trả lời câu hỏi (QA). Tuy nhiên, vấn đề hallucination (sinh ra câu trả lời không chính xác hoặc không có căn cứ) vẫn là một trở ngại lớn.
- Phương pháp tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) được coi là một hướng tiếp cận triển vọng để giải quyết những hạn chế về kiến thức của LLMs. Tuy nhiên, RAG cũng đối mặt với nhiều thách thức như lựa chọn thông tin liên quan, giảm độ trễ và tổng hợp thông tin cho các truy vấn phức tạp.
- Các nhà nghiên cứu đề xuất bộ dữ liệu CRAG nhằm kết hợp 5 tính năng quan trọng: tính thực tế, tính phong phú, tính sâu sắc, tính đáng tin cậy và tính bền vững. Bộ dữ liệu chứa 4.409 cặp câu hỏi-câu trả lời đa dạng từ 5 lĩnh vực, bao gồm các câu hỏi đơn giản dựa trên sự kiện và 7 loại câu hỏi phức tạp.
- CRAG cung cấp các API giả lập truy xuất từ các trang web và đồ thị kiến thức giả với 2,6 triệu thực thể, phản ánh nhiễu thực tế. Bộ dữ liệu đưa ra 3 tác vụ để đánh giá khả năng truy xuất web, truy vấn có cấu trúc và tóm tắt của các giải pháp RAG.
- Kết quả cho thấy mô hình GPT-4 chỉ đạt độ chính xác khoảng 34% trên CRAG, trong khi kết hợp RAG cải thiện độ chính xác lên 44%. Tuy nhiên, ngay cả các giải pháp RAG tiên tiến trong ngành cũng chỉ trả lời được 63% câu hỏi mà không bị hallucination.
- CRAG cho thấy mức độ khó phù hợp và cung cấp những hiểu biết sâu sắc từ dữ liệu đa dạng của nó. Các đánh giá cũng nhấn mạnh khoảng cách nghiên cứu để phát triển các hệ thống trả lời câu hỏi hoàn toàn đáng tin cậy.

📌 Bộ dữ liệu CRAG giúp thúc đẩy nghiên cứu về RAG cho các hệ thống trả lời câu hỏi. Qua các đánh giá thực nghiệm chặt chẽ, CRAG chỉ ra những hạn chế của các giải pháp RAG hiện tại và đưa ra những hiểu biết quý giá cho các cải tiến trong tương lai. Bộ dữ liệu sẽ tiếp tục được mở rộng, bao gồm các câu hỏi đa ngôn ngữ, đầu vào đa phương thức, hội thoại nhiều lượt và hơn thế nữa, nhằm đảm bảo CRAG luôn đi đầu trong việc thúc đẩy nghiên cứu RAG.

https://www.marktechpost.com/2024/06/11/advancing-reliable-question-answering-with-the-crag-benchmark/

Không có file đính kèm.

Nguồn tham khảo

133

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Bộ dữ liệu CRAG: thúc đẩy nghiên cứu trả lời câu hỏi đáng tin cậy với phương pháp RAG

Thảo luận

Follow Us

Tin phổ biến

TAG