AI benchmark 2024-07-08 11:21:08

SummHay - Bài kiểm tra mới của Salesforce AI Research đánh giá khả năng tóm tắt văn bản dài của LLM và hệ thống RAG

- Salesforce AI Research giới thiệu phương pháp đánh giá mới gọi là "Summary of a Haystack" (SummHay) nhằm đánh giá hiệu quả hơn các mô hình ngữ cảnh dài và hệ thống RAG.
- Các nhà nghiên cứu tạo ra các tập hợp tài liệu tổng hợp (Haystacks), đảm bảo các thông tin cụ thể được lặp lại trong các tài liệu này. Mỗi Haystack thường chứa khoảng 100 tài liệu, tổng cộng khoảng 100.000 token.
- Nhiệm vụ SummHay yêu cầu các hệ thống xử lý Haystacks, tạo bản tóm tắt bao quát chính xác các thông tin liên quan và trích dẫn các tài liệu nguồn.
- Quy trình đánh giá đo lường bản tóm tắt trên hai khía cạnh chính: độ bao phủ của các thông tin mong đợi và chất lượng trích dẫn.
- Nhóm nghiên cứu tiến hành đánh giá quy mô lớn trên 10 LLM và 50 hệ thống RAG. Kết quả cho thấy nhiệm vụ SummHay vẫn là một thách thức đáng kể đối với các hệ thống hiện tại.
- Các LLM ngữ cảnh dài như GPT-4o và Claude 3 Opus đạt điểm dưới 20% trên SummHay khi không có bộ truy xuất. Nghiên cứu cũng chỉ ra sự đánh đổi giữa các hệ thống RAG và mô hình ngữ cảnh dài.
- Khi sử dụng thành phần RAG tiên tiến như Cohere's Rerank3, hiệu suất từ đầu đến cuối trên nhiệm vụ SummHay cho thấy cải thiện đáng kể. Tuy nhiên, các mô hình như Claude 3 Opus và GPT-4o chỉ đạt điểm tổng hợp khoảng 36%, thấp hơn đáng kể so với hiệu suất của con người ước tính là 56%.

📌 Nghiên cứu của Salesforce AI Research giải quyết khoảng trống quan trọng trong việc đánh giá LLM và hệ thống RAG ngữ cảnh dài. Bài kiểm tra SummHay cung cấp một khuôn khổ vững chắc để đánh giá khả năng của các hệ thống này. Mặc dù hiệu suất của các hệ thống hiện tại còn thấp hơn so với con người, nghiên cứu này mở đường cho những phát triển trong tương lai có thể sánh ngang hoặc vượt trội hơn hiệu suất của con người trong tóm tắt ngữ cảnh dài.

https://www.marktechpost.com/2024/07/06/salesforce-ai-research-introduces-summhay-a-robust-ai-benchmark-for-evaluating-long-context-summarization-in-llms-and-rag-systems/

Không có file đính kèm.

Nguồn tham khảo

130

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

SummHay - Bài kiểm tra mới của Salesforce AI Research đánh giá khả năng tóm tắt văn bản dài của LLM và hệ thống RAG

Thảo luận

Follow Us

Tin phổ biến

TAG