AI benchmark 2024-07-08 11:39:20

Nghiên cứu cảnh báo các bài kiểm tra đánh giá AI agents đang cho kết quả sai lệch

- Các nhà nghiên cứu tại Đại học Princeton chỉ ra nhiều điểm hạn chế trong các bài kiểm tra và phương pháp đánh giá tác tử AI hiện nay, gây cản trở khả năng ứng dụng thực tế của chúng.
- Một vấn đề lớn là thiếu kiểm soát chi phí trong đánh giá tác tử. Để tăng độ chính xác, một số hệ thống tạo ra hàng trăm hoặc hàng nghìn phản hồi, dẫn đến chi phí tính toán rất lớn.
- Nghiên cứu cho thấy với độ chính xác tương tự, chi phí có thể chênh lệch gần 2 bậc. Tuy nhiên, chi phí chạy tác tử không phải là chỉ số được báo cáo hàng đầu.
- Các nhà nghiên cứu đề xuất trực quan hóa kết quả đánh giá dưới dạng đường cong Pareto về độ chính xác và chi phí suy luận, đồng thời sử dụng các kỹ thuật tối ưu hóa đồng thời cho cả hai chỉ số này.
- Một vấn đề khác là sự khác biệt giữa đánh giá mô hình cho mục đích nghiên cứu và phát triển ứng dụng. Trong nghiên cứu, độ chính xác thường là trọng tâm chính, trong khi chi phí suy luận đóng vai trò quan trọng khi triển khai ứng dụng thực tế.
- Đánh giá chi phí suy luận cho tác tử AI là một thách thức. Các nhà cung cấp mô hình khác nhau có thể tính phí khác nhau cho cùng một mô hình. Chi phí gọi API thay đổi thường xuyên.
- Nghiên cứu cho thấy các bài kiểm tra dành cho đánh giá mô hình có thể gây hiểu lầm khi được sử dụng để đánh giá ứng dụng. Ví dụ, nghiên cứu NovelQA ban đầu khiến RAG trông tệ hơn nhiều so với các mô hình ngữ cảnh dài trong khi thực tế chúng có độ chính xác tương đương.
- Overfitting (quá khớp) là một vấn đề nghiêm trọng đối với các bài kiểm tra tác tử AI, vì chúng có xu hướng nhỏ, thường chỉ bao gồm vài trăm mẫu. Các nhà nghiên cứu đề xuất tạo và giữ bí mật các bộ kiểm tra holdout.
- Phân tích 17 bài kiểm tra cho thấy nhiều bài thiếu bộ dữ liệu holdout thích hợp, cho phép các tác tử đi tắt, thậm chí vô tình. Các lỗi này làm tăng ước tính độ chính xác và dẫn đến sự lạc quan thái quá về khả năng của tác tử.

📌 Nghiên cứu của Đại học Princeton chỉ ra nhiều vấn đề trong cách đánh giá tác tử AI hiện nay như thiếu kiểm soát chi phí, khác biệt giữa nghiên cứu và ứng dụng thực tế, khó khăn trong ước tính chi phí suy luận, và vấn đề overfitting. Các phát hiện này nhấn mạnh sự cần thiết phải xây dựng lại các phương pháp đánh giá tác tử AI để phản ánh đúng tiềm năng ứng dụng thực tế của chúng.

https://venturebeat.com/ai/ai-agent-benchmarks-are-misleading-study-warns/

Không có file đính kèm.

Nguồn tham khảo

119

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Nghiên cứu cảnh báo các bài kiểm tra đánh giá AI agents đang cho kết quả sai lệch

Thảo luận

Follow Us

Tin phổ biến

TAG