AI benchmark 2024-10-07 08:01:48

Compositional GSM: Thước đo mới đánh giá khả năng suy luận đa bước của AI trong giải toán

• Các nhà nghiên cứu từ Mila, Google DeepMind và Microsoft Research đã giới thiệu phương pháp đánh giá mới có tên "Compositional Grade-School Math (GSM)" để kiểm tra khả năng suy luận của mô hình ngôn ngữ lớn (LLM).

• Phương pháp này liên kết hai bài toán riêng biệt, trong đó lời giải của bài toán đầu trở thành biến số trong bài toán thứ hai, đòi hỏi mô hình phải xử lý các phụ thuộc giữa các câu hỏi.

• Đánh giá được thực hiện trên nhiều LLM khác nhau, bao gồm cả mô hình mở như LLAMA3 và mô hình đóng như GPT và Gemini, sử dụng phương pháp gợi ý 8-shot.

• Kết quả cho thấy khoảng cách lớn về khả năng suy luận. Ví dụ, mô hình GPT-4o mini có hiệu suất kém hơn 2-12 lần trên Compositional GSM so với GSM8K tiêu chuẩn.

• Mô hình chuyên biệt về toán học như Qwen2.5-MATH-72B chỉ giải được dưới 60% bài toán Compositional GSM cấp tiểu học, dù đạt trên 80% độ chính xác với câu hỏi cấp trung học.

• LLAMA3-8B và Mistral-7B cho thấy sự sụt giảm mạnh khi phải liên kết câu trả lời giữa các bài toán liên quan, dù đạt điểm cao trên các bài toán riêng lẻ.

• Việc điều chỉnh hướng dẫn cải thiện kết quả cho các mô hình nhỏ hơn trên GSM8K tiêu chuẩn, nhưng chỉ cải thiện nhẹ trên Compositional GSM.

• Tạo mã thay vì sử dụng ngôn ngữ tự nhiên dẫn đến cải thiện 71% đến 149% cho một số mô hình nhỏ hơn trên Compositional GSM.

• Phân tích cho thấy sự sụt giảm hiệu suất không phải do rò rỉ bộ kiểm tra mà do nhiễu loạn bởi ngữ cảnh bổ sung và suy luận kém ở bước thứ hai.

• Mô hình như LLAMA3-70B-IT và Gemini 1.5 Pro thường không áp dụng chính xác lời giải của câu hỏi đầu tiên khi giải câu hỏi thứ hai, dẫn đến câu trả lời cuối cùng không chính xác.

• Khoảng cách suy luận ở bước thứ hai rõ rệt hơn ở các mô hình nhỏ hơn, thường bỏ qua các chi tiết quan trọng khi giải quyết vấn đề phức tạp.

📌 Nghiên cứu cho thấy LLM hiện tại vẫn gặp khó khăn với các tác vụ suy luận phức hợp, dù có hiệu suất cao trên các bài kiểm tra tiêu chuẩn. Cần có chiến lược đào tạo và thiết kế đánh giá mạnh mẽ hơn để nâng cao khả năng suy luận đa bước của các mô hình AI.

https://www.marktechpost.com/2024/10/06/compositional-gsm-a-new-ai-benchmark-for-evaluating-large-language-models-reasoning-capabilities-in-multi-step-problems/

Không có file đính kèm.

Nguồn tham khảo

168

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Compositional GSM: Thước đo mới đánh giá khả năng suy luận đa bước của AI trong giải toán

Thảo luận

Follow Us

Tin phổ biến

TAG