Apple giới thiệu MMAU - tiêu chuẩn đánh giá mới cho các mô hình ngôn ngữ lớn trên nhiều lĩnh vực

• Apple vừa công bố tiêu chuẩn đánh giá mới có tên Massive Multitask Agent Understanding (MMAU) nhằm đánh giá khả năng của các mô hình ngôn ngữ lớn (LLM) trên nhiều lĩnh vực khác nhau.

MMAU đánh giá 5 khả năng chính của LLM: hiểu, lập luận, lập kế hoạch, giải quyết vấn đề và tự sửa lỗi. Nó bao gồm 5 lĩnh vực: sử dụng công cụ, trả lời câu hỏi đồ thị có hướng không chu trình, lập trình khoa học dữ liệu và học máy, lập trình cấp độ cuộc thi, và toán học.

• Tiêu chuẩn này gồm 20 bài kiểm tra được thiết kế cẩn thận với hơn 3.000 câu hỏi riêng biệt, cung cấp đánh giá chi tiết hơn về khả năng của LLM so với các tiêu chuẩn hiện có.

• Mục tiêu của MMAU là cung cấp cái nhìn sâu sắc về nguồn gốc của các lỗi mô hình bằng cách cô lập và kiểm tra các kỹ năng cụ thể.

Kết quả đánh giá 18 mô hình trên MMAU cho thấy các mô hình thương mại như GPT-4 liên tục vượt trội hơn các mô hình nguồn mở trên nhiều lĩnh vực khác nhau.

• Các mô hình thể hiện mức độ thành thạo khác nhau ở các khả năng khác nhau - giải quyết vấn đề dễ đạt được hơn, trong khi tự sửa lỗi gây ra thách thức đáng kể cho nhiều mô hình.

• Lập kế hoạch chất lượng cao cũng giúp cải thiện hiệu suất của tất cả các mô hình trong các bài toán toán học.

Điều thú vị là các mô hình lớn hơn không phải lúc nào cũng hoạt động tốt hơn, nhấn mạnh tầm quan trọng của chiến lược đào tạo và kiến trúc mô hình.

• Các nhà nghiên cứu nhấn mạnh rằng MMAU được thiết kế để bổ sung, không thay thế các đánh giá tương tác hiện có. Họ thừa nhận những hạn chế trong phạm vi hiện tại và kêu gọi nghiên cứu trong tương lai để mở rộng sang nhiều lĩnh vực hơn và tinh chỉnh các phương pháp phân tích khả năng.

• Bằng cách cung cấp một khung đánh giá toàn diện và chi tiết, MMAU nhằm thúc đẩy tiến bộ trong việc phát triển các tác nhân AI có khả năng và toàn diện hơn.

• Các bộ dữ liệu và tập lệnh đánh giá đã được công bố công khai để tạo điều kiện cho nghiên cứu sâu hơn trong lĩnh vực này.

• Gần đây, Apple cũng giới thiệu LazyLLM, một kỹ thuật mới nhằm cải thiện hiệu quả suy luận của mô hình ngôn ngữ lớn. Phương pháp này tìm cách tăng tốc quá trình tạo phản hồi trong các mô hình ngôn ngữ dựa trên transformer trong khi vẫn duy trì độ chính xác.

📌 Apple ra mắt MMAU - tiêu chuẩn đánh giá mới cho LLM với 20 bài kiểm tra và 3.000+ câu hỏi. GPT-4 vượt trội hơn mô hình nguồn mở. MMAU đánh giá 5 khả năng chính trên 5 lĩnh vực, nhằm xác định nguồn gốc lỗi mô hình và thúc đẩy phát triển AI toàn diện hơn.

https://analyticsindiamag.com/ai-news-updates/apple-unveils-mmau-a-new-benchmark-for-evaluating-language-model-agents-across-diverse-domains/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo