• DeepMind giới thiệu bộ đánh giá Michelangelo nhằm đánh giá khả năng suy luận trên ngữ cảnh dài của các mô hình ngôn ngữ lớn (LLM).
• Các LLM hiện nay có thể xử lý hàng trăm nghìn hoặc thậm chí hàng triệu token trong một lần nhập, mở ra nhiều khả năng mới cho các nhà phát triển.
• Tuy nhiên, các đánh giá hiện tại chủ yếu tập trung vào khả năng truy xuất thông tin, chưa phản ánh đầy đủ khả năng suy luận trên toàn bộ ngữ cảnh.
• Michelangelo dựa trên khung Latent Structure Queries (LSQ), tập trung đánh giá khả năng hiểu cấu trúc và mối quan hệ thông tin trong cửa sổ ngữ cảnh.
• Bộ đánh giá gồm 3 nhiệm vụ chính:
- Latent list: Xử lý chuỗi thao tác dài trên danh sách Python
- Multi-round co-reference resolution (MRCR): Tạo các phần của cuộc hội thoại dài
- "I don't know" (IDK): Trả lời câu hỏi về một câu chuyện dài, nhận biết khi không có thông tin
• LSQ có 3 điểm khác biệt chính so với các phương pháp khác:
- Tránh lỗi đánh giá chỉ dựa trên truy xuất thông tin
- Cho phép tăng độ phức tạp và độ dài ngữ cảnh độc lập
- Đủ tổng quát để đánh giá nhiều loại nhiệm vụ suy luận
• Các nhà nghiên cứu đã đánh giá 10 LLM hàng đầu trên Michelangelo, bao gồm các biến thể của Gemini, GPT-4 và Claude.
• Kết quả cho thấy:
- Gemini thực hiện tốt nhất ở MRCR
- GPT xuất sắc ở Latent List
- Claude 3.5 Sonnet đạt điểm cao nhất ở IDK
• Tuy nhiên, tất cả các mô hình đều giảm hiệu suất đáng kể khi độ phức tạp của nhiệm vụ suy luận tăng lên.
• Trong ứng dụng thực tế, hiệu suất của mô hình có thể giảm khi độ dài ngữ cảnh tăng, đặc biệt khi tài liệu chứa nhiều thông tin không liên quan.
• Nhóm nghiên cứu sẽ tiếp tục bổ sung thêm các đánh giá vào Michelangelo và hy vọng có thể cung cấp trực tiếp cho các nhà nghiên cứu khác để kiểm tra mô hình của họ.
📌 Michelangelo của DeepMind tiết lộ LLM hiện tại vẫn gặp khó khăn với suy luận ngữ cảnh dài. Gemini, GPT và Claude thể hiện điểm mạnh khác nhau trong 3 nhiệm vụ. Hiệu suất giảm khi độ phức tạp tăng, cho thấy cần cải thiện khả năng suy luận trên dữ liệu lớn.
https://venturebeat.com/ai/deepminds-michelangelo-benchmark-reveals-limitations-of-long-context-llms/