• Các nhà nghiên cứu từ MIT đã phát triển một khung đánh giá mới cho các mô hình ngôn ngữ lớn (LLM), tập trung vào sự phù hợp giữa LLM và niềm tin của con người về khả năng của chúng.
• Nghiên cứu giới thiệu "hàm tổng quát hóa của con người" - một mô hình về cách con người cập nhật niềm tin về khả năng của LLM sau khi tương tác với nó.
• Kết quả cho thấy khi LLM không phù hợp với hàm tổng quát hóa của con người, người dùng có thể quá tự tin hoặc thiếu tự tin về việc triển khai nó, dẫn đến thất bại không mong muốn.
• Các mô hình có khả năng cao hơn thường hoạt động kém hơn các mô hình nhỏ hơn trong các tình huống quan trọng do sự không phù hợp này.
• Nghiên cứu bao gồm một cuộc khảo sát với gần 19.000 ví dụ về cách con người tổng quát hóa hiệu suất của LLM trên 79 nhiệm vụ đa dạng.
• Kết quả cho thấy con người khá giỏi trong việc dự đoán liệu một người khác có trả lời đúng câu hỏi liên quan hay không, nhưng kém hơn nhiều khi tổng quát hóa về hiệu suất của LLM.
• Người tham gia có xu hướng cập nhật niềm tin về LLM nhiều hơn khi nó trả lời sai so với khi trả lời đúng.
• Họ cũng có xu hướng tin rằng hiệu suất của LLM trên các câu hỏi đơn giản ít ảnh hưởng đến hiệu suất trên các câu hỏi phức tạp hơn.
• Trong các tình huống mà người dùng đặt nhiều trọng số hơn vào các phản hồi không chính xác, các mô hình đơn giản hơn vượt trội so với các mô hình rất lớn như GPT-4.
• Một lý do có thể giải thích tại sao con người kém hơn trong việc tổng quát hóa cho LLM là do tính mới lạ của chúng - con người có ít kinh nghiệm tương tác với LLM hơn so với tương tác với người khác.
• Các nhà nghiên cứu hy vọng bộ dữ liệu của họ có thể được sử dụng làm chuẩn để so sánh hiệu suất của LLM liên quan đến hàm tổng quát hóa của con người.
• Nghiên cứu nhấn mạnh tầm quan trọng của việc tính đến hàm tổng quát hóa của con người trong quá trình phát triển và cập nhật LLM với phản hồi của con người.
📌 Nghiên cứu của MIT cho thấy niềm tin của con người về LLM ảnh hưởng đáng kể đến hiệu suất và triển khai. Khảo sát với 19.000 ví dụ trên 79 nhiệm vụ chỉ ra sự khác biệt giữa cách con người và LLM tổng quát hóa kiến thức, nhấn mạnh tầm quan trọng của việc điều chỉnh LLM phù hợp với kỳ vọng của người dùng.
https://news.mit.edu/2024/large-language-models-dont-behave-like-people-0723
#MIT