Nghiên cứu mới: ChatGPT và các mô hình ngôn ngữ lớn có nhận thức hợp lý hay không?

- Nghiên cứu mới từ Đại học College London (UCL) sử dụng các bài kiểm tra tâm lý học nhận thức để đánh giá tính hợp lý của các mô hình ngôn ngữ lớn (LLMs) như ChatGPT.
- Các bài kiểm tra này chủ yếu được phát triển từ các nhiệm vụ do Daniel Kahneman và Amos Tversky, hai nhà tiên phong trong lĩnh vực tâm lý học và kinh tế học hành vi, thiết kế.
- Nghiên cứu sử dụng 12 nhiệm vụ nhận thức, trong đó 9 nhiệm vụ do Kahneman và Tversky phát triển, và 3 nhiệm vụ còn lại do Peter C. Wason, David M. Eddy và Daniel Friedman thiết kế.
- Các nhiệm vụ bao gồm bài kiểm tra Wason (thiên kiến xác nhận), bài toán AIDS (sai lầm xác suất nghịch/điều kiện), bài toán bệnh viện (không nhạy cảm với kích thước mẫu), bài toán Monty Hall (sai lầm của người chơi cờ bạc, hiệu ứng sở hữu), bài toán Linda (sai lầm kết hợp), bài toán chuỗi sinh (hiệu ứng đại diện), bài toán trường trung học (hiệu ứng đại diện), và bài toán viên bi (hiểu lầm về cơ hội).
- Các mô hình ngôn ngữ lớn được đánh giá bao gồm GPT-4 và GPT-3.5 của OpenAI, Bard của Google, Claude 2 của Anthropic, và các mô hình Llama 2 của Meta (7B, 13B, 70B).
- GPT-4 của OpenAI đạt hiệu suất cao nhất với 69% câu trả lời đúng và lý luận hợp lý, trong khi Claude 2 của Anthropic đứng thứ hai với 55% câu trả lời đúng.
- Mô hình Llama 2 7B của Meta có hiệu suất kém nhất với 77% câu trả lời sai.
- Nghiên cứu phát hiện rằng các LLMs cũng thể hiện tính phi lý như con người, nhưng cách thể hiện tính phi lý này không giống với con người.
- Các LLMs có tính không nhất quán cao, có thể đưa ra cả câu trả lời đúng và sai, và cả câu trả lời giống con người và không giống con người trong các lần thử khác nhau.
- Phần lớn các câu trả lời sai của LLMs không phải do thiên kiến nhận thức mà do lý luận phi logic hoặc đưa ra lý luận đúng nhưng kết quả cuối cùng sai.
- Nghiên cứu chỉ ra rằng tính phi lý của các LLMs có thể ảnh hưởng đến an toàn trong các lĩnh vực như y học và ngoại giao.
- Phương pháp của nghiên cứu có thể được sử dụng rộng rãi hơn để đánh giá các khả năng nhận thức khác của các mô hình ngôn ngữ lớn trong tương lai.

📌 Nghiên cứu từ UCL cho thấy các mô hình ngôn ngữ lớn như ChatGPT có tính phi lý khác với con người, với GPT-4 đạt 69% câu trả lời đúng. Tính phi lý này có thể ảnh hưởng đến an toàn trong y học và ngoại giao.

https://www.psychologytoday.com/us/blog/the-future-brain/202406/are-ai-models-like-chatgpt-rational

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo