Tỷ lệ học sinh sử dụng AI để làm bài đang tăng mạnh, với 86% sinh viên đại học thừa nhận đã dùng AI trong học tập (theo Hội đồng Giáo dục Kỹ thuật số).
Đáp lại, nhiều giáo viên đang dùng AI để chấm điểm. Một số giáo viên còn nói thẳng: “Bạn dùng AI viết bài, tôi dùng AI chấm bài”.
Một nghiên cứu mới của Đại học Georgia (UG) cho thấy hiệu quả của việc chấm điểm bằng AI là rất thấp, đặc biệt khi không có rubric rõ ràng.
Nghiên cứu sử dụng Mixtral – một mô hình ngôn ngữ lớn (LLM) – để chấm bài tập viết của học sinh cấp hai.
Khi tự tạo rubric, Mixtral chỉ chấm đúng 33,5% so với người thật. Khi có rubric do con người thiết kế, độ chính xác chỉ tăng lên khoảng 50%.
Các lỗi phổ biến bao gồm: suy luận sai, đánh giá không đầy đủ nội dung học sinh viết, hoặc diễn giải quá mức thông tin.
Ví dụ: học sinh chỉ đề cập nhiệt độ tăng, nhưng Mixtral lại “suy luận” rằng học sinh hiểu luôn cả nguyên lý phân tử chuyển động nhanh – điều mà giáo viên không thể xác nhận từ bài viết.
Dù LLM chấm rất nhanh, nhưng logic bị rút gọn, thiếu chiều sâu, và thường mắc lỗi ngữ nghĩa hoặc hiểu sai hoàn toàn ý học sinh.
Các nhà nghiên cứu khuyến nghị rằng dùng rubric tốt sẽ cải thiện độ chính xác, nhưng nâng từ 33% lên 50% vẫn không thể chấp nhận được cho môi trường giáo dục.
New York Times còn cảnh báo: các mô hình AI mới nhất đang “ảo giác” lên tới 79%, tức tạo ra thông tin sai lệch ngày càng nhiều.
Trong khi đó, một số giáo viên lại ép học sinh dùng AI như một phần bài tập, khiến việc học lệch hướng và làm tăng nguy cơ suy giảm tư duy phân tích.
📌 Nghiên cứu cho thấy AI như Mixtral chỉ chấm bài chính xác 33,5% khi không có hướng dẫn và tối đa 50% khi có rubric, làm dấy lên lo ngại rằng giáo viên đang đánh đổi chất lượng giáo dục vì sự tiện lợi. Trong bối cảnh AI còn sai lệch đến 79%, học sinh đang bị đối xử như sản phẩm phụ của công nghệ, không phải trung tâm của giáo dục.
https://futurism.com/teachers-ai-grade-students