- Một độc giả đã gửi email một "vấn đề toán học trường trung học cơ bản" từ kỳ thi trực tuyến năm ngoái của Đại học Waterloo dành cho học sinh lớp 9 để kiểm tra chương trình Gemini của Google.
- Vấn đề: Trong một cuộc khảo sát, 100 học sinh được hỏi liệu họ có thích đậu lăng không và cũng được hỏi liệu họ có thích đậu gà không. Tổng cộng 68 học sinh thích đậu lăng, 53 học sinh thích đậu gà, và 6 học sinh không thích cả hai.
- Giải pháp cho vấn đề này có thể được tìm thấy bằng cách sử dụng bảng hai chiều. Theo thông tin được cung cấp, có 27 học sinh thích cả đậu lăng và đậu gà.
- Bài viết chỉ ra rằng thiếu hiểu biết thực sự là "gót chân Achilles" của các Mô hình Ngôn ngữ Lớn (LLMs), dẫn đến việc chúng không thể giải quyết thành công các bài kiểm tra toán lớp 9 thông thường.
📌 Bài viết từ Mind Matters phân tích một vấn đề cụ thể để minh họa cho sự thiếu hiểu biết thực sự của các Mô hình Ngôn ngữ Lớn (LLMs) khi đối mặt với các bài kiểm tra toán học cơ bản. Thông qua việc kiểm tra chương trình Gemini của Google với một bài toán từ kỳ thi trực tuyến của Đại học Waterloo dành cho học sinh lớp 9, bài viết chỉ ra rằng LLMs gặp khó khăn trong việc giải quyết các vấn đề toán học do thiếu khả năng hiểu biết sâu sắc. Ví dụ cụ thể về bài toán liên quan đến sở thích của học sinh đối với đậu lăng và đậu gà cho thấy LLMs không thể đạt được kết quả chính xác mặc dù có vẻ như là một bài toán đơn giản.
Citations:
[1] https://mindmatters.ai/2024/02/why-chatbots-llms-flunk-routine-grade-9-math-tests/