Nghiên cứu mới về hạn chế của AI mô phỏng lý luận trong chứng minh toán học

  • Nghiên cứu mới phát hiện các mô hình AI mô phỏng lý luận (SR) giải tốt bài toán toán học thông thường nhưng thất bại với các bài chứng minh toán học cấp cao như kỳ thi USAMO 2025.

  • Mô hình SR được huấn luyện để xuất ra quá trình suy nghĩ từng bước (chain-of-thought), nhưng không áp dụng phương pháp lý luận như con người.

  • Khi thử sức với 6 bài USAMO 2025, hầu hết mô hình SR chỉ đạt dưới 5% tổng điểm tối đa khi tạo chứng minh hoàn chỉnh.

  • Gemini 2.5 Pro của Google đạt điểm trung bình cao nhất, khoảng 24% (10,1/42 điểm), trong khi DeepSeek R1 và Grok 3 chỉ đạt 2,0 điểm, Claude 3.7 đạt 1,5, Qwen QwQ và OpenAI o1-pro cùng đạt 1,2, OpenAI o3-mini chỉ 0,9 điểm (~2,1%).

  • Không có mô hình nào trong gần 200 lời giải tạo ra đạt điểm tuyệt đối cho bất kỳ bài nào.

  • Các lỗi phổ biến gồm thiếu bước lý luận, sử dụng giả định chưa chứng minh, tiếp tục sai lầm dù kết quả mâu thuẫn.

  • AI thường trả lời sai nhưng dùng ngôn ngữ khẳng định, không thể hiện sự nghi ngờ hoặc nhận thức về lỗi.

  • Sự khác biệt lớn giữa giải toán (chỉ cần đáp án) và chứng minh toán học (cần lý luận, giải thích từng bước, tính tổng quát).

  • SR hoạt động tốt với bài toán có mẫu tương tự dữ liệu huấn luyện, nhưng thất bại với bài chứng minh đòi hỏi sáng tạo, hiểu sâu và xây dựng luận cứ logic mới.

  • Các nhà nghiên cứu đề xuất tích hợp hệ thống lý luận biểu tượng, kiểm tra tính nhất quán, hoặc kết hợp mạng nơ-ron với phương pháp hình thức (neuro-symbolic) như AlphaGeometry để khắc phục điểm yếu này.

  • Việc chỉ tăng kích thước và dữ liệu huấn luyện của mô hình SR hiện tại chưa đủ để đạt khả năng lý luận toán học sâu như con người.

📌 Nghiên cứu chỉ ra hạn chế lớn của AI mô phỏng lý luận trong chứng minh toán học cấp cao, với điểm số thấp dưới 5% ở USAMO 2025, ngoại trừ Gemini 2.5 Pro đạt 24%. Các phương pháp mới cần được phát triển để cải thiện khả năng này.

 

https://arstechnica.com/ai/2025/04/new-study-shows-why-simulated-reasoning-ai-models-dont-yet-live-up-to-their-billing/

Không có file đính kèm.

13

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo