AI từ OpenAI, Google, Anthropic giải được 0% bài toán lập trình khó

  • Một nghiên cứu mới từ các đại học hàng đầu Mỹ và Canada (NYU, Princeton, UC San Diego, McGill...) đưa ra benchmark LiveCodeBench Pro để kiểm tra khả năng giải quyết bài toán lập trình của các mô hình AI hiện đại.

  • Benchmark này gồm 584 bài toán từ các cuộc thi quốc tế, được chia theo độ khó: Dễ, Trung bình và Khó, với sự đánh giá bởi các huy chương Olympic tin học.

  • Kết quả gây sốc: không có mô hình AI nào giải đúng bất kỳ bài toán nào trong nhóm “Khó”tỉ lệ hoàn thành là 0%.

  • Các mô hình như OpenAI o4-mini-high đạt điểm cao nhất ở mức trung bình (53,5%). Tuy nhiên, thất bại lớn nhất nằm ở các bài toán yêu cầu khám phá insight mới — điều không thể học được từ mẫu có sẵn.

  • Lỗi phổ biến là sai về thuật toán, không phải lỗi cú pháp. Nhiều mô hình thậm chí không giải đúng đầu vào mẫu, cho thấy khả năng hiểu đề còn hạn chế.

  • Mô hình AI xử lý tốt hơn với bài toán thiên về kiến thức đã có hoặc tư duy theo mẫu quen thuộc.

  • Toby Ord từ Oxford cảnh báo rằng AI agent có “chu kỳ bán rã”, nghĩa là khả năng thành công giảm theo thời gian làm việc. Nếu AI đạt 50% thành công trong 60 phút, thì chỉ còn 25% nếu kéo dài lên 120 phút.

  • Theo phân tích METR, thời gian AI có thể duy trì hiệu quả 80% tăng gấp đôi sau mỗi 213 ngày, nhưng điều này vẫn cho thấy giới hạn rõ rệt khi xử lý các dự án dài và phức tạp.

  • Cả METR và Ord đều khẳng định: dù khả năng AI tăng dần theo thời gian, nhưng độ tin cậy cao vẫn chỉ đạt được khi giới hạn thời gian và độ phức tạp.


📌 Dù AI ngày càng giỏi, các mô hình hàng đầu như GPT-4, Claude 3.7 vẫn hoàn toàn thất bại với các bài toán lập trình khó – đạt 0% trong benchmark mới. Phân tích từ METR và Toby Ord cũng cảnh báo rằng độ tin cậy giảm mạnh theo thời gian thực hiện tác vụ, khiến tương lai AI thay thế lập trình viên vẫn còn xa.

https://analyticsindiamag.com/global-tech/ai-models-from-google-openai-anthropic-solve-0-of-hard-coding-problems/

Không có file đính kèm.

6

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo