Các nhà nghiên cứu OpenAI đã thừa nhận ngay cả những mô hình AI tiên tiến nhất vẫn chưa thể sánh bằng các lập trình viên
OpenAI đã phát triển benchmark mới có tên SWE-Lancer, dựa trên hơn 1.400 nhiệm vụ kỹ thuật phần mềm từ trang freelancer Upwork
3 mô hình ngôn ngữ lớn được thử nghiệm:
o1 reasoning model của OpenAI
GPT-4o của OpenAI
Claude 3.5 Sonnet của Anthropic
Benchmark đánh giá hai loại nhiệm vụ:
Nhiệm vụ cá nhân: sửa lỗi và triển khai các bản vá
Nhiệm vụ quản lý: đưa ra quyết định cấp cao hơn
Các mô hình AI chỉ có thể:
Sửa các lỗi phần mềm bề mặt
Làm việc nhanh hơn con người nhiều lần
Không được phép truy cập internet trong quá trình thử nghiệm
Hạn chế của các mô hình AI:
Không thể tìm ra lỗi trong các dự án lớn
Không hiểu được nguyên nhân gốc rễ của vấn đề
Đưa ra giải pháp không chính xác hoặc chưa đầy đủ
Không nắm bắt được phạm vi của lỗi
Thiếu hiểu biết về bối cảnh
Claude 3.5 Sonnet có hiệu suất tốt hơn hai mô hình của OpenAI nhưng phần lớn câu trả lời vẫn sai
📌 Mặc dù làm việc nhanh hơn con người nhưng các mô hình AI tiên tiến nhất hiện nay chỉ giải quyết được các vấn đề lập trình đơn giản, bề mặt. Trong 1.400 nhiệm vụ thử nghiệm, đa số câu trả lời của AI đều sai và thiếu độ tin cậy để áp dụng vào thực tế.
https://futurism.com/openai-researchers-coding-fail