Nghiên cứu của OpenAI: Các mô hình AI tiên tiến nhất vẫn không giải được đa số các vấn đề lập trình

  • Các nhà nghiên cứu OpenAI đã thừa nhận ngay cả những mô hình AI tiên tiến nhất vẫn chưa thể sánh bằng các lập trình viên

  • OpenAI đã phát triển benchmark mới có tên SWE-Lancer, dựa trên hơn 1.400 nhiệm vụ kỹ thuật phần mềm từ trang freelancer Upwork

  • 3 mô hình ngôn ngữ lớn được thử nghiệm:

  • o1 reasoning model của OpenAI

  • GPT-4o của OpenAI

  • Claude 3.5 Sonnet của Anthropic

  • Benchmark đánh giá hai loại nhiệm vụ:

  • Nhiệm vụ cá nhân: sửa lỗi và triển khai các bản vá

  • Nhiệm vụ quản lý: đưa ra quyết định cấp cao hơn

  • Các mô hình AI chỉ có thể:

  • Sửa các lỗi phần mềm bề mặt

  • Làm việc nhanh hơn con người nhiều lần

  • Không được phép truy cập internet trong quá trình thử nghiệm

  • Hạn chế của các mô hình AI:

  • Không thể tìm ra lỗi trong các dự án lớn

  • Không hiểu được nguyên nhân gốc rễ của vấn đề

  • Đưa ra giải pháp không chính xác hoặc chưa đầy đủ

  • Không nắm bắt được phạm vi của lỗi

  • Thiếu hiểu biết về bối cảnh

  • Claude 3.5 Sonnet có hiệu suất tốt hơn hai mô hình của OpenAI nhưng phần lớn câu trả lời vẫn sai

📌 Mặc dù làm việc nhanh hơn con người nhưng các mô hình AI tiên tiến nhất hiện nay chỉ giải quyết được các vấn đề lập trình đơn giản, bề mặt. Trong 1.400 nhiệm vụ thử nghiệm, đa số câu trả lời của AI đều sai và thiếu độ tin cậy để áp dụng vào thực tế.

https://futurism.com/openai-researchers-coding-fail

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo