Các nhà khoa học vừa công bố một chuẩn đo mới để đánh giá khả năng của AI: đo thời gian AI hoàn thành nhiệm vụ so với con người.
AI hiện nay có thể hoàn thành các nhiệm vụ mà con người làm dưới 4 phút với tỷ lệ thành công gần 100%. Tuy nhiên, với các nhiệm vụ kéo dài trên 4 giờ, tỷ lệ này giảm mạnh xuống chỉ còn 10%.
Trong 6 năm qua, độ dài nhiệm vụ mà AI tổng quát có thể hoàn thành với độ tin cậy 50% đã tăng gấp đôi sau mỗi 7 tháng.
Nghiên cứu sử dụng nhiều mô hình AI khác nhau như Sonnet 3.7, GPT-4, Claude 3 Opus và các phiên bản GPT cũ hơn, kiểm tra qua các nhiệm vụ từ đơn giản (tra cứu thông tin) đến phức tạp (lập trình CUDA, sửa lỗi PyTorch).
Công cụ HCAST gồm 189 nhiệm vụ phần mềm tự động hóa, RE-Bench có 7 nhiệm vụ nghiên cứu máy học mở rộng, đều được dùng để đánh giá khả năng AI so với chuyên gia con người.
Đội ngũ nghiên cứu cũng đánh giá mức độ “lộn xộn” của nhiệm vụ, phản ánh độ phức tạp thực tế khi cần phối hợp nhiều luồng công việc.
Kết quả cho thấy “khả năng tập trung” của AI đang tăng nhanh, mở ra dự báo AI có thể tự động hóa trọn vẹn một tháng công việc phát triển phần mềm của con người vào năm 2032.
Các chuyên gia nhận định, đo AI bằng thời gian hoàn thành nhiệm vụ là thước đo trực quan, sát thực tế, phản ánh khả năng duy trì mục tiêu trong thời gian dài – điều mà các bài test truyền thống chưa thể hiện hết.
Dự báo đến năm 2026, AI tổng quát sẽ xuất hiện, đủ sức xử lý đa dạng nhiệm vụ kéo dài cả ngày hoặc tuần, thay vì chỉ các nhiệm vụ ngắn, đơn lẻ.
AI sẽ trở thành quản lý cá nhân đáng tin cậy, hỗ trợ lập kế hoạch du lịch, theo dõi sức khỏe, quản lý tài chính... cho người dùng, đồng thời giúp doanh nghiệp tiết kiệm chi phí và nâng cao hiệu quả.
📌 AI đang tăng tốc vượt bậc: khả năng hoàn thành nhiệm vụ dài tăng gấp đôi mỗi 7 tháng, với dự báo đến năm 2032 sẽ tự động hóa cả tháng công việc phát triển phần mềm của con người. AI tổng quát sẽ xuất hiện vào năm 2026, thay đổi cách con người làm việc và sống.
https://www.livescience.com/technology/artificial-intelligence/ai-can-handle-tasks-twice-as-complex-every-few-months-what-does-this-exponential-growth-mean-for-how-we-use-it