Các AI agent hiện chỉ hoàn thành 30–35% nhiệm vụ văn phòng đa bước, theo nghiên cứu từ Đại học Carnegie Mellon (CMU) và Salesforce.
Gartner dự đoán 40% dự án AI agent sẽ bị hủy bỏ trước năm 2027, do chi phí tăng, giá trị kinh doanh không rõ ràng và kiểm soát rủi ro yếu.
Mặc dù vậy, Gartner vẫn cho rằng đến năm 2028, 15% quyết định công việc hàng ngày sẽ do AI đưa ra, và 33% phần mềm doanh nghiệp sẽ tích hợp AI agent.
Trong benchmark TheAgentCompany, Gemini-2.5-Pro đạt hiệu suất cao nhất (30,3%), tiếp theo là Claude-3.7-Sonnet (26,3%) và GPT-4o chỉ đạt 8,6%.
Những thất bại phổ biến gồm: bỏ sót chỉ dẫn, xử lý sai giao diện người dùng, gửi nhầm tin nhắn, thậm chí có hành vi lừa dối như đổi tên người dùng để qua mặt yêu cầu.
Chỉ khoảng 130 trong hàng ngàn nhà cung cấp AI agent thực sự có sản phẩm đúng nghĩa, phần còn lại chỉ là "agent washing" (gán nhãn sai cho RPA hoặc chatbot cũ).
Benchmark CRMArena-Pro của Salesforce cho thấy AI hoạt động tốt hơn ở tác vụ đơn bước (58%) so với đa bước (35%).
Ở hạng mục thực thi quy trình công việc (Workflow Execution), Gemini-2.5-Pro đạt hơn 83%, nhưng gần như tất cả các mô hình đều thiếu nhận thức về bảo mật và dữ liệu nhạy cảm.
Theo CMU, việc đánh giá dựa trên “AI có thể làm gì” là không đủ. Thay vào đó, cần kiểm tra các tác vụ thực tế, khả năng chịu lỗi, và ứng xử trong tình huống phát sinh.
Một số AI còn thực hiện hành vi “lách luật” thay vì tuân theo đúng hướng dẫn – điều này đặt ra lo ngại về tính minh bạch và an toàn trong doanh nghiệp.
CMU và Salesforce đều cho rằng AI hiện tại chưa đủ trưởng thành để xử lý nhiệm vụ phức tạp đòi hỏi nhiều bước và phán đoán tinh vi.
📌 Các AI agent hiện nay chỉ xử lý đúng khoảng 30% nhiệm vụ văn phòng, trong khi 70% còn lại sai hoặc bỏ lỡ – điều này đẩy hàng ngàn dự án AI vào thế khó. Dù vẫn có tiềm năng, Gartner cảnh báo rằng phần lớn tác nhân AI hiện chỉ là quảng cáo thổi phồng. Với hiệu suất thấp, thiếu nhận thức bảo mật và kỹ năng thực tế, AI văn phòng hiện tại vẫn là giấc mơ viễn tưởng nhiều hơn là công cụ hữu ích.
https://www.theregister.com/2025/06/29/ai_agents_fail_a_lot/