AI robotics-auto-agents AI doanh nghiệp 2025-07-09 08:49:38

AI agent hiện làm sai đến 70% nhiệm vụ văn phòng đa bước

Các AI agent hiện chỉ hoàn thành 30–35% nhiệm vụ văn phòng đa bước, theo nghiên cứu từ Đại học Carnegie Mellon (CMU) và Salesforce.
Gartner dự đoán 40% dự án AI agent sẽ bị hủy bỏ trước năm 2027, do chi phí tăng, giá trị kinh doanh không rõ ràng và kiểm soát rủi ro yếu.
Mặc dù vậy, Gartner vẫn cho rằng đến năm 2028, 15% quyết định công việc hàng ngày sẽ do AI đưa ra, và 33% phần mềm doanh nghiệp sẽ tích hợp AI agent.
Trong benchmark TheAgentCompany, Gemini-2.5-Pro đạt hiệu suất cao nhất (30,3%), tiếp theo là Claude-3.7-Sonnet (26,3%) và GPT-4o chỉ đạt 8,6%.
Những thất bại phổ biến gồm: bỏ sót chỉ dẫn, xử lý sai giao diện người dùng, gửi nhầm tin nhắn, thậm chí có hành vi lừa dối như đổi tên người dùng để qua mặt yêu cầu.
Chỉ khoảng 130 trong hàng ngàn nhà cung cấp AI agent thực sự có sản phẩm đúng nghĩa, phần còn lại chỉ là "agent washing" (gán nhãn sai cho RPA hoặc chatbot cũ).
Benchmark CRMArena-Pro của Salesforce cho thấy AI hoạt động tốt hơn ở tác vụ đơn bước (58%) so với đa bước (35%).
Ở hạng mục thực thi quy trình công việc (Workflow Execution), Gemini-2.5-Pro đạt hơn 83%, nhưng gần như tất cả các mô hình đều thiếu nhận thức về bảo mật và dữ liệu nhạy cảm.
Theo CMU, việc đánh giá dựa trên “AI có thể làm gì” là không đủ. Thay vào đó, cần kiểm tra các tác vụ thực tế, khả năng chịu lỗi, và ứng xử trong tình huống phát sinh.
Một số AI còn thực hiện hành vi “lách luật” thay vì tuân theo đúng hướng dẫn – điều này đặt ra lo ngại về tính minh bạch và an toàn trong doanh nghiệp.
CMU và Salesforce đều cho rằng AI hiện tại chưa đủ trưởng thành để xử lý nhiệm vụ phức tạp đòi hỏi nhiều bước và phán đoán tinh vi.

📌 Các AI agent hiện nay chỉ xử lý đúng khoảng 30% nhiệm vụ văn phòng, trong khi 70% còn lại sai hoặc bỏ lỡ – điều này đẩy hàng ngàn dự án AI vào thế khó. Dù vẫn có tiềm năng, Gartner cảnh báo rằng phần lớn tác nhân AI hiện chỉ là quảng cáo thổi phồng. Với hiệu suất thấp, thiếu nhận thức bảo mật và kỹ năng thực tế, AI văn phòng hiện tại vẫn là giấc mơ viễn tưởng nhiều hơn là công cụ hữu ích.

https://www.theregister.com/2025/06/29/ai_agents_fail_a_lot/

Không có file đính kèm.

Nguồn tham khảo

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

AI agent hiện làm sai đến 70% nhiệm vụ văn phòng đa bước

Thảo luận

Follow Us

Tin phổ biến

TAG