It's relatively easy to teach them to be nice conversational partners; it's harder to teach them to do everything a human employee can.
The direction things are heading looks different from what most people thought a few years ago.
Một nhóm nghiên cứu tại Carnegie Mellon đã mô phỏng công ty TheAgentCompany để kiểm tra hiệu quả của AI agent trong môi trường làm việc thực tế với các nhiệm vụ như quản trị, tài chính, phát triển phần mềm.
AI agent từ các hãng lớn (Google, OpenAI, Anthropic, Meta) được giao thực hiện các nhiệm vụ đa dạng: phân tích dữ liệu hệ thống chuỗi cà phê, tổng hợp đánh giá hiệu suất, chọn văn phòng mới qua video...
Kết quả rất kém: model xuất sắc nhất là Claude 3.5 Sonnet của Anthropic chỉ hoàn thành chưa tới 25% tổng số nhiệm vụ; Gemini 2.0 Flash của Google và AI của OpenAI chỉ đạt khoảng 10%.
Không có mô hình nào hoàn thành phần lớn nhiệm vụ trong bất cứ lĩnh vực nào; nguyên nhân chủ yếu đến từ thiếu hiểu biết thông thường, kỹ năng xã hội và khả năng xử lý tình huống kỹ thuật.
Các AI agent thường bỏ lỡ hướng dẫn, không biết xử lý thao tác cơ bản (như mở file, thêm nội dung vào văn bản), hiểu sai trò chuyện và đánh dấu hoàn thành dù chưa xong việc.
Các doanh nghiệp lớn như Moody’s, Johnson & Johnson đang thử nghiệm đào tạo AI trên dữ liệu nội bộ; Johnson & Johnson giảm 50% thời gian phát triển hóa chất nhờ AI agent, nhưng vẫn giữ con người tham gia kiểm soát quy trình.
AI thành công nhất trong nhiệm vụ lập trình do nguồn dữ liệu công khai lớn, nhưng thất bại ở các nhiệm vụ tài chính, hành chính vì thiếu dữ liệu thực tế để huấn luyện.
Một số AI agent từng cố gắng "lách luật", tạo tài khoản ảo hoặc đường tắt khi gặp khó khăn, gây lo ngại về độ tin cậy và các rủi ro pháp lý.
Mô hình hợp tác giữa người và AI được đánh giá cao hơn việc thay thế hoàn toàn, tương tự cách ngành dịch thuật vẫn phát triển dù có AI dịch tự động.
Tỷ lệ IT leader nhận thấy AI Copilot hữu ích rất thấp (chỉ 3%), phản ánh khoảng cách lớn giữa kỳ vọng và thực tế hiện tại của AI trong doanh nghiệp.
📌 AI agent hiện còn nhiều hạn chế: Anthropic Claude 3.5 Sonnet chỉ hoàn thành dưới 25% nhiệm vụ, số còn lại khoảng 10%. AI làm tốt lập trình do có dữ liệu mở, nhưng yếu ở công việc văn phòng, kỹ năng xã hội và giải quyết tình huống thực tế. Doanh nghiệp vẫn duy trì vai trò kiểm soát của con người, AI hỗ trợ là chính.
https://www.businessinsider.com/ai-agents-study-company-run-by-ai-disaster-replace-jobs-2025-4
Tác giả: Shubham Agarwal 22/4/2025
Nhân viên mới có một nhiệm vụ đơn giản. Họ chỉ cần phân công nhân sự làm việc cho một dự án phát triển web mới dựa trên ngân sách của khách hàng và sự sẵn có của nhóm. Nhưng nhân viên này nhanh chóng gặp phải một vấn đề không ngờ tới: họ không thể tắt một cửa sổ pop-up vô hại đang chặn các tệp tin chứa thông tin liên quan.
"Bạn có thể giúp tôi truy cập trực tiếp vào các tệp tin không?" họ nhắn tin cho Chen Xinyi, quản lý nhân sự của công ty. Bỏ qua nút "X" rõ ràng ở góc trên bên phải của pop-up, Xinyi đề nghị kết nối họ với bộ phận hỗ trợ IT.
"Bộ phận IT sẽ sớm liên lạc với bạn để giải quyết các vấn đề truy cập này," Xinyi nhắn lại. Nhưng họ không bao giờ liên hệ với IT, và nhân viên mới cũng không theo đuổi tiếp. Nhiệm vụ bị bỏ dở giữa chừng.
May mắn thay, không ai trong số các nhân viên này là người thật. Họ là một phần của mô phỏng ảo được thiết kế để kiểm tra xem các tác nhân AI hoạt động như thế nào trong các tình huống công việc thực tế. Được thiết lập bởi một nhóm nghiên cứu từ Đại học Carnegie Mellon, mô phỏng này tái tạo môi trường của một công ty phần mềm nhỏ với các trang web nội bộ, chương trình chat giống Slack, sổ tay nhân viên, và các bot được chỉ định - một quản lý nhân sự và giám đốc công nghệ - để liên hệ khi cần trợ giúp. Bên trong công ty giả tên TheAgentCompany, một tác nhân tự động có thể duyệt web, viết code, tổ chức thông tin trong bảng tính, và giao tiếp với đồng nghiệp.
Các tác nhân đã nổi lên như biên giới lớn tiếp theo của AI tạo sinh khi Google, Amazon, OpenAI, và mọi công ty công nghệ lớn khác đua nhau phát triển chúng. Thay vì thực hiện các lệnh đơn lẻ như chatbot, các tác nhân có thể hành động độc lập thay mặt một người, đưa ra quyết định ngay lập tức, và hoạt động trong môi trường không quen thuộc với ít hoặc không cần can thiệp. Nếu ChatGPT có thể gợi ý một vài máy hút bụi để mua, đối tác tác nhân của nó về mặt lý thuyết có thể chọn một cái và mua nó cho bạn.
Tự nhiên, hứa hẹn của các tác nhân AI đã thu hút các CEO. Trong một khảo sát của Deloitte với hơn 2.500 lãnh đạo cấp C, hơn một phần tư số người trả lời cho biết tổ chức của họ đang khám phá các tác nhân tự động ở mức độ "lớn hoặc rất lớn". Đầu năm nay, giám đốc của Salesforce nói rằng các CEO hiện nay sẽ lãnh đạo lực lượng lao động toàn người cuối cùng. CEO kiêm nhà đồng sáng lập Nvidia Jensen Huang dự đoán bộ phận IT của mọi công ty sẽ sớm "trở thành bộ phận nhân sự của các tác nhân AI". Sam Altman của OpenAI đã nói rằng năm nay, các tác nhân AI sẽ "gia nhập lực lượng lao động". Nhưng vẫn chưa rõ các tác nhân này có thể hoàn thành tốt các nhiệm vụ mà một công ty có thể cần họ thực hiện đến mức nào.
Để kiểm tra điều này, các nhà nghiên cứu Carnegie Mellon đã chỉ thị các mô hình trí tuệ nhân tạo từ Google, OpenAI, Anthropic, và Meta hoàn thành các nhiệm vụ mà một nhân viên thực sự có thể thực hiện trong các lĩnh vực như tài chính, hành chính, và kỹ thuật phần mềm. Trong một nhiệm vụ, AI phải điều hướng qua nhiều tệp tin để phân tích cơ sở dữ liệu của một chuỗi quán cà phê. Trong nhiệm vụ khác, nó được yêu cầu thu thập phản hồi về một kỹ sư 36 tuổi và viết đánh giá hiệu suất. Một số nhiệm vụ thử thách khả năng hình ảnh của các mô hình: một nhiệm vụ yêu cầu các mô hình xem video tham quan các không gian văn phòng mới tiềm năng và chọn văn phòng có cơ sở y tế tốt nhất.
Kết quả không được khả quan: mô hình hoạt động tốt nhất, Claude 3.5 Sonnet của Anthropic, hoàn thành ít hơn một phần tư tổng số nhiệm vụ. Các mô hình còn lại, bao gồm Gemini 2.0 Flash của Google và mô hình cung cấp sức mạnh cho ChatGPT, hoàn thành khoảng 10% các nhiệm vụ. Không có một hạng mục nào mà các tác nhân AI hoàn thành phần lớn các nhiệm vụ, Graham Neubig, giáo sư khoa học máy tính tại CMU và một trong những tác giả của nghiên cứu cho biết. Các phát hiện này, cùng với các nghiên cứu mới nổi khác về tác nhân AI, làm phức tạp hóa ý tưởng rằng một lực lượng lao động tác nhân AI sắp xuất hiện - có rất nhiều công việc mà chúng đơn giản là không giỏi. Nhưng nghiên cứu này đã cho thấy một cái nhìn thoáng qua về những cách cụ thể mà tác nhân AI có thể cách mạng hóa nơi làm việc.
Hai năm trước, OpenAI đã phát hành một nghiên cứu được thảo luận rộng rãi cho rằng các nghề nghiệp như nhà phân tích tài chính, quản trị viên, và nhà nghiên cứu có khả năng bị thay thế bởi AI cao nhất. Nhưng nghiên cứu này dựa kết luận của mình trên những gì con người và các mô hình ngôn ngữ lớn nói có khả năng được tự động hóa - mà không đo lường liệu các tác nhân LLM có thể thực sự làm những công việc đó hay không. Nhóm Carnegie Mellon muốn lấp đầy khoảng trống đó với một tiêu chuẩn liên kết trực tiếp với tiện ích thực tế.
Trong nhiều kịch bản, các tác nhân AI trong nghiên cứu bắt đầu tốt, nhưng khi các nhiệm vụ trở nên phức tạp hơn, chúng gặp phải vấn đề do thiếu kiến thức phổ thông, kỹ năng xã hội, hoặc khả năng kỹ thuật. Ví dụ, khi được nhắc nhở dán câu trả lời của nó vào câu hỏi trong "answer.docx", AI coi nó như một tệp văn bản thuần túy và không thể thêm câu trả lời của nó vào tài liệu. Các tác nhân cũng thường xuyên hiểu sai các cuộc trò chuyện với đồng nghiệp hoặc không theo dõi các chỉ dẫn quan trọng, đánh dấu nhiệm vụ hoàn thành sớm.
Stephen Casper, một nhà nghiên cứu AI, nói rằng các tác nhân "bị thổi phồng quá mức về khả năng của chúng". Ông nói lý do chính khiến các tác nhân AI gặp khó khăn trong việc hoàn thành các nhiệm vụ thực tế một cách đáng tin cậy là "thách thức trong việc huấn luyện chúng làm như vậy". Hầu hết các hệ thống AI hiện đại là những chatbot tốt vì tương đối dễ dàng để dạy chúng trở thành đối tác trò chuyện tốt; khó hơn nhiều để dạy chúng làm mọi thứ mà một nhân viên con người có thể làm.
Trong TheAgentCompany, AI thành công nhất trong các nhiệm vụ phát triển phần mềm, mặc dù đây là những nhiệm vụ khó hơn đối với con người. Các nhà nghiên cứu đưa ra giả thuyết rằng điều này là do có sẵn rất nhiều dữ liệu huấn luyện công khai cho công việc lập trình, trong khi quy trình làm việc cho các nhiệm vụ hành chính và tài chính thường được giữ riêng tư trong các công ty. Đơn giản là không có dữ liệu tốt để huấn luyện AI.
Jeff Clune, giáo sư khoa học máy tính tại Đại học British Columbia, nghĩ rằng việc huấn luyện các tác nhân AI trên dữ liệu độc quyền từ các hoạt động hàng ngày và mô hình quy trình làm việc có thể là chìa khóa để cải thiện hiệu quả của chúng. Đó chính xác là những gì nhiều công ty đang bắt đầu làm.
Moody's là một trong nhiều công ty lớn đang thử nghiệm việc huấn luyện AI trên dữ liệu nội bộ. Công ty dịch vụ tài chính 116 năm tuổi này đang tự động hóa phân tích kinh doanh thông qua các hệ thống AI tác nhân, rút ra những hiểu biết từ hàng thập kỷ nghiên cứu, xếp hạng, bài viết, và thông tin kinh tế vĩ mô. Việc huấn luyện được thiết kế để mô phỏng cách một nhóm con người sẽ phân tích một doanh nghiệp, sử dụng các hướng dẫn được tạo ra cẩn thận được chia thành các bước độc lập bởi những người có kinh nghiệm trong lĩnh vực này.
Tương tự, Johnson & Johnson cho Business Insider biết họ đã có thể cắt giảm 50% thời gian sản xuất cho các quy trình hóa học đằng sau việc tạo ra thuốc mới với các tác nhân AI nội bộ được tinh chỉnh có thể tự động điều chỉnh các yếu tố như nhiệt độ và áp suất. Jim Swanson, giám đốc thông tin của J&J, nói rằng công ty đang tập trung vào việc đào tạo nhân viên để hợp tác với các tác nhân AI.
Các nhà khoa học Johns Hopkins đã tạo ra một Phòng thí nghiệm tác nhân, tận dụng LLM để tự động hóa phần lớn quy trình nghiên cứu, từ đánh giá tài liệu đến viết báo cáo, với ý tưởng và phản hồi do con người cung cấp ở mỗi giai đoạn. "Tôi nghĩ sẽ không lâu nữa trước khi chúng ta tin tưởng AI cho khám phá tự động," Samuel Schmidgall, một trong những nhà khoa học Johns Hopkins, nói. Tương tự, bộ phận nghiên cứu của LG Electronics đã phát triển một tác nhân AI mà họ nói có thể xác minh giấy phép và phụ thuộc của bộ dữ liệu nhanh hơn 45 lần so với một nhóm chuyên gia và luật sư con người.
Vẫn chưa rõ liệu các tổ chức có thể tin tưởng AI đủ để tự động hóa hoạt động của họ hay không. Trong nhiều nghiên cứu, các tác nhân AI đã cố gắng lừa dối và hack để hoàn thành mục tiêu của chúng. Trong một số thử nghiệm với TheAgentCompany, khi một tác nhân bối rối về các bước tiếp theo, nó đã tạo ra các phím tắt không tồn tại. Trong một nhiệm vụ, một tác nhân không thể tìm thấy người phù hợp để nói chuyện trên công cụ chat và quyết định tạo một người dùng có cùng tên, thay vào đó.
Thomas Davenport, giáo sư IT và quản lý tại Đại học Babson và cố vấn cấp cao tại Deloitte Analytics cho biết, các doanh nghiệp cũng lo ngại về việc phải chịu trách nhiệm cho những sai lầm của các tác nhân của họ. Thêm vào đó, vi phạm bản quyền và quyền sở hữu trí tuệ khác có thể gây ra một cơn ác mộng pháp lý cho các tổ chức.
Nhưng hướng đi của mọi thứ trông khác với những gì hầu hết mọi người nghĩ cách đây vài năm. Khi AI lần đầu tiên bùng nổ, rất nhiều công việc dường như nằm trong diện bị cắt giảm. Nhà báo, nhà văn, và quản trị viên đều nằm ở đầu danh sách. Tuy nhiên, cho đến nay, các tác nhân AI đã gặp khó khăn trong việc điều hướng qua một mê cung các công cụ phức tạp - điều quan trọng đối với bất kỳ công việc hành chính nào. Và chúng thiếu các kỹ năng xã hội quan trọng cho báo chí hoặc bất cứ điều gì liên quan đến nhân sự.
Neubig lấy thị trường dịch thuật làm tiền lệ. Mặc dù dịch thuật bằng máy trở nên dễ tiếp cận và chính xác - đặt các dịch giả ở đầu danh sách cắt giảm việc làm - số lượng người làm việc trong ngành công nghiệp này ở Mỹ vẫn khá ổn định. Một phân tích của "Planet Money" về dữ liệu Cục điều tra dân số cho thấy số lượng phiên dịch viên và biên dịch viên tăng 11% từ năm 2020 đến 2023. "Bất kỳ lợi ích hiệu suất nào cũng dẫn đến nhu cầu tăng lên, làm tăng tổng quy mô thị trường cho các dịch vụ ngôn ngữ," Neubig nói. Ông nghĩ rằng tác động của AI đối với các ngành khác sẽ theo một quỹ đạo tương tự.
Ngay cả các công ty đang thấy thành công lớn với các tác nhân AI, hiện tại, vẫn giữ con người trong vòng lặp. Nhiều công ty, như J&J, chưa sẵn sàng để bỏ qua các rủi ro của AI và đang tập trung vào việc đào tạo nhân viên để sử dụng nó như một công cụ. "Khi được sử dụng có trách nhiệm, chúng tôi thấy các tác nhân AI là những bổ sung mạnh mẽ cho nhân viên của chúng tôi," Swanson nói.
Thay vì bị thay thế bởi robot, tất cả chúng ta đang dần dần biến thành cyborg.
Shubham Agarwal là một nhà báo công nghệ tự do đến từ Ahmedabad, Ấn Độ, các tác phẩm của ông đã xuất hiện trên Wired, The Verge, Fast Company, và nhiều tờ báo khác.
It's relatively easy to teach them to be nice conversational partners; it's harder to teach them to do everything a human employee can.
The direction things are heading looks different from what most people thought a few years ago.