MIT: Tại sao việc giao quyền kiểm soát hoàn toàn cho AI agent là một sai lầm lớn

  • AI agent đang trở thành xu hướng công nghệ mới, khác với chatbot thông thường, chúng có thể hoạt động bên ngoài cửa sổ chat, điều hướng nhiều ứng dụng để thực hiện các tác vụ phức tạp theo lệnh đơn giản từ người dùng.

  • Các công ty đang liên tục công bố framework và chức năng mới cho AI agent, quảng bá công nghệ này như cách giúp cuộc sống dễ dàng hơn. Ví dụ tiêu biểu bao gồm "computer use" của Claude (Anthropic) và "general AI agent" Manus.

  • Lợi ích tiềm năng của AI agent rất hấp dẫn: hỗ trợ công việc nặng nhọc, tạo bài thuyết trình, giúp người khuyết tật thực hiện tác vụ trực tuyến, điều phối hỗ trợ đồng thời cho nhiều người trong tình huống khẩn cấp.

  • Nhóm nghiên cứu tại Hugging Face cảnh báo rằng việc phát triển agent có thể đang đứng trước một sai lầm nghiêm trọng: càng tự chủ, AI càng làm giảm quyền kiểm soát của con người.

  • AI agent được xây dựng trên nền tảng large language models (LLMs) vốn không thể dự đoán và dễ mắc lỗi. Khi LLM tạo văn bản trong giao diện chat, lỗi chỉ giới hạn trong cuộc trò chuyện, nhưng khi hệ thống có thể hoạt động độc lập với quyền truy cập vào nhiều ứng dụng, nó có thể thực hiện các hành động ngoài ý muốn.

  • Các hệ thống AI agent có thể được phân loại theo mức độ tự chủ từ thấp đến cao: từ bộ xử lý đơn giản, bộ định tuyến, công cụ gọi, agent đa bước, đến agent hoàn toàn tự chủ có thể viết và thực thi mã mới mà không cần giám sát.

  • Tiền lệ lịch sử cho thấy tầm quan trọng của việc duy trì giám sát con người. Năm 1980, hệ thống máy tính báo động sai về hơn 2.000 tên lửa Xô Viết đang hướng đến Bắc Mỹ, nhưng thảm họa đã được ngăn chặn nhờ con người kiểm tra chéo giữa các hệ thống cảnh báo khác nhau.

  • Hugging Face đang phát triển smolagents, một framework cung cấp môi trường an toàn và cho phép nhà phát triển xây dựng agent với tính minh bạch, đảm bảo kiểm soát con người phù hợp.

  • Phát triển AI agent cần đi kèm với việc đảm bảo giám sát của con người, giới hạn phạm vi hoạt động của AI agent, và tập trung vào phúc lợi con người thay vì chỉ tăng hiệu quả.

📌 Việc phát triển AI agent đang tạo ra cuộc cách mạng công nghệ nhưng cũng mang lại rủi ro lớn. Các chuyên gia từ Hugging Face khuyến nghị duy trì sự giám sát của con người, phát triển hệ thống nguồn mở minh bạch như smolagents, và đảm bảo AI vẫn là công cụ hỗ trợ thay vì người ra quyết định.

 

https://www.technologyreview.com/2025/03/24/1113647/why-handing-over-total-control-to-ai-agents-would-be-a-huge-mistake/

#MIT

Tại sao giao toàn quyền kiểm soát cho AI tác nhân sẽ là một sai lầm lớn

Khi các hệ thống AI có thể kiểm soát nhiều nguồn cùng lúc, tiềm năng gây hại bùng nổ. Chúng ta cần duy trì con người trong vòng kiểm soát.

Tác giả: Margaret Mitchell, Avijit Ghosh, Sasha Luccioni, Giada Pistilli
Ngày 24 tháng 3 năm 2025

Một minh họa ảnh cho thấy một người đàn ông với khuôn mặt kỹ thuật số bị lỗi, đưa tay về phía người xem. Sarah Rogers/MITTR | Photos Getty

AI tác nhân đã tạo ra sự chú ý trong ngành công nghệ. Không giống như chatbot, những hệ thống đột phá mới này hoạt động bên ngoài cửa sổ trò chuyện, điều hướng nhiều ứng dụng để thực hiện các nhiệm vụ phức tạp, như lên lịch họp hoặc mua sắm trực tuyến, để đáp ứng các lệnh đơn giản của người dùng. Khi các tác nhân được phát triển để trở nên có khả năng hơn, một câu hỏi quan trọng xuất hiện: Chúng ta sẵn sàng từ bỏ bao nhiêu quyền kiểm soát, và với giá nào?

Các khuôn khổ và chức năng mới cho AI tác nhân được công bố gần như hàng tuần, và các công ty quảng bá công nghệ này như một cách để làm cho cuộc sống của chúng ta dễ dàng hơn bằng cách hoàn thành các nhiệm vụ mà chúng ta không thể làm hoặc không muốn làm. Các ví dụ nổi bật bao gồm "sử dụng máy tính", một chức năng cho phép hệ thống Claude của Anthropic hành động trực tiếp trên màn hình máy tính của bạn, và "tác nhân AI tổng quát" Manus, có thể sử dụng các công cụ trực tuyến cho nhiều nhiệm vụ khác nhau, như tìm kiếm khách hàng hoặc lập kế hoạch chuyến đi.

Những phát triển này đánh dấu một bước tiến lớn trong trí tuệ nhân tạo: các hệ thống được thiết kế để hoạt động trong thế giới kỹ thuật số mà không cần sự giám sát trực tiếp của con người.

Lời hứa rất hấp dẫn. Ai không muốn được hỗ trợ với công việc nặng nhọc hoặc các nhiệm vụ không có thời gian thực hiện? Sự hỗ trợ của các tác nhân có thể sớm có nhiều hình thức khác nhau, chẳng hạn như nhắc bạn hỏi đồng nghiệp về giải bóng rổ của con họ hoặc tìm hình ảnh cho bài thuyết trình tiếp theo của bạn. Trong vài tuần, chúng có thể sẽ tạo được các bài thuyết trình cho bạn.

Cũng có tiềm năng rõ ràng cho những khác biệt sâu sắc và có ý nghĩa trong cuộc sống của mọi người. Đối với những người có vấn đề về khả năng di chuyển tay hoặc thị lực kém, các tác nhân có thể hoàn thành các nhiệm vụ trực tuyến để đáp ứng các lệnh ngôn ngữ đơn giản. Tác nhân cũng có thể điều phối sự hỗ trợ đồng thời cho các nhóm lớn người trong các tình huống quan trọng, chẳng hạn như điều hướng giao thông để giúp người lái xe thoát khỏi một khu vực hàng loạt càng nhanh càng tốt khi thảm họa xảy ra.

Nhưng tầm nhìn này về AI tác nhân mang lại những rủi ro đáng kể có thể bị bỏ qua trong cuộc chạy đua hướng tới sự tự chủ lớn hơn. Nhóm nghiên cứu của chúng tôi tại Hugging Face đã dành nhiều năm để triển khai và điều tra các hệ thống này, và những phát hiện gần đây của chúng tôi cho thấy việc phát triển tác nhân có thể đang ở bên bờ của một sai lầm rất nghiêm trọng.

Từ bỏ kiểm soát, từng chút một

Vấn đề cốt lõi này nằm ở trung tâm của điều thú vị nhất về AI tác nhân: Hệ thống AI càng tự chủ, chúng ta càng từ bỏ sự kiểm soát của con người. AI tác nhân được phát triển để linh hoạt, có khả năng hoàn thành một loạt nhiệm vụ đa dạng không cần phải được lập trình trực tiếp.

Đối với nhiều hệ thống, sự linh hoạt này được thực hiện bởi vì chúng được xây dựng trên các mô hình ngôn ngữ lớn, những mô hình không thể dự đoán và dễ mắc phải các lỗi đáng kể (và đôi khi hài hước). Khi một LLM tạo văn bản trong giao diện trò chuyện, bất kỳ lỗi nào cũng chỉ giới hạn trong cuộc trò chuyện đó. Nhưng khi một hệ thống có thể hành động độc lập và với quyền truy cập vào nhiều ứng dụng, nó có thể thực hiện các hành động mà chúng ta không dự định, chẳng hạn như thao tác tệp, mạo danh người dùng, hoặc thực hiện các giao dịch trái phép. Chính tính năng đang được bán—giảm sự giám sát của con người—là lỗ hổng chính.

Để hiểu bức tranh rủi ro-lợi ích tổng thể, hữu ích để đặc trưng các hệ thống AI tác nhân trên một phổ tự chủ. Cấp độ thấp nhất bao gồm các bộ xử lý đơn giản không có tác động đến luồng chương trình, như chatbot chào đón bạn trên trang web của công ty. Cấp độ cao nhất, các tác nhân hoàn toàn tự chủ, có thể viết và thực thi mã mới mà không có ràng buộc hoặc giám sát của con người—chúng có thể thực hiện hành động (di chuyển tệp, thay đổi bản ghi, giao tiếp qua email, v.v.) mà không cần bạn yêu cầu bất cứ điều gì. Các cấp độ trung gian bao gồm bộ định tuyến, quyết định các bước do con người cung cấp để thực hiện; người gọi công cụ, chạy các chức năng do con người viết bằng cách sử dụng các công cụ do tác nhân đề xuất; và các tác nhân đa bước xác định chức năng nào để làm khi nào và như thế nào. Mỗi cấp độ đại diện cho việc loại bỏ dần sự kiểm soát của con người.

Duy trì con người trong vòng kiểm soát

Rõ ràng rằng AI tác nhân có thể cực kỳ hữu ích cho những gì chúng ta làm hàng ngày. Nhưng điều này mang lại những lo ngại rõ ràng về quyền riêng tư, an toàn và bảo mật. Các tác nhân giúp cập nhật thông tin về ai đó sẽ đòi hỏi thông tin cá nhân của người đó và theo dõi rộng rãi các tương tác trước đây của bạn, điều này có thể dẫn đến vi phạm quyền riêng tư nghiêm trọng. Các tác nhân tạo hướng dẫn từ bản vẽ tòa nhà có thể được sử dụng bởi những kẻ xấu để tiếp cận các khu vực trái phép.

Và khi các hệ thống có thể kiểm soát nhiều nguồn thông tin cùng lúc, tiềm năng gây hại bùng nổ. Ví dụ, một tác nhân có quyền truy cập vào cả giao tiếp cá nhân và nền tảng công khai có thể chia sẻ thông tin cá nhân trên mạng xã hội. Thông tin đó có thể không đúng sự thật, nhưng nó sẽ thoát khỏi radar của các cơ chế kiểm tra thực tế truyền thống và có thể được khuếch đại với việc chia sẻ thêm để tạo ra thiệt hại danh tiếng nghiêm trọng. Chúng tôi tưởng tượng rằng "Đó không phải là tôi—đó là tác nhân của tôi!!" sẽ sớm trở thành một cụm từ phổ biến để biện minh cho các kết quả xấu.

Tiền lệ lịch sử chứng minh tại sao việc duy trì sự giám sát của con người là quan trọng. Năm 1980, các hệ thống máy tính đã sai lầm chỉ ra rằng hơn 2.000 tên lửa Xô Viết đang hướng về Bắc Mỹ. Lỗi này đã kích hoạt các thủ tục khẩn cấp đưa chúng ta đến gần thảm họa một cách nguy hiểm. Điều đã ngăn chặn thảm họa là sự xác minh chéo của con người giữa các hệ thống cảnh báo khác nhau. Nếu việc ra quyết định được ủy thác hoàn toàn cho các hệ thống tự chủ ưu tiên tốc độ hơn sự chắc chắn, kết quả có thể đã thảm khốc.

Một số người sẽ phản đối rằng lợi ích đáng với rủi ro, nhưng chúng tôi cho rằng việc nhận ra những lợi ích đó không đòi hỏi phải từ bỏ hoàn toàn sự kiểm soát của con người. Thay vào đó, sự phát triển của AI tác nhân phải diễn ra song song với sự phát triển của sự giám sát của con người được đảm bảo theo cách giới hạn phạm vi những gì AI tác nhân có thể làm.

Các hệ thống tác nhân mã nguồn mở là một cách để giải quyết rủi ro, vì những hệ thống này cho phép sự giám sát lớn hơn của con người về những gì hệ thống có thể và không thể làm. Tại Hugging Face, chúng tôi đang phát triển smolagents, một khuôn khổ cung cấp môi trường bảo mật sandbox và cho phép các nhà phát triển xây dựng các tác nhân với tính minh bạch làm cốt lõi để bất kỳ nhóm độc lập nào cũng có thể xác minh liệu có sự kiểm soát thích hợp của con người hay không.

Cách tiếp cận này trái ngược hoàn toàn với xu hướng phổ biến hướng tới các hệ thống AI ngày càng phức tạp, không minh bạch, che giấu quy trình ra quyết định của chúng sau nhiều lớp công nghệ độc quyền, làm cho việc đảm bảo an toàn trở nên không thể.

Khi chúng ta điều hướng sự phát triển của AI tác nhân ngày càng tinh vi, chúng ta phải nhận ra rằng tính năng quan trọng nhất của bất kỳ công nghệ nào không phải là tăng hiệu quả mà là thúc đẩy sự hạnh phúc của con người.

Điều này có nghĩa là tạo ra các hệ thống vẫn là công cụ chứ không phải là người ra quyết định, là trợ lý chứ không phải là sự thay thế. Phán đoán của con người, với tất cả những khiếm khuyết của nó, vẫn là thành phần thiết yếu trong việc đảm bảo rằng các hệ thống này phục vụ chứ không phải làm suy yếu lợi ích của chúng ta.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo