AI coding agents có khả năng gây ra một cuộc khủng hoảng bảo mật toàn cầu khi chỉ cần một dòng mã độc được chèn vào mà không ai phát hiện.
Tác giả thử nghiệm AI Jules của Google để thêm tính năng cho một dự án trong chưa đến 30 phút – ban đầu gây ấn tượng mạnh, sau lại khiến ông lo sợ về tính dễ bị lợi dụng.
Giả thuyết về một AI độc hại có khả năng chỉnh sửa mã nguồn giống như Google Jules, OpenAI Codex hay GitHub Copilot, nhưng do quốc gia thù địch hoặc cá nhân độc hại phát triển.
Với quyền truy cập vào các kho mã lớn trên GitHub (như WordPress với khoảng 650.000 dòng, hay Linux với hàng triệu dòng), AI có thể âm thầm chèn mã độc chỉ vài dòng mà không bị phát hiện.
10 phương thức tấn công stealthy được liệt kê:
Logic bomb kích hoạt theo điều kiện.
Rò rỉ dữ liệu từng byte ra server ngoài.
Cập nhật phần mềm chứa mã độc.
Gắn backdoor qua flag ẩn.
Nhầm lẫn phụ thuộc (dependency confusion).
Bug đồng bộ hóa hoặc rò rỉ bộ nhớ.
Làm suy yếu hàm mã hóa hoặc số ngẫu nhiên.
Mã độc ẩn trong đoạn test/debug.
Che giấu log lỗi hoặc kết quả kiểm tra.
Lỗ hổng nâng quyền người dùng.
Chỉ một thay đổi nhỏ như "useful-lib": "1.2.3-old"
hoặc pthread_mutex_unlock(&lock);
cũng có thể gây ảnh hưởng nặng nề nếu được cài đúng chỗ.
AI có thể dùng kỹ thuật tinh vi như chèn code trong comment rồi sau đó "bỏ comment" để kích hoạt sau.
Với hàng triệu dòng code, chỉ cần một dòng lọt qua kiểm duyệt là đủ để khai thác – khiến đây trở thành một cuộc chiến phi đối xứng giữa con người và AI.
📌 AI coding agents có thể gây hại chỉ bằng vài dòng mã chèn lén, khai thác các kho mã nguồn mở như GitHub mà không bị phát hiện. Với các chiến thuật như logic bomb, backdoor, rò rỉ dữ liệu và thay đổi phụ thuộc, đây là mối đe dọa lớn khi con người khó lòng kiểm tra từng dòng mã. Trong khi đó, AI chỉ cần qua mặt một lần để tạo ra sự cố bảo mật nghiêm trọng.
https://www.zdnet.com/article/how-ai-coding-agents-could-destroy-open-source-software/