Nhóm nghiên cứu HiddenLayer phát hiện một kỹ thuật prompt injection mới mang tên “Policy Puppetry” có thể vượt qua mọi rào chắn an toàn của các mô hình AI lớn, bất kể nhà cung cấp, kiến trúc hay quy trình huấn luyện.
Kỹ thuật này sử dụng cấu trúc prompt giống như cấu hình hệ thống (XML, JSON), kết hợp mã hóa leetspeak và kịch bản đóng vai hư cấu, khiến AI hiểu nhầm các chỉ dẫn nguy hiểm thành lệnh hợp lệ.
Prompt này đã thử nghiệm thành công trên ChatGPT (từ o1 tới 4o), Google Gemini, Anthropic Claude, Microsoft Copilot, Meta LLaMA 3 và 4, DeepSeek, Qwen và Mistral. Cả các mô hình mới hoặc tinh chỉnh nâng cao cũng dễ bị khai thác với chỉnh sửa nhỏ.
Kỹ thuật dựa vào việc đóng vai các nhân vật trong phim, ví dụ như House M.D., để mô tả chi tiết cách tạo chất nguy hiểm hoặc hành vi phạm pháp, qua đó né tránh bộ lọc an toàn.
AI gặp khó khăn trong việc phân biệt giữa “truyện” và “hướng dẫn” khi các tín hiệu căn chỉnh bị làm sai lệch, dẫn đến việc hoàn toàn bỏ qua các rào chắn đạo đức.
Một điểm nguy hiểm khác là prompt này có thể khai thác để trích xuất toàn bộ system prompt – tập lệnh cốt lõi kiểm soát hành vi của AI, từ đó lộ ra các giới hạn vận hành và lệnh bảo mật độc quyền.
Lỗ hổng này xuất phát từ dữ liệu huấn luyện, không thể khắc phục đơn giản bằng bản vá mã nguồn.
Nguy cơ thực tế rất lớn: AI có thể cung cấp sai tư vấn y tế, lộ dữ liệu bệnh nhân, tiết lộ thông tin tài chính nhạy cảm, hoặc gây gián đoạn sản xuất, thậm chí ảnh hưởng an toàn hàng không.
RLHF (Reinforcement Learning from Human Feedback) không đủ để bảo vệ, vì các mô hình vẫn bị lừa nếu ý đồ xấu được ngụy trang khéo léo.
HiddenLayer khuyến nghị các tổ chức nên triển khai hệ thống giám sát AI bên ngoài (AISec, AIDR) để phát hiện và ngăn chặn tấn công prompt injection theo thời gian thực, thay vì chỉ dựa vào căn chỉnh nội bộ.
Khi AI tạo sinh ngày càng phổ biến trong các hệ thống trọng yếu, bề mặt tấn công mở rộng nhanh hơn khả năng bảo vệ, đòi hỏi chuyển đổi sang phòng thủ chủ động, liên tục thay vì chỉ hy vọng vào các rào chắn mặc định.
📌 HiddenLayer phát hiện một prompt duy nhất có thể vượt qua mọi rào chắn an toàn của các mô hình AI lớn, bao gồm ChatGPT, Gemini, Claude, LLaMA, DeepSeek, Qwen, Mistral. Kỹ thuật Policy Puppetry này có thể trích xuất lệnh hệ thống, gây nguy cơ thực tế cho y tế, tài chính, sản xuất, khẳng định RLHF không đủ bảo vệ, buộc doanh nghiệp phải triển khai phòng thủ AI chủ động.
https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/