Khi được yêu cầu trực tiếp tạo thông tin sai lệch, các chatbot AI thường từ chối. Tuy nhiên, thử nghiệm cho thấy biện pháp an toàn này rất “nông”, chỉ dựa trên vài từ mở đầu của câu trả lời.
Nghiên cứu từ Princeton và Google phát hiện sự “căn chỉnh nông” (shallow safety) thường chỉ kiểm soát 3–7 từ đầu tiên (tương đương 5–10 tokens). Nếu chatbot bắt đầu bằng “Tôi không thể” thì thường tiếp tục từ chối, nhưng nếu né được bước này, nó dễ dàng tuân theo yêu cầu có hại.
Thí nghiệm của nhóm tại University of Technology Sydney xác nhận: khi yêu cầu tạo thông tin sai về chính sách hưu trí của đảng Lao động Úc, chatbot từ chối. Nhưng khi “ngụy trang” yêu cầu thành một mô phỏng chiến lược marketing, chatbot lại tạo ra cả chiến dịch xuyên tạc đầy đủ với hashtag, nội dung cho từng nền tảng và ý tưởng hình ảnh.
Đây chính là kỹ thuật “model jailbreaking” – biến yêu cầu độc hại thành bối cảnh vô hại để đánh lừa hệ thống.
Nguy cơ thực tế:
Kẻ xấu có thể tạo chiến dịch thông tin sai lệch quy mô lớn với chi phí cực thấp.
Nội dung trông “chân thật”, vượt qua kiểm chứng và nhắm đến cộng đồng cụ thể.
Quá trình có thể tự động hóa, giảm đáng kể nhu cầu nhân lực.
Giải pháp được đề xuất:
Huấn luyện chatbot với “safety recovery examples” để có thể dừng lại ngay cả sau khi bắt đầu sinh nội dung có hại.
Giới hạn độ lệch so với phản hồi an toàn khi tinh chỉnh.
Triển khai “constitutional AI training” để chatbot thấm nhuần nguyên tắc đạo đức, không chỉ phản ứng bề mặt.
Thách thức: yêu cầu nguồn lực tính toán lớn và thời gian tái huấn luyện. Trong khi đó, biện pháp hiện tại chưa đủ bền vững trước các kỹ thuật bypass mới.
Khoảng cách giữa khả năng sinh ngôn ngữ giống con người và sự thiếu hiểu biết về ngữ cảnh, đạo đức vẫn là vấn đề cốt lõi.
📌 Nghiên cứu chỉ ra biện pháp an toàn AI hiện nay chỉ “nông”, kiểm soát 3–7 từ đầu tiên, dễ bị đánh lừa bằng model jailbreaking. Điều này cho phép kẻ xấu tạo chiến dịch thông tin sai lệch với chi phí thấp, nội dung chân thực và quy mô lớn. Các giải pháp như safety recovery, constitutional AI hay giới hạn tinh chỉnh được đề xuất, nhưng cần nguồn lực lớn. Trong khi chưa có giải pháp toàn diện, việc giám sát con người và chính sách quản lý AI là tối quan trọng.
https://theconversation.com/how-we-tricked-ai-chatbots-into-creating-misinformation-despite-safety-measures-264184