BỘ DỮ LIỆU ĐÀO TẠO AI CHỨA ĐỰNG MỨC ĐỘ ĐÁNG LO NGẠI CỦA TÀI LIỆU LẠM DỤNG TÌNH DỤC TRẺ EM
- Nghiên cứu mới từ Stanford Internet Observatory (SIO) phát hiện hàng trăm hình ảnh lạm dụng tình dục trẻ em trong bộ dữ liệu mở LAION-5B.
- Bộ dữ liệu này được sử dụng để huấn luyện các mô hình AI sinh hình ảnh từ văn bản, bao gồm Stable Diffusion, có nguy cơ tạo ra vấn đề đạo đức.
- Các nhà nghiên cứu đã nhanh chóng báo cáo các URL chứa hình ảnh lạm dụng cho Trung tâm Dành cho Trẻ Em Mất Tích và Bị Lạm dụng Quốc gia (NCMEC) ở Mỹ và Trung tâm Bảo vệ Trẻ em Canada (C3P).
- Công cụ như PhotoDNA giúp xác định hình ảnh lạm dụng, nhưng việc làm sạch dữ liệu mở gặp khó khăn do thiếu cơ quan quản lý trung tâm.
- Báo cáo đưa ra khuyến nghị về an toàn khi thu thập và xử lý bộ dữ liệu, đề xuất sự hợp tác với các tổ chức bảo vệ trẻ em.
- Sự việc khiến cộng đồng AI cần xem xét lại tiêu chuẩn đạo đức và áp dụng biện pháp an toàn đã đề xuất để phát triển công nghệ AI một cách trách nhiệm và đạo đức.
📌 Cuộc điều tra của SIO là hồi chuông cảnh tỉnh cho cộng đồng AI về tầm quan trọng của việc kiểm soát chặt chẽ nguồn dữ liệu huấn luyện. Việc hợp tác với các tổ chức bảo vệ trẻ em và áp dụng công nghệ phát hiện nâng cao là cần thiết để đảm bảo sự phát triển công nghệ AI không làm tổn hại đến xã hội.