• Cloudflare vừa ra mắt công cụ miễn phí nhằm ngăn chặn bot thu thập dữ liệu từ các website trên nền tảng của họ để huấn luyện mô hình AI.
• Một số nhà cung cấp AI như Google, OpenAI và Apple cho phép chủ website chặn bot thu thập dữ liệu bằng cách sửa đổi file robots.txt. Tuy nhiên, Cloudflare chỉ ra rằng không phải tất cả bot AI đều tôn trọng quy tắc này.
• Cloudflare đã phân tích lưu lượng truy cập của bot và crawler AI để tinh chỉnh các mô hình phát hiện bot tự động. Các mô hình này xem xét nhiều yếu tố, bao gồm việc bot AI có đang cố gắng trốn tránh phát hiện bằng cách bắt chước hành vi của người dùng trình duyệt web hay không.
• Công ty cho biết họ có thể nhận dạng các công cụ và framework mà các đối tượng xấu sử dụng để thu thập dữ liệu quy mô lớn. Dựa trên các tín hiệu này, mô hình của họ có thể gắn cờ lưu lượng từ bot AI lén lút một cách phù hợp.
• Cloudflare đã thiết lập một biểu mẫu để chủ host báo cáo các bot và crawler AI đáng ngờ. Họ sẽ tiếp tục đưa vào danh sách đen các bot AI theo thời gian.
• Vấn đề bot AI ngày càng trở nên nghiêm trọng khi nhu cầu dữ liệu huấn luyện mô hình tăng cao do sự bùng nổ của AI tạo sinh.
• Khoảng 26% trong số 1.000 trang web hàng đầu đã chặn bot của OpenAI. Một nghiên cứu khác cho thấy hơn 600 nhà xuất bản tin tức đã chặn bot này.
• Tuy nhiên, việc chặn không phải là biện pháp bảo vệ tuyệt đối. Một số nhà cung cấp dường như đang bỏ qua các quy tắc loại trừ bot tiêu chuẩn để giành lợi thế cạnh tranh trong cuộc đua AI.
• Công cụ tìm kiếm AI Perplexity gần đây bị cáo buộc giả mạo người dùng hợp pháp để thu thập nội dung từ các trang web. OpenAI và Anthropic cũng được cho là đôi khi bỏ qua quy tắc robots.txt.
• Công cụ của Cloudflare có thể hữu ích, nhưng chỉ khi chúng chứng minh được độ chính xác trong việc phát hiện bot AI bí mật.
📌 Cloudflare ra mắt công cụ miễn phí chống bot AI thu thập dữ liệu trái phép, phân tích lưu lượng để phát hiện bot lén lút. 26% trong 1.000 trang web hàng đầu đã chặn bot OpenAI, nhưng vẫn còn thách thức về việc bỏ qua quy tắc robots.txt và giả mạo người dùng.
https://techcrunch.com/2024/07/03/cloudflare-launches-a-tool-to-combat-ai-bots/