Wikipedia đang đối mặt với chi phí tăng cao do các bot AI liên tục quét dữ liệu, chiếm dụng băng thông

- Wikipedia đang phải đối mặt với chi phí tăng cao do các bot AI liên tục quét dữ liệu từ trang web để huấn luyện mô hình AI, gây áp lực lớn lên băng thông của trang.

- Wikimedia Foundation cảnh báo rằng "các yêu cầu tự động đối với nội dung của chúng tôi đã tăng theo cấp số nhân", gây gián đoạn truy cập và buộc Wikipedia phải bổ sung thêm năng lực, làm tăng hóa đơn trung tâm dữ liệu.

- Kể từ tháng 1/2024, băng thông sử dụng để tải xuống nội dung đa phương tiện đã tăng 50%, không phải từ người đọc mà từ các chương trình tự động liên tục tải xuống "hình ảnh được cấp phép mở để cung cấp cho các mô hình AI".

- Ít nhất 65% lưu lượng tiêu tốn tài nguyên đến từ bot, một tỷ lệ không cân xứng khi tổng lượt xem trang từ bot chỉ chiếm khoảng 35% tổng số.

- Bot thường thu thập dữ liệu từ các bài viết Wikipedia ít phổ biến và thậm chí quét "các hệ thống quan trọng trong cơ sở hạ tầng dành cho nhà phát triển, chẳng hạn như nền tảng đánh giá mã hoặc trình theo dõi lỗi".

- Để đối phó, Wikipedia đã áp đặt giới hạn tốc độ "tùy từng trường hợp" đối với các trình thu thập dữ liệu AI vi phạm, hoặc thậm chí cấm chúng hoàn toàn.

- Wikimedia Foundation đang phát triển kế hoạch "Sử dụng hạ tầng có trách nhiệm", nhấn mạnh rằng áp lực mạng từ bot AI là "không bền vững".

- Tổ chức này dự định thu thập phản hồi từ cộng đồng Wikipedia về cách tốt nhất để nhận diện lưu lượng từ bot AI và lọc quyền truy cập của chúng, bao gồm yêu cầu người vận hành bot phải xác thực khi quét dữ liệu với khối lượng lớn.

- Reddit đã đối mặt với tình huống tương tự vào năm 2023, khi Microsoft quét dữ liệu của Reddit mà không thông báo. Reddit sau đó đã chặn Microsoft và quyết định tính phí các nhà phát triển bên thứ ba để truy cập API của mình.

- Wikimedia Foundation nhấn mạnh: "Nội dung của chúng tôi miễn phí, cơ sở hạ tầng của chúng tôi thì không: Chúng tôi cần hành động ngay bây giờ để thiết lập lại sự cân bằng lành mạnh."

📌 Wikimedia Foundation cảnh báo về việc bot AI đang làm tăng chi phí hạ tầng khi băng thông tải nội dung đa phương tiện tăng 50% từ tháng 1/2024. Với 65% lưu lượng tiêu tốn tài nguyên đến từ bot, tổ chức đang phát triển kế hoạch "Sử dụng hạ tầng có trách nhiệm" để đảm bảo tính bền vững.

 

https://www.pcmag.com/news/wikipedia-faces-flood-of-ai-bots-that-are-eating-bandwidth-raising-costs

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo