• Nhiều trang web lớn như New York Times, Vox Media, Facebook và Condé Nast đã chặn bot AI của Apple thu thập dữ liệu từ trang của họ.
• Động cơ chính là tiền bạc - các trang web muốn Apple trả tiền để được quyền sử dụng nội dung của họ để huấn luyện AI.
• Apple đã cho phép các trang web từ chối không cho thu thập dữ liệu, nhưng điều này có vẻ vô nghĩa vì Apple đã quét internet và huấn luyện mô hình AI của mình trước đó.
• Khoảng 1/4 trong số hơn 1.000 trang tin tức đã chặn bot Applebot-Extended thu thập dữ liệu AI.
• Một số trang web đã đàm phán thỏa thuận riêng với Apple để cho phép sử dụng dữ liệu của họ. Việc chặn truy cập là chiến thuật đàm phán.
• Google đã chi 60 triệu USD để có quyền độc quyền lập chỉ mục Reddit, khiến các công cụ tìm kiếm khác không thể cập nhật kết quả mới.
• Các chuyên gia lo ngại xu hướng này sẽ dẫn đến một internet phân mảnh, nơi chỉ những công ty lớn mới có quyền truy cập dữ liệu.
• Các nhà xuất bản nhỏ có thể bị đánh cắp dữ liệu hoặc biến mất khỏi internet.
• Các mô hình AI nguồn mở và độc lập sẽ gặp khó khăn trong việc tiếp cận dữ liệu cập nhật để huấn luyện.
• Các nhà xuất bản có thể nhận được phí cấp phép nhưng sẽ mất lưu lượng truy cập vào trang web của họ.
• Các công ty công nghệ lớn như Apple, Google, OpenAI đang tìm cách tái đóng gói nội dung của các nhà xuất bản thành sản phẩm của riêng họ.
• Xu hướng này có thể dẫn đến tình trạng tương tự như dịch vụ phát trực tuyến, nơi người dùng phải đăng ký nhiều dịch vụ khác nhau để truy cập nội dung.
• Ngoài các vấn đề về quyền truy cập dữ liệu, AI cũng đang gây ra những lo ngại lớn về môi trường.
📌 Các thỏa thuận AI độc quyền đang làm thay đổi cục diện internet, với 25% trang tin tức lớn chặn bot AI của Apple. Xu hướng này có thể dẫn đến sự phân mảnh web, gây bất lợi cho các nhà xuất bản nhỏ và mô hình AI nguồn mở, đồng thời làm thay đổi cách người dùng truy cập thông tin trên mạng.
https://www.lifewire.com/exclusive-ai-scraping-deals-ruining-the-web-8704419