• Baidu, gã khổng lồ tìm kiếm Internet Trung Quốc, đã bắt đầu chặn các công cụ tìm kiếm trực tuyến của Google và Microsoft Bing thu thập nội dung từ dịch vụ kiểu Wikipedia của Baidu.
• Cập nhật gần đây của file robots.txt của Baidu Baike đã chặn hoàn toàn khả năng của các trình thu thập dữ liệu Googlebot và Bingbot lập chỉ mục nội dung từ nền tảng Trung Quốc này.
• Cập nhật này dường như đã được thực hiện vào ngày 8/8, theo ghi nhận của dịch vụ lưu trữ internet Wayback Machine.
• Trước đó cùng ngày, Baidu Baike vẫn cho phép Google và Bing duyệt và lập chỉ mục kho lưu trữ trực tuyến gần 30 triệu mục của mình, chỉ có một phần trang web bị hạn chế truy cập.
• Động thái này cho thấy nỗ lực gia tăng của Baidu nhằm bảo vệ tài sản trực tuyến của mình, khi nhu cầu về khối lượng lớn dữ liệu để đào tạo và xây dựng các mô hình và ứng dụng AI ngày càng tăng.
• Trước đó, nền tảng tổng hợp tin tức xã hội Reddit của Mỹ cũng đã chặn các công cụ tìm kiếm khác, ngoại trừ Google, lập chỉ mục các bài đăng và thảo luận trực tuyến của mình vào tháng 7.
• Google có thỏa thuận trị giá hàng triệu đô la với Reddit cho phép thu thập dữ liệu từ nền tảng mạng xã hội này để đào tạo các dịch vụ AI của mình.
• Ngay cả Microsoft năm ngoái cũng đe dọa cắt quyền truy cập vào dữ liệu tìm kiếm internet của mình, vốn được cấp phép cho các nhà điều hành công cụ tìm kiếm đối thủ, nếu họ không ngừng sử dụng nó làm cơ sở cho chatbot và các dịch vụ AI tạo sinh khác.
• Hiện tại, phiên bản tiếng Trung của Wikipedia có 1,43 triệu mục, vẫn cho phép các trình thu thập dữ liệu công cụ tìm kiếm truy cập.
• Sau khi Baidu Baike cập nhật robots.txt, khảo sát của Post trên Google và Bing vào thứ Sáu vẫn tìm thấy nhiều mục từ dịch vụ kiểu Wikipedia này trong kết quả tìm kiếm, có thể do nội dung được lưu trong bộ nhớ đệm cũ.
• Hơn hai năm sau khi OpenAI ra mắt ChatGPT, nhiều nhà phát triển AI lớn trên thế giới đang ký kết thỏa thuận với các nhà xuất bản nội dung để tiếp cận nội dung chất lượng cho các dự án AI tạo sinh của họ.
• Ví dụ, OpenAI đã ký thỏa thuận với tạp chí Time của Mỹ vào tháng 6, cho phép truy cập toàn bộ nội dung lưu trữ từ hơn 100 năm lịch sử của tạp chí này.
📌 Baidu chặn Google và Bing thu thập dữ liệu từ Baidu Baike, phản ánh xu hướng bảo vệ dữ liệu trong cuộc đua AI. Các nền tảng lớn như Reddit, Microsoft cũng có động thái tương tự. Nhu cầu dữ liệu chất lượng cho AI tạo sinh tăng cao, thúc đẩy các thỏa thuận chia sẻ dữ liệu giữa các công ty công nghệ và nhà xuất bản.
https://finance.yahoo.com/news/baidu-blocks-google-bing-scraping-093000944.html