• Google vừa âm thầm giới thiệu một bot mới có tên Google-CloudVertexBot trong tài liệu về crawler của họ.
• Bot mới này được thiết kế để thu thập dữ liệu cho khách hàng thương mại sử dụng sản phẩm Vertex AI của Google.
• Khác với các bot khác phục vụ cho Google Search hoặc quảng cáo, Google-CloudVertexBot tập trung vào việc thu thập nội dung website cho khách hàng Vertex AI.
• Tài liệu chính thức của Google Cloud mô tả 6 loại kho dữ liệu trong Vertex AI Agent Builder, trong đó có dữ liệu website công khai.
• Có 2 loại thu thập dữ liệu website: cơ bản và nâng cao, mỗi loại có những hạn chế riêng.
• Phần mô tả về dữ liệu website và thu thập cơ bản không đề cập đến việc xác minh quyền sở hữu tên miền.
• Tuy nhiên, phần thu thập nâng cao yêu cầu xác minh tên miền và áp dụng hạn ngạch thu thập.
• Tài liệu về bot mới nói rằng nó chỉ thu thập "theo yêu cầu của chủ website" khi xây dựng Vertex AI Agents.
• Nhưng ghi chú trong changelog lại cho thấy bot mới có thể đến thu thập dữ liệu trên website của bạn.
• Chuỗi user agent của bot mới là "Google-CloudVertexBot".
• Tài liệu còn khá mơ hồ về việc bot mới có thu thập các website công khai hay không.
• Chưa rõ liệu chủ website có nên chặn bot mới này trong robots.txt để phòng ngừa hay không, do tài liệu chưa nêu rõ nó chỉ thu thập các tên miền đã được xác minh thuộc quyền kiểm soát của đơn vị yêu cầu thu thập hay không.
📌 Google vừa ra mắt bot AI mới Google-CloudVertexBot để thu thập dữ liệu cho Vertex AI. Tài liệu còn mơ hồ về phạm vi hoạt động, gây hoang mang cho chủ website về việc có nên chặn bot này hay không. Cần thêm hướng dẫn rõ ràng từ Google.
https://www.searchenginejournal.com/google-vertex-ai-crawler/524956/