AI data 2024-02-18 08:25:36

Tệp Văn Bản Quyết Định Quyền Truy Cập Web Của Các Search Engine và AI Crawlers

- Tệp robots.txt được xem như "bản hiến pháp mini" của internet, tồn tại hơn ba thập kỷ và giúp ngăn chặn hỗn loạn trên mạng.
- Tệp này không có quyền lực pháp lý hay kỹ thuật cụ thể nhưng lại đại diện cho sự thỏa thuận giữa những người tiên phong đầu tiên của internet.
- Robots.txt cho phép chủ sở hữu website, từ blog cá nhân đến công ty đa quốc gia, quyết định ai có thể truy cập và ai không.
- Tệp này quản lý việc các search engine có thể lập chỉ mục trang web hay không, dự án lưu trữ có thể sao lưu trang hay không, và liệu đối thủ cạnh tranh có thể theo dõi trang cho mục đích của họ hay không.
- Trong nhiều thập kỷ, robots.txt chủ yếu tập trung vào các search engine, nhưng giờ đây cũng có các crawler dùng cho cả tìm kiếm web và AI.
- CCBot của tổ chức Common Crawl thu thập dữ liệu cho mục đích tìm kiếm và cũng được OpenAI, Google sử dụng để huấn luyện mô hình của họ.
- Bingbot của Microsoft hoạt động như cả một search crawler và AI crawler.
- Có những crawler hoạt động một cách bí mật, khiến việc ngăn chặn hoặc tìm kiếm chúng trong lưu lượng web trở nên khó khăn.
- Mark Graham, giám đốc của Internet Archive's Wayback Machine, nhận xét rằng robots.txt không nhất thiết phục vụ mục đích lưu trữ của họ.
- Một số nhà xuất bản muốn có quyền kiểm soát chi tiết hơn về việc truy cập và mục đích sử dụng dữ liệu thay vì chỉ có quyền cho phép hoặc cấm đoán đơn giản của robots.txt.

📌 Tệp robots.txt đã đóng vai trò quan trọng trong việc duy trì trật tự trên internet bằng cách cho phép các chủ sở hữ liệu quyết định ai có thể truy cập vào nội dung của họ. Tuy nhiên, với sự phát triển của công nghệ và nhu cầu sử dụng dữ liệu cho AI, đã xuất hiện những thách thức mới. Các crawler không chỉ giới hạn ở việc lập chỉ mục cho tìm kiếm web mà còn phục vụ cho việc huấn luyện mô hình AI, như CCBot và Bingbot. Điều này đặt ra nhu cầu cần thiết cho việc cập nhật và phát triển các quy định mới, nhằm cung cấp quyền kiểm soát chi tiết hơn cho các chủ sở hữu nội dung trên internet.

Citations:
[1] https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders

Không có file đính kèm.

Nguồn tham khảo

103

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Tệp Văn Bản Quyết Định Quyền Truy Cập Web Của Các Search Engine và AI Crawlers

Thảo luận

Follow Us

Tin phổ biến

TAG