- HuggingFace giới thiệu FineWeb, một bộ dữ liệu toàn diện để nâng cao việc huấn luyện các mô hình ngôn ngữ lớn (LLM), với 15 nghìn tỷ token và 44TB dung lượng.
- FineWeb sử dụng 96 bản chụp CommonCrawl, một tổ chức phi lợi nhuận lưu trữ web từ năm 2007.
- Quá trình loại bỏ trùng lặp nghiêm ngặt sử dụng kỹ thuật MinHash giúp loại bỏ dữ liệu dư thừa, cải thiện hiệu suất mô hình.
- Các chiến lược lọc tiên tiến được áp dụng để loại bỏ nội dung chất lượng thấp, bao gồm phân loại ngôn ngữ, lọc URL, loại bỏ tài liệu có quá nhiều nội dung mẫu hoặc không kết thúc dòng bằng dấu câu.
- FineWeb-Edu, một tập con của FineWeb, tập trung vào nội dung giáo dục, được tạo ra bằng cách sử dụng chú thích tổng hợp từ Llama-3-70B-Instruct để đánh giá giá trị học thuật của 500.000 mẫu.
- Một bộ phân loại được huấn luyện trên các chú thích này sau đó được áp dụng cho toàn bộ tập dữ liệu để lọc ra nội dung không liên quan đến giáo dục.
- FineWeb đã được thử nghiệm kỹ lưỡng với nhiều tiêu chuẩn đánh giá, liên tục vượt trội hơn các bộ dữ liệu web mở quy mô khác.
- Hiệu suất của bộ dữ liệu được xác thực thông qua một loạt các tiêu chuẩn "tín hiệu sớm" sử dụng các mô hình nhỏ.
- FineWeb-Edu cho thấy sự cải thiện đáng kể, chứng minh hiệu quả của việc sử dụng chú thích tổng hợp để lọc nội dung giáo dục chất lượng cao.
- HuggingFace phát hành FineWeb đánh dấu một khoảnh khắc quan trọng trong cộng đồng khoa học mở, cung cấp cho các nhà nghiên cứu và người dùng một công cụ mạnh mẽ để huấn luyện các LLM hiệu suất cao.
📌 FineWeb, bộ dữ liệu 15 nghìn tỷ token và 44TB của HuggingFace, đặt ra tiêu chuẩn mới cho việc tiền huấn luyện các mô hình ngôn ngữ lớn. Với quá trình loại bỏ trùng lặp nghiêm ngặt và các chiến lược lọc tiên tiến, FineWeb và tập con FineWeb-Edu hứa hẹn cải thiện đáng kể hiệu suất của LLM trên nhiều tiêu chuẩn đánh giá. Việc phát hành FineWeb đánh dấu một bước tiến quan trọng trong cộng đồng khoa học mở.
https://www.marktechpost.com/2024/06/03/huggingface-releases-%F0%9F%8D%B7-fineweb-a-new-large-scale-15-trillion-tokens-44tb-disk-space-dataset-for-llm-pretraining/