- Trong lịch sử phát triển AI, kích thước mô hình đã được coi là yếu tố quan trọng. Tuy nhiên, nghiên cứu gần đây cho thấy chất lượng dữ liệu huấn luyện cũng đóng vai trò then chốt.
- Mô hình Chinchilla của DeepMind chỉ bằng 1/4 kích thước của mô hình Gopher của Google, nhưng được huấn luyện với lượng dữ liệu gấp 4 lần và đạt độ chính xác cao hơn 7%.
- Lượng dữ liệu văn bản chất lượng cao trên thế giới (khoảng 2.8 nghìn tỷ token) không đủ để đáp ứng nhu cầu huấn luyện của các mô hình LLM lớn.
- Các mô hình thương mại gặp khó khăn trong việc tiếp cận dữ liệu do vấn đề bản quyền. Dữ liệu phi tiếng Anh còn hạn chế hơn.
- Dữ liệu trùng lặp gây ra hiện tượng mô hình ghi nhớ thay vì tổng quát hóa, dẫn đến sự suy giảm chất lượng.
- Lặp lại toàn bộ tập dữ liệu qua nhiều chu kỳ huấn luyện có thể cải thiện hiệu suất mô hình, nhưng lợi ích giảm dần.
- Sử dụng dữ liệu tổng hợp có thể dẫn đến sự phân kỳ so với dữ liệu thực và làm giảm hiệu suất của mô hình.
- Các nhà nghiên cứu đang tập trung vào việc kiểm tra kỹ lưỡng hơn chất lượng dữ liệu huấn luyện và xác định mức độ an toàn khi sử dụng dữ liệu tổng hợp.
- Sáng kiến DataComp tập trung vào việc giữ nguyên kiến trúc mô hình và cải tiến cách lọc, xử lý dữ liệu để cải thiện hiệu suất.
- Các mô hình nguồn mở đang cố gắng thu hẹp khoảng cách với các mô hình tiên phong, nhưng vẫn gặp khó khăn do thiếu thông tin về tập dữ liệu của các công ty công nghệ lớn.
📌 Mặc dù kích thước mô hình vẫn đóng vai trò quan trọng, chất lượng dữ liệu huấn luyện đang trở thành yếu tố then chốt trong việc phát triển các mô hình ngôn ngữ lớn. Các nhà nghiên cứu đang nỗ lực cải thiện chất lượng dữ liệu thông qua việc loại bỏ nội dung trùng lặp, kiểm soát sử dụng dữ liệu tổng hợp và áp dụng các phương pháp lọc, xử lý dữ liệu tiên tiến. Tuy nhiên, sự thiếu minh bạch về tập dữ liệu của các công ty lớn vẫn là một thách thức đối với cộng đồng nghiên cứu AI nguồn mở.
Citations:
[1] https://cacm.acm.org/news/data-quality-may-be-all-you-need/