- Sailor là một họ các mô hình ngôn ngữ mở với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho sự đa dạng ngôn ngữ của khu vực Đông Nam Á (SEA).
- Các mô hình Sailor dựa trên mô hình ngôn ngữ linh hoạt Qwen1.5 và được tiền huấn luyện liên tục trên một kho ngữ liệu lớn gồm 200B đến 400B token.
- Phần lớn kho ngữ liệu bao gồm tiếng Anh, tiếng Trung, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai và tiếng Lào.
- Quy trình huấn luyện sử dụng nhiều chiến lược như BPE dropout để tăng cường khả năng tổng quát hóa của mô hình và giảm thiểu vấn đề quá khớp.
- Các quy trình khử trùng lặp và làm sạch dữ liệu nghiêm ngặt được áp dụng để đảm bảo chất lượng của tập huấn luyện, từ đó cải thiện hiệu suất tổng thể của các mô hình Sailor.
- Tỷ lệ kết hợp dữ liệu huấn luyện được tối ưu hóa bằng cách sử dụng các mô hình proxy nhỏ, cho phép điều chỉnh siêu tham số và nâng cao hiệu quả của quá trình huấn luyện.
- Các thử nghiệm trên nhiều tác vụ như kiểm tra, trả lời câu hỏi, đọc hiểu và suy luận thông thường đã chứng minh tính mạnh mẽ và hữu ích của các mô hình Sailor so với các tiêu chuẩn đa dạng.
- Nghiên cứu trình bày một phương pháp toàn diện để phát triển các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả trong sự đa dạng ngôn ngữ của khu vực SEA.
📌 Sailor là một bộ mô hình ngôn ngữ mở đầy hứa hẹn với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho các ngôn ngữ Đông Nam Á. Dựa trên Qwen1.5 và được tiền huấn luyện trên kho ngữ liệu 200B-400B token, Sailor đạt hiệu suất vượt trội trên nhiều tác vụ nhờ các kỹ thuật như BPE dropout, làm sạch dữ liệu và tối ưu hóa tỷ lệ kết hợp dữ liệu huấn luyện.
https://www.marktechpost.com/2024/04/09/meet-sailor-a-family-of-open-language-models-ranging-from-0-5b-to-7b-parameters-for-southeast-asian-sea-languages/
https://arxiv.org/abs/2404.03608