Llama-3 70B Instruct Gradient 1048K: siêu mô hình ngữ cảnh dài 1 triệu token

- Llama-3 70B Instruct Gradient 1048K là mô hình do Gradient phát triển, mở rộng độ dài ngữ cảnh của Llama-3 70B từ 8k lên hơn 1048K token.
- Mô hình được tài trợ tính toán bởi Crusoe Energy và chỉ cần huấn luyện trên 34 triệu token cho giai đoạn này, tổng cộng ~430 triệu token cho tất cả các giai đoạn, tương đương < 0,003% dữ liệu tiền huấn luyện gốc của Llama-3.
- Phương pháp tiếp cận bao gồm sử dụng meta-llama/Meta-Llama-3-70B-Instruct làm cơ sở, nội suy NTK-aware theo quy luật tỷ lệ để thiết lập lịch trình tối ưu cho RoPE theta, huấn luyện tiệm cận trên các độ dài ngữ cảnh tăng dần.
- Dữ liệu huấn luyện được tạo ra bằng cách tăng cường SlimPajama để tạo ngữ cảnh dài. Mô hình cũng được tinh chỉnh trên tập dữ liệu trò chuyện dựa trên UltraChat.
- Quá trình huấn luyện tiệm cận trải qua các giai đoạn 65K, 262K, 524K và 1048K token, với độ dài chuỗi, RoPE theta, kích thước batch và số bước tích lũy gradient tăng dần.

📌 Llama-3 70B Instruct Gradient 1048K (1 triệu token) thể hiện khả năng vượt trội của các mô hình ngôn ngữ tiên tiến trong việc học hoạt động trên ngữ cảnh dài với lượng huấn luyện tối thiểu, chỉ cần 430 triệu token, tương đương < 0,003% dữ liệu gốc, nhờ điều chỉnh thích hợp RoPE theta và huấn luyện tiệm cận.

Citations:
[1] https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo