- AURORA-M là một mô hình ngôn ngữ lớn (LLM) nguồn mở đa ngôn ngữ mới với 15 tỷ tham số, được điều chỉnh cho 6 ngôn ngữ đa dạng: tiếng Anh, Phần Lan, Hindi, Nhật Bản, Việt Nam và mã lập trình.
- Bắt đầu từ mô hình StarCoderPlus, AURORA-M trải qua quá trình tiền huấn luyện liên tục trên tập dữ liệu lớn gồm 435 tỷ token, dẫn đến tổng số token huấn luyện ấn tượng là 2 nghìn tỷ.
- An toàn là nguyên tắc thiết kế cơ bản, biến AURORA-M trở thành LLM nguồn mở đa ngôn ngữ đầu tiên được tinh chỉnh trên tập hợp các hướng dẫn an toàn do con người đánh giá, giải quyết các mối quan tâm được nêu trong Lệnh hành pháp của Biden-Harris về Phát triển và Sử dụng AI An toàn, Bảo mật và Đáng tin cậy.
- Các nhà nghiên cứu đã tạo ra một tập dữ liệu lớn gồm các cặp hướng dẫn-phản hồi để tăng cường tính an toàn và khả năng phục hồi của AURORA-M, giải quyết các lĩnh vực như ngăn ngừa tổn hại, tấn công mạng, hoạt động bất hợp pháp, xâm phạm quyền riêng tư và phá vỡ các biện pháp kiểm soát an toàn.
- Kết quả đánh giá cho thấy AURORA-M thành công trong việc tránh quên thảm khốc trong các tác vụ tiếng Anh và mã hóa, đồng thời đạt được hiệu suất cạnh tranh trên các tiêu chuẩn đa ngôn ngữ.
- Đánh giá an toàn khẳng định cam kết của AURORA-M về an toàn và tuân thủ các thực tiễn phát triển AI có trách nhiệm.
📌 AURORA-M đánh dấu bước tiến đáng kể trong việc dân chủ hóa quyền truy cập vào các LLM đa ngôn ngữ và an toàn. Mô hình 15 tỷ tham số này được tinh chỉnh trên 6 ngôn ngữ (có tiếng Việt) và tập dữ liệu 2 nghìn tỷ token, đạt hiệu suất cao trên nhiều tác vụ, đồng thời tuân thủ các tiêu chuẩn pháp lý và thực tiễn phát triển AI có trách nhiệm.
https://www.marktechpost.com/2024/04/07/aurora-m-a-15b-parameter-multilingual-open-source-ai-model-trained-in-english-finnish-hindi-japanese-vietnamese-and-code/