SEA-LION v2: Mô hình ngôn ngữ mã nguồn mở cho Đông Nam Á, phát triển bởi AI Singapore

• SEA-LION là một nhóm các mô hình ngôn ngữ nguồn mở được phát triển bởi AI Singapore, nhằm hiểu rõ hơn về bối cảnh, ngôn ngữ và văn hóa đa dạng của Đông Nam Á.

• Phiên bản đầu tiên của SEA-LION được phát hành vào tháng 12/2023, được đào tạo từ đầu bằng SEA-LION-PILE (khoảng 1 nghìn tỷ token).

Phiên bản mới nhất (v2) dựa trên việc tiếp tục đào tạo trước mô hình Llama 3 nguồn mở.

SEA-LION hoàn toàn minh bạch và nguồn mở, bao gồm dữ liệu đào tạo trước, mã đào tạo mô hình, trọng số mô hình, dữ liệu tinh chỉnh và các điểm chuẩn đánh giá.

• Các tính năng chính của SEA-LION v2:
- Tiếp tục đào tạo trước và tinh chỉnh từ Llama 3
- Được hướng dẫn bằng tiếng Anh, Bahasa Indonesia, Thái, Việt và Tamil
- Đào tạo với tối đa 50 tỷ token từ các ngôn ngữ Đông Nam Á
- Vượt trội hơn Llama 3 cơ sở và các mô hình khác trong cả khả năng chung và khả năng đặc thù cho Đông Nam Á

• SEA-LION v2 có sẵn để tải xuống trên HuggingFace với các phiên bản mô hình cơ sở, mô hình được hướng dẫn và mô hình lượng tử hóa.

• Mô hình đạt hiệu suất tốt hơn hoặc cạnh tranh trên các tác vụ bằng ngôn ngữ khu vực trong khi vẫn giữ được hiệu suất chung của Llama 3.

• Đánh giá toàn diện bao gồm các tác vụ NLP truyền thống và các bài kiểm tra chẩn đoán ngôn ngữ và văn hóa được thiết kế riêng cho Đông Nam Á.

• SEA-LION có thể được triển khai bằng Text Generation Inference (TGI), vLLM hoặc Ollama.

• Dự án chào đón sự đóng góp từ cộng đồng trong việc báo cáo lỗi, cải thiện tài liệu, thêm các tác vụ đánh giá mô hình và đào tạo các phiên bản mô hình bằng nhiều ngôn ngữ Đông Nam Á hơn.

📌 SEA-LION là mô hình ngôn ngữ nguồn mở tiên phong cho Đông Nam Á, vượt trội Llama 3 trong hiểu biết ngôn ngữ và văn hóa khu vực. Với 50 tỷ token đào tạo, nó hỗ trợ 5 ngôn ngữ chính và mở ra cơ hội mới cho AI đa ngôn ngữ trong khu vực.

https://github.com/aisingapore/sealion

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo