SEA-LION - mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á

- SEA-LION là mô hình ngôn ngữ lớn (LLM) mã nguồn mở do AI Singapore (AISG) phát triển, tập trung vào ngôn ngữ và văn hóa Đông Nam Á.
- Mô hình hiện chạy trên 2 phiên bản: 3 tỷ tham số và 7 tỷ tham số, được huấn luyện trên 981 tỷ token ngôn ngữ, bao gồm 623 tỷ token tiếng Anh, 128 tỷ token Đông Nam Á và 91 tỷ token tiếng Trung.
- 13% dữ liệu đằng sau SEA-LION tập trung vào Đông Nam Á, trong khi Llama 2 của Meta chỉ chứa 0.5%.
- AISG dự kiến phát hành mô hình 7 tỷ tham số mới vào giữa năm 2024 và các mô hình 13 tỷ và 30 tỷ tham số sau đó trong năm nay.
- Mục tiêu là cải thiện hiệu suất của LLM với các mô hình lớn hơn, có khả năng tạo ra các kết nối tốt hơn, có khả năng nhắc nhở zero-shot và hiểu ngữ cảnh mạnh mẽ hơn về các nét đặc trưng của khu vực.
- Singapore cũng đang tìm cách giải quyết sự thiếu hụt các tiêu chuẩn mạnh mẽ để đánh giá hiệu quả của mô hình AI và phát triển các chỉ số để xác định sự thiên vị trong các LLM tập trung vào châu Á.
- Trung Quốc hiện dẫn đầu với hơn 200 mô hình nền tảng. Các mô hình khác cũng đang nhanh chóng xuất hiện trên khắp khu vực.
- Đối với hầu hết các doanh nghiệp, việc mua các mô hình nền tảng từ các nhà cung cấp bên ngoài sẽ là chuẩn mực. Khả năng thích ứng của mô hình đối với nhu cầu kinh doanh cụ thể và tính khả dụng tại địa phương trong khu vực đặc biệt quan trọng.
- Các tổ chức nên có cái nhìn toàn diện khi đánh giá các mô hình nền tảng và duy trì cách tiếp cận tiệm tiến trong việc áp dụng AI tạo sinh.
- Ấn Độ cũng đang tìm cách xây dựng mô hình nền tảng của riêng mình để hỗ trợ tốt hơn các yêu cầu độc đáo của mình.
- Hầu hết các tổ chức ở khu vực sẽ áp dụng cách tiếp cận lai, tận dụng cả mô hình nền tảng châu Á - Thái Bình Dương và Hoa Kỳ để cung cấp năng lượng cho nền tảng AI của họ.

📌 SEA-LION là mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á với 981 tỷ token ngôn ngữ, trong đó 13% dữ liệu tập trung vào khu vực. AISG đang phát triển các mô hình lớn hơn lên đến 30 tỷ tham số và các tiêu chuẩn mới để đánh giá hiệu quả, giải quyết sự thiếu hụt và thiên vị trong các LLM hiện tại.

https://www.zdnet.com/article/singapore-is-among-asian-nations-championing-need-for-more-inclusive-ai-models/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo