• Sarvam AI vừa ra mắt mô hình ngôn ngữ lớn Sarvam-1, được phát triển từ đầu bằng cơ sở hạ tầng AI trong nước của Ấn Độ.
• Mô hình có 2 tỷ tham số, hỗ trợ 10 ngôn ngữ bản địa Ấn Độ bao gồm: Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil và Telugu, cùng với tiếng Anh.
• Sarvam-1 được huấn luyện trên bộ dữ liệu Sarvam-2T với 2 nghìn tỷ token, trong đó 20% là tiếng Hindi, phần còn lại phân bố đều giữa các ngôn ngữ khác.
• Mô hình đạt hiệu quả token từ 1,4-2,1 token/từ, thấp hơn nhiều so với 4-8 token/từ của các mô hình hiện có.
• Về hiệu năng, Sarvam-1 vượt trội hơn các mô hình lớn hơn như Llama-3 của Meta và Gemma-2 của Google trên các tiêu chuẩn như MMLU, ARC-Challenge và IndicGenBench.
• Trên bộ dữ liệu TriviaQA, mô hình đạt độ chính xác 86,11% với các ngôn ngữ Ấn Độ, cao hơn nhiều so với 61,47% của Llama-3.1 8B.
• Tốc độ xử lý nhanh hơn 4-6 lần so với các mô hình lớn như Gemma-2-9B và Llama-3.1-8B.
• Mô hình được phát triển với sự hợp tác của NVIDIA (cung cấp GPU H100), Yotta (cơ sở hạ tầng đám mây) và AI4Bharat.
• Sarvam-1 hiện đã có mặt trên Hugging Face dưới dạng nguồn mở.
📌 Sarvam-1 là mô hình AI nguồn mở đầu tiên của Ấn Độ hỗ trợ 10 ngôn ngữ bản địa với 2 tỷ tham số, được huấn luyện trên 2 nghìn tỷ token, có tốc độ xử lý nhanh hơn 4-6 lần và độ chính xác vượt trội (86,11%) so với các mô hình lớn hơn.
https://indianexpress.com/article/technology/artificial-intelligence/what-is-sarvam-1-a-new-ai-model-optimised-for-10-indian-languages-9638492/