- Mô hình Aksara AI của Cropin được xây dựng dựa trên mô hình mã nguồn mở Mistral-7B-v0.1, nhằm dân chủ hóa kiến thức nông nghiệp để trao quyền cho nông dân.
- Các mô hình như OpenHathi và Tamil LLaMA được xây dựng trên các mô hình mã nguồn mở, cố gắng phá vỡ rào cản ngôn ngữ.
- Ấn Độ nên tập trung vào việc sử dụng AI để tạo ra sự khác biệt trong cuộc sống của mọi người, thay vì chạy đua xây dựng các mô hình ngôn ngữ lớn (LLM) tiếp theo.
- Với 22 ngôn ngữ chính thức và hàng trăm phương ngữ, AI mã nguồn mở giúp giải quyết thách thức này ở Ấn Độ thông qua các tính năng cốt lõi của nó.
- Ấn Độ có thể sử dụng MoE (Mixture of Experts) để kết hợp các mô hình dành riêng cho ngôn ngữ như Tamil LLaMA và Kannada LLaMA để tạo ra một mô hình đa ngôn ngữ chạy trên tài nguyên tối thiểu.
- Các mô hình LLM mã nguồn mở như BLOOM và IndicBERT đã được đào tạo trước ở nhiều ngôn ngữ Ấn Độ, giúp đẩy nhanh việc phát triển các LLM đa ngôn ngữ.
- Chi phí đào tạo một mô hình lớn như GPT-3 từ đầu ước tính từ 4 đến 10 triệu USD trở lên, trong khi một số mô hình ngang bằng hoặc tốt hơn GPT-3 lại miễn phí.
- Các nhà khoa học dữ liệu dành gần 50% thời gian để làm sạch dữ liệu, đặc biệt là khi xử lý nhiều ngôn ngữ và phương ngữ Ấn Độ với những đặc thù riêng.
- Sử dụng mô hình mã nguồn mở với dữ liệu được đào tạo trước giúp tiết kiệm rất nhiều thời gian để xây dựng các ứng dụng hữu ích xung quanh nó.
- Khi làm việc với mô hình mã nguồn mở, người dùng trên toàn thế giới có thể đóng góp vào dự án của bạn với các bộ dữ liệu chưa từng có trong danh sách của bạn, giúp nó mạnh mẽ hơn nhiều so với mô hình nguồn đóng.
📌 Ấn Độ nên song song xây dựng AI từ đầu và tận dụng các mô hình LLM mã nguồn mở để giải quyết các vấn đề thực tế. Điều này giúp tiết kiệm chi phí từ 4-10 triệu USD, thời gian làm sạch 50% dữ liệu và khắc phục rào cản 22 ngôn ngữ chính thức cùng hàng trăm phương ngữ, đồng thời thúc đẩy hệ sinh thái AI Ấn Độ phát triển.
https://analyticsindiamag.com/open-source-is-a-good-start-for-india/