Dù là trung tâm công nghệ toàn cầu, Ấn Độ vẫn tụt hậu trong lĩnh vực phát triển mô hình AI nền tảng (foundation model) do thiếu đầu tư R&D, hạ tầng điện toán yếu và thách thức đa ngôn ngữ.
Năm 2024, Ấn Độ chỉ chi 0,65% GDP cho nghiên cứu (25,4 tỷ USD), trong khi Trung Quốc đầu tư 2,68% GDP (476,2 tỷ USD) và Mỹ là 3,5% GDP (962,3 tỷ USD).
DeepSeek-R1, mô hình ngôn ngữ mở từ Trung Quốc ra mắt đầu 2025 với 236 tỷ tham số, đạt hiệu suất vượt trội và truyền cảm hứng lẫn lo ngại trong giới AI Ấn Độ.
Phản ứng lại, chính phủ Ấn Độ ra mắt IndiaAI Mission trị giá 1,25 tỷ USD vào tháng 3/2024, đặt mục tiêu phát triển 6 mô hình ngôn ngữ lớn và 18 ứng dụng AI trong các lĩnh vực thiết yếu như y tế, giáo dục và nông nghiệp.
Bộ Công nghệ Thông tin (MeitY) huy động gần 19.000 GPU (trong đó 13.000 là Nvidia H100) từ các đối tác như Jio, Tata, AWS, Yotta… để hỗ trợ các startup AI nội địa.
Một trong những mô hình tiêu biểu là Sarvam AI với dự án huấn luyện mô hình 70 tỷ tham số cho các ngôn ngữ Ấn Độ, với mục tiêu tích hợp vào hạ tầng kỹ thuật số quốc gia (India Stack).
Trước đó, Sarvam từng phát hành Sarvam-1 (2 tỷ tham số) và Sarvam-M (24 tỷ tham số), tuy nhiên Sarvam-M chỉ đạt 300 lượt tải trong 2 ngày, gây tranh cãi về hiệu quả và mô hình thương mại hóa “đóng” dù sử dụng nguồn lực công.
Trong khi đó, Pragna-1B của Soket Labs, mô hình 1,25 tỷ tham số do nhóm nhỏ phát triển với chi phí chỉ 250.000 USD, áp dụng kỹ thuật balanced tokenization giúp cải thiện đáng kể hiệu suất cho tiếng Hindi và Gujarati – vốn thường bị các mô hình quốc tế xử lý kém.
Một mô hình khác là Krutrim-2 (12 tỷ tham số), phát triển tokenizer riêng cho 22 ngôn ngữ chính thức tại Ấn Độ và phục vụ ứng dụng giọng nói, giao tiếp không cần văn bản – cực kỳ phù hợp với người dùng nông thôn và người lớn tuổi.
Hệ sinh thái AI Ấn Độ hiện vẫn đang hình thành, thiếu dữ liệu ngôn ngữ chất lượng cao. Nhiều mô hình gặp khó khăn do tokenizer toàn cầu xử lý kém các ký tự tiếng Ấn, gây tăng chi phí huấn luyện và giảm độ chính xác.
Để giải quyết, các startup tối ưu phần mềm thay vì chỉ tăng quy mô phần cứng. “Một mô hình 1 tỷ tham số, nếu tối ưu tốt, có thể hoạt động như LLaMA 2 (7 tỷ tham số) trong tiếng Hindi,” Upperwal cho biết.
Chính phủ còn công bố Quỹ sâu (Deep Tech Fund) trị giá 1,2 tỷ USD cho đổi mới công nghệ tư nhân, đồng thời triển khai AI Labs tại các thành phố cấp hai và xây dựng kho dữ liệu ngôn ngữ quốc gia.
Đến nay, IndiaAI đã nhận hơn 500 đề xuất phát triển AI cho y tế, nông nghiệp, giáo dục, hành chính… và dự kiến tài trợ trực tiếp cho 10-12 startup xây dựng mô hình nền tảng.
Tuy nhiên, việc nhiều mô hình được tài trợ công nhưng không mã nguồn mở gây lo ngại về minh bạch và tiếp cận công bằng. “Tự chủ AI nên đi kèm sự cởi mở,” chuyên gia Amlan Mohanty bình luận.
Trong khi đó, doanh nhân Paras Chopra đang xây dựng chương trình Lossfunk – “Bell Labs của Ấn Độ” – để thu hút nhà nghiên cứu độc lập theo hướng AI mã nguồn mở, với cơ chế thưởng cổ phần như startup.
Bài học từ Trung Quốc, nơi DeepSeek-R1 mở trọng số để toàn cầu cộng tác, cho thấy mô hình mở có thể giúp các nước không có hạ tầng mạnh vươn lên.
Chi phí xây dựng trung tâm dữ liệu tại Ấn Độ rẻ hơn 50% so với Mỹ, giúp nước này có lợi thế dài hạn nếu tận dụng tốt năng lực kỹ sư và chi phí vận hành thấp.
📌 Ấn Độ đang tăng tốc giành quyền tự chủ AI với chiến lược đầu tư 1,25 tỷ USD, phát triển mô hình ngôn ngữ lớn mang đặc trưng ngôn ngữ và văn hóa nội địa. Dù gặp khó khăn về dữ liệu, hạ tầng và chính sách mở, các mô hình như Sarvam, Krutrim và Pragna cho thấy tiềm năng đổi mới của Ấn Độ trong lĩnh vực AI. Sự phối hợp giữa nhà nước và tư nhân sẽ quyết định liệu Ấn Độ có thể trở thành điểm sáng AI tại Global South hay không.
https://www.technologyreview.com/2025/07/04/1119705/inside-indias-scramble-for-ai-independence/
#MIT