- Sanskriti Bench là dự án nhằm phát triển một tiêu chuẩn văn hóa Ấn Độ để kiểm tra sự gia tăng của các mô hình AI Ấn Độ, do nhà nghiên cứu AI Guneet Singh Kohli khởi xướng.
- Dự án thu thập dữ liệu từ người bản ngữ từ các vùng khác nhau trên khắp Ấn Độ để đảm bảo tính đa dạng, chính xác và chất lượng của dữ liệu, điều này không có sẵn trong các bộ dữ liệu ngôn ngữ Ấn Độ khác vốn chủ yếu là bản dịch từ tiếng Anh.
- Kohli cũng hợp tác với GitHub và Save the Children để xây dựng công cụ AI cho an toàn trẻ em và chuẩn bị một hệ thống AI có thể phát hiện những người cố gắng dụ dỗ trẻ em trực tuyến.
- Mục tiêu cuối cùng của Kohli là thành lập một Phòng thí nghiệm AI toàn cầu vì An toàn trẻ em.
- Hiện tại, dự án đang trong giai đoạn đầu tiên, tạo các câu hỏi để xây dựng bộ dữ liệu làm chuẩn cho các mô hình ngôn ngữ lớn (LLM), sau đó sẽ được đăng trên bảng xếp hạng của Hugging Face.
- Kohli đang hướng tới 500 câu hỏi cho mỗi ngôn ngữ và mỗi vùng của đất nước, bắt đầu với 10 ngôn ngữ, có thể được tăng cường bằng các mô hình ngôn ngữ trong các phiên bản sau.
- Kohli nhấn mạnh tầm quan trọng của việc các nhà nghiên cứu đang xây dựng các mô hình AI khác nhau bằng các ngôn ngữ khác nhau cần phải hợp tác với nhau để đóng góp cho sáng kiến này.
📌 Sanskriti Bench là dự án tiên phong nhằm xây dựng tiêu chuẩn văn hóa Ấn Độ cho AI, với 500 câu hỏi cho mỗi ngôn ngữ và vùng miền, bắt đầu từ 10 ngôn ngữ. Dự án kêu gọi sự hợp tác của các nhà nghiên cứu AI Ấn Độ để tạo ra dữ liệu bản địa chất lượng cao, đảm bảo các mô hình AI tôn trọng sự đa dạng văn hóa độc đáo của đất nước.
https://analyticsindiamag.com/meet-the-creator-of-sanskriti-bench-building-cultural-ai-for-india-with-hugging-face-and-github/