Gặp gỡ nhà nghiên cứu AI đang xây dựng các mô hình ngôn ngữ thị giác nhận thức văn hóa

- Vinija Jain, kỹ sư học máy kỳ cựu tại Amazon và nghiên cứu viên tại IIT Patna, đã công bố bài báo "How Culturally Aware are Vision-Language Models?" đánh giá độ nhạy cảm văn hóa của AI trong chú thích hình ảnh.
- Jain thu thập 1.500 hình ảnh về các loại hình múa và ẩm thực Ấn Độ, tạo ra bộ dữ liệu MOSAIC-1.5k đại diện cho sự phong phú văn hóa Ấn Độ. Cô cũng giới thiệu Điểm số Nhận thức Văn hóa (CAS) để đo lường khả năng nắm bắt ngữ cảnh văn hóa trong chú thích hình ảnh của các mô hình AI.
- Gần đây, Guneet Singh Kohli, nhà nghiên cứu AI tại GreyOrange, đã tạo ra Sanskriti Bench nhằm phát triển tiêu chuẩn văn hóa Ấn Độ để kiểm tra sự gia tăng của các mô hình AI Ấn Độ. Jain cũng bắt đầu hợp tác với Kohli cho sáng kiến này.
- Jain đang xây dựng Indic-MMLU, tập trung vào việc hiểu các ngôn ngữ Ấn Độ. Cô hy vọng sẽ phát hành tiêu chuẩn này vào cuối tháng tới.
- Jain cũng đang cố vấn cho các sinh viên của Sriparna Saha tại phòng thí nghiệm AI của IIT Patna cho nghiên cứu y tế Ấn Độ. Bài báo "M3: Multimodal, Multilingual, Medical Help Assistant" sẽ là VLM y tế đa ngôn ngữ đầu tiên của Ấn Độ.
- Jain đang làm việc để tạo ra danh mục tất cả các nghiên cứu AI Ấn Độ có tác động, bao gồm LLM, tập dữ liệu, tiêu chuẩn, framework và bộ mã hóa.

📌 Vinija Jain, một nhà nghiên cứu AI gốc Ấn, đang nỗ lực xây dựng các mô hình ngôn ngữ thị giác nhận thức văn hóa và thúc đẩy nghiên cứu AI Ấn Độ. Các dự án của cô như MOSAIC-1.5k, Indic-MMLU và M3 hướng tới việc cải thiện khả năng của AI trong việc hiểu và phục vụ cộng đồng Ấn Độ tốt hơn, đồng thời truyền cảm hứng cho nhiều nghiên cứu AI khác tại quốc gia này.

https://analyticsindiamag.com/meet-the-ai-researcher-building-culturally-aware-vision-language-models/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo