Các nhà nghiên cứu từ Microsoft và NU Singapore giới thiệu Cosmo: Khung AI đào tạo trước nguồn mở hoàn toàn được chế tạo tỉ mỉ để xử lý hình ảnh và video
- COSMO là một framework mới, giúp cải thiện khả năng xử lý dữ liệu đa phương tiện trong AI.
- Framework này chia mô hình ngôn ngữ thành các phân đoạn chuyên biệt cho văn bản đơn phương tiện và xử lý dữ liệu đa phương tiện.
- Sự kết hợp của contrastive loss và language model loss giúp cải thiện khả năng căn chỉnh dữ liệu, đặc biệt là giữa văn bản và hình ảnh.
- Howto-Interlink7M dataset, với những chú thích chi tiết về video-văn bản, đã được sử dụng để tăng cường hiệu suất mô hình trong nhiệm vụ liên quan đến ảnh-văn bản.
- Kết quả kiểm nghiệm cho thấy COSMO vượt trội so với các mô hình trước đây, với một bước tiến lớn từ 57.2% lên 65.1% trong nhiệm vụ chú thích ảnh Flickr với chỉ 4 mẫu dữ liệu.
📌 COSMO là một framework mới, giúp cải thiện khả năng xử lý dữ liệu đa phương tiện trong AI. COSMO không chỉ đánh dấu bước tiến trong việc xử lý dữ liệu đa phương tiện, mà còn phản ánh xu hướng mạnh mẽ hướng tới việc tạo ra các hệ thống AI phức tạp, có khả năng hiểu và xử lý thông tin theo cách công bằng và toàn diện. Kết quả cải thiện đáng kể trong việc căn chỉnh dữ liệu văn bản và hình ảnh từ 57,2% lên 65,1% trong nhiệm vụ chú thích ảnh Flickr chỉ ra khả năng tiềm tàng mà COSMO mang lại, mở ra khả năng áp dụng AI đa phương tiện trong nhiều lĩnh vực từ y tế đến giáo dục, và tiếp tục thách thức giới hạn hiện tại của AI.