- Apple và Viện Công nghệ Liên bang Thụy Sĩ (EPFL) phát triển phương pháp dựa trên sơ đồ tiền huấn luyện che phương thức đa phương thức, mở rộng đáng kể khả năng bằng cách huấn luyện trên nhiều phương thức đa dạng.
- Phương pháp này kết hợp hơn 20 phương thức như phân đoạn SAM, tư thế 3D của con người, cạnh Canny, bảng màu và các siêu dữ liệu và embedding khác nhau.
- Bằng cách sử dụng các bộ mã hóa rời rạc đặc thù cho từng phương thức, phương pháp mã hóa các đầu vào đa dạng thành một định dạng thống nhất, cho phép huấn luyện một mô hình duy nhất trên nhiều phương thức mà không làm giảm hiệu suất.
- Mô hình 4M-21 thể hiện nhiều khả năng như tạo sinh đa phương thức có thể điều khiển, truy xuất đa phương thức và hiệu suất tốt ngay từ đầu trên nhiều tác vụ thị giác.
- Mô hình có thể dự đoán bất kỳ phương thức huấn luyện nào bằng cách giải mã các token lặp đi lặp lại, cho phép tạo sinh chi tiết và đa phương thức với khả năng hiểu văn bản được cải thiện.
- Trong các đánh giá ngay từ đầu, 4M-21 đạt hiệu suất cạnh tranh trong các tác vụ như ước tính pháp tuyến bề mặt, ước tính độ sâu, phân đoạn ngữ nghĩa, phân đoạn thực thể, ước tính tư thế 3D của con người và truy xuất ảnh.
- Nghiên cứu cho thấy huấn luyện trên một tập hợp rộng hơn các phương thức không ảnh hưởng đến hiệu suất trên các tác vụ quen thuộc và có thể nâng cao khả năng trên các tác vụ mới, đặc biệt khi kích thước mô hình tăng lên.
📌 Mô hình 4M-21 của Apple với 3 tỷ tham số, được huấn luyện trên 21 phương thức đa dạng, thể hiện khả năng tạo sinh, truy xuất và tương tác đa phương thức mạnh mẽ. Mô hình đạt hiệu suất cao trên nhiều tác vụ thị giác, thường sánh ngang hoặc vượt trội so với các mô hình chuyên biệt, mở ra tiềm năng ứng dụng đa dạng của AI đa phương thức trong tương lai.
https://www.marktechpost.com/2024/06/18/apple-releases-4m-21-a-very-effective-multimodal-ai-model-that-solves-tens-of-tasks-and-modalities/