- Các nhà nghiên cứu tại Apple xây dựng MM1, một dòng mô hình đa phương thức tiên tiến với tới 30 tỷ tham số.
- Họ chú trọng tính minh bạch và tài liệu chi tiết, cung cấp những hiểu biết sâu sắc về cách xây dựng các mô hình ngôn ngữ lớn đa phương thức (MLLM).
- Tài liệu tỉ mỉ đề cập đến mọi thứ từ việc lựa chọn bộ mã hóa hình ảnh đến các phức tạp khi kết nối dữ liệu hình ảnh với các yếu tố ngôn ngữ.
- Một trong những khám phá quan trọng của nghiên cứu là tác động đáng kể của dữ liệu tiền huấn luyện được lựa chọn cẩn thận đến hiệu suất của mô hình.
- Các nhà nghiên cứu phát hiện ra rằng sự kết hợp thông minh giữa các cặp hình ảnh-chú thích, tài liệu hình ảnh-văn bản xen kẽ và dữ liệu chỉ văn bản là rất quan trọng để đạt được kết quả vượt trội.
- Nó nhấn mạnh tầm quan trọng của tính đa dạng trong dữ liệu huấn luyện, cho phép các mô hình tổng quát hóa tốt hơn trên các tác vụ và thiết lập khác nhau.
- Bộ mô hình MM1 thể hiện một bước tiến đáng kể, có khả năng đạt được hiệu suất cạnh tranh trên nhiều tiêu chuẩn.
- Điểm nổi bật của MM1 là quy mô lớn và các đổi mới kiến trúc, bao gồm các mô hình dày đặc và các biến thể hỗn hợp chuyên gia.
- Các mô hình này chứng minh hiệu quả của cách tiếp cận của các nhà nghiên cứu, kết hợp tiền huấn luyện quy mô lớn với lựa chọn dữ liệu chiến lược để tăng cường khả năng học của mô hình.
📌 MM1 của Apple đại diện cho một bước tiến quan trọng trong lĩnh vực MLLM với quy mô lên tới 30 tỷ tham số. Nghiên cứu nhấn mạnh tầm quan trọng của tính minh bạch, tài liệu chi tiết và lựa chọn dữ liệu chiến lược trong việc xây dựng các mô hình phức tạp này. MM1 thể hiện tiềm năng to lớn của MLLM được thiết kế tốt trong việc thiết lập các tiêu chuẩn mới về hiểu biết đa phương thức.
https://www.marktechpost.com/2024/03/16/apple-announces-mm1-a-family-of-multimodal-llms-up-to-30b-parameters-that-are-sota-in-pre-training-metrics-and-perform-competitively-after-fine-tuning/