• Viện AI Allen và Đại học Washington giới thiệu gia đình mô hình ngôn ngữ-thị giác Molmo, một giải pháp hoàn toàn mở về trọng số và dữ liệu.
• Molmo không phụ thuộc vào dữ liệu tổng hợp từ hệ thống độc quyền, mà sử dụng bộ dữ liệu PixMo mới gồm hơn 712.000 hình ảnh và khoảng 1,3 triệu chú thích do con người tạo ra.
• PixMo sử dụng phương pháp sáng tạo yêu cầu người chú thích mô tả chi tiết mọi hình ảnh trong 60-90 giây, thu thập được dữ liệu mô tả chất lượng cao.
• Gia đình Molmo bao gồm các mô hình:
- MolmoE-1B: Sử dụng mô hình ngôn ngữ lớn OLMoE-1B-7B nguồn mở
- Molmo-7B-O: Sử dụng OLMo-7B-1024 nguồn mở
- Molmo-7B-D: Mô hình demo sử dụng Qwen2 7B
- Molmo-72B: Mô hình hiệu suất cao nhất, sử dụng Qwen2 72B
• Molmo-72B vượt trội nhiều hệ thống độc quyền hàng đầu như Gemini 1.5 và Claude 3.5 Sonnet trên 11 benchmark học thuật.
• Trong đánh giá của con người với 15.000 cặp hình ảnh-văn bản, Molmo-72B xếp thứ 2, chỉ sau GPT-4o.
• Molmo-72B đạt điểm cao nhất trong benchmark AndroidControl với độ chính xác 88,7% cho tác vụ cấp thấp và 69,0% cho tác vụ cấp cao.
• MolmoE-1B có hiệu suất gần bằng GPT-4V, là một mô hình nguồn mở hiệu quả và cạnh tranh.
• Molmo sử dụng pipeline đơn giản nhưng mạnh mẽ kết hợp bộ mã hóa thị giác được huấn luyện trước (dựa trên ViT-L/14 CLIP của OpenAI) với mô hình ngôn ngữ.
• Sự thành công của Molmo trong cả đánh giá học thuật và người dùng cho thấy tiềm năng của các mô hình VLM nguồn mở trong việc cạnh tranh và vượt qua các hệ thống độc quyền.
• Việc phát hành các mô hình Molmo cùng bộ dữ liệu PixMo mở đường cho đổi mới và hợp tác trong phát triển mô hình ngôn ngữ-thị giác trong tương lai.
📌 Molmo là gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen, sử dụng dữ liệu PixMo do con người tạo ra. Molmo-72B vượt trội nhiều hệ thống độc quyền trên 11 benchmark, cho thấy tiềm năng của mô hình nguồn mở trong việc cạnh tranh với các hệ thống hàng đầu mà không cần dữ liệu tổng hợp.
https://www.marktechpost.com/2024/09/26/are-small-language-models-really-the-future-of-language-models-allen-institute-for-artificial-intelligence-ai2-releases-molmo-a-family-of-open-source-multimodal-language-models/