Mistral ra mắt Pixtral 12B - mô hình đa phương thức xử lý cả hình ảnh và văn bản

• Mistral, startup AI của Pháp, vừa phát hành Pixtral 12B - mô hình đa phương thức đầu tiên của họ có khả năng xử lý cả hình ảnh và văn bản.

• Pixtral 12B có 12 tỷ tham số, kích thước khoảng 24GB. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình.

Mô hình này được xây dựng dựa trên Nemo 12B - một trong những mô hình văn bản của Mistral. 

• Pixtral 12B có thể trả lời câu hỏi về số lượng hình ảnh tùy ý với kích thước tùy ý, dựa trên URL hoặc hình ảnh được mã hóa bằng base64.

• Các khả năng dự kiến của Pixtral 12B bao gồm chú thích hình ảnh và đếm số lượng đối tượng trong ảnh, tương tự như các mô hình đa phương thức khác như Claude của Anthropic và GPT-4 của OpenAI.

• Mô hình có sẵn để tải xuống thông qua liên kết torrent trên GitHub và nền tảng phát triển AI Hugging Face.

• Pixtral 12B được cấp phép Apache 2.0, cho phép tải xuống, tinh chỉnh và sử dụng không hạn chế.

• Chưa có bản demo web hoạt động tại thời điểm công bố. Sophia Yang, Trưởng bộ phận quan hệ nhà phát triển của Mistral, cho biết Pixtral 12B sẽ sớm có mặt trên nền tảng chatbot và API của Mistral là Le Chat và Le Plateforme.

• Chưa rõ Mistral đã sử dụng dữ liệu hình ảnh nào để phát triển Pixtral 12B.

• Hầu hết các mô hình AI tạo sinh, bao gồm cả các mô hình khác của Mistral, được đào tạo trên lượng lớn dữ liệu công khai từ internet, thường có bản quyền.

• Một số nhà cung cấp mô hình cho rằng quyền "sử dụng hợp lý" cho phép họ thu thập bất kỳ dữ liệu công khai nào, nhưng nhiều chủ sở hữu bản quyền không đồng ý và đã kiện các nhà cung cấp lớn hơn như OpenAI và Midjourney.

• Pixtral 12B ra mắt sau khi Mistral đóng vòng gọi vốn 645 triệu USD do General Catalyst dẫn đầu, định giá công ty ở mức 6 tỷ USD.

• Mistral, được thành lập hơn một năm trước và có Microsoft là cổ đông thiểu số, được coi là câu trả lời của châu Âu cho OpenAI.

Chiến lược của Mistral bao gồm phát hành các mô hình "mở" miễn phí, tính phí cho các phiên bản quản lý của những mô hình đó và cung cấp dịch vụ tư vấn cho khách hàng doanh nghiệp.

📌 Mistral ra mắt Pixtral 12B - mô hình đa phương thức 12 tỷ tham số xử lý hình ảnh và văn bản. Được cấp phép Apache 2.0, mô hình 24GB này dựa trên Nemo 12B, có thể tải xuống và sử dụng tự do. Đây là bước tiến quan trọng sau khi Mistral gọi vốn 645 triệu USD, định giá 6 tỷ USD.

https://techcrunch.com/2024/09/11/mistral-releases-pixtral-its-first-multimodal-model/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo