Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM, đẩy mạnh khả năng hiểu hình ảnh

• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.

Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.

Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.

• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.

• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.

• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.

• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.

• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.

• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.

Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.

📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.

https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo