- Meta công bố phát hành công khai họ mô hình AI mới có tên Chameleon, tương đương với các công cụ thương mại như Gemini Pro và GPT-4V.
- Chameleon có phiên bản 7 tỷ và 34 tỷ tham số, có khả năng hiểu và tạo ra hình ảnh và văn bản.
- Chameleon có thể xử lý kết hợp văn bản và hình ảnh (có thể liên quan với nhau) và tạo ra phản hồi có ý nghĩa.
- Ví dụ, bạn có thể chụp ảnh nội dung tủ lạnh và hỏi Chameleon món ăn nào có thể nấu chỉ với nguyên liệu sẵn có.
- Điều này không thể thực hiện được với thế hệ mô hình AI Llama, đưa nguồn mở đến gần hơn với các mô hình thị giác chính thống nổi tiếng hơn từ OpenAI và Google.
- Nhóm nghiên cứu Fundamental AI Research (FAIR) tại Meta đã phát hành công khai mô hình này cho mục đích nghiên cứu, tuy nhiên có một số hạn chế.
- Chìa khóa thành công của Chameleon là kiến trúc hoàn toàn dựa trên token. Mô hình học cách lý luận về hình ảnh và văn bản một cách liên kết.
- Các thách thức kỹ thuật mà nhóm Meta phải vượt qua bao gồm những vấn đề liên quan đến tính ổn định tối ưu hóa và mở rộng quy mô, bằng cách sử dụng các phương pháp và kỹ thuật đào tạo mới.
- Người dùng có thể yêu cầu Chameleon tạo lịch trình trải nghiệm ngày hạ chí và mô hình AI sẽ cung cấp hình ảnh liên quan kèm theo văn bản tạo ra.
- Theo đánh giá của con người, Chameleon tương đương hoặc vượt trội hơn các mô hình như Gemini Pro và GPT-4V khi lời nhắc hoặc đầu ra chứa chuỗi hỗn hợp cả hình ảnh và văn bản.
- Phiên bản Chameleon được phát hành công khai chỉ có thể tạo ra văn bản đầu ra và mức độ an toàn được tăng cường có chủ đích.
- Đối với các nhà nghiên cứu, Chameleon là nguồn cảm hứng cho các cách thay thế để đào tạo và thiết kế mô hình AI.
📌 Chameleon của Meta là bước tiến đáng kể trong AI mã nguồn mở, với khả năng xử lý linh hoạt cả hình ảnh và văn bản, tương đương các mô hình thương mại như Gemini Pro, GPT-4V. Kiến trúc dựa trên token và các kỹ thuật đào tạo mới giúp Chameleon vượt qua thách thức tối ưu hóa, mở rộng quy mô. Phiên bản công khai hiện chỉ tạo văn bản đầu ra, nhưng đã tiến bộ đáng kể so với 5 tháng trước.
https://www.tomsguide.com/ai/meta-just-dropped-an-open-source-gpt-4o-style-model-heres-what-it-means