• Hai nghiên cứu mới chỉ ra những hạn chế đáng ngạc nhiên của AI tạo sinh khi phân tích văn bản dài và video, trái ngược với những tuyên bố quảng cáo.
• Một nghiên cứu kiểm tra khả năng của các mô hình ngôn ngữ AI trong việc hiểu và tiếp tục các câu chuyện dài, đánh giá mức độ hiểu và phát triển các tường thuật mở rộng.
• Với một cuốn sách dài 520 trang, Gemini 1.5 Pro trả lời chính xác các câu hỏi đúng/sai 46,7% thời gian, trong khi Gemini Flash chỉ đạt 20%.
• GPT-4 đạt độ chính xác cao nhất là 55,8% trên bộ dữ liệu NoCha (Novel Challenge).
• Các giải thích do mô hình tạo ra cho quyết định của chúng thường không chính xác, ngay cả đối với các tuyên bố được gắn nhãn đúng.
• Marzena Karpinska, đồng tác giả nghiên cứu, nhận xét rằng mặc dù các mô hình như Gemini 1.5 Pro có thể xử lý ngữ cảnh dài về mặt kỹ thuật, nhưng trong nhiều trường hợp chúng không thực sự "hiểu" nội dung.
• Nghiên cứu thứ hai tập trung vào đánh giá hiệu suất của các mô hình ngôn ngữ thị giác (VLM) trong việc phân tích video.
• Các nhà nghiên cứu tạo ra một bộ dữ liệu gồm hình ảnh kèm theo các câu hỏi để mô hình trả lời về các đối tượng được mô tả trong hình ảnh.
• Kết quả cho thấy các VLM hiện đại gặp khó khăn trong việc bỏ qua thông tin không liên quan khi trả lời các truy vấn trong ngữ cảnh thị giác dài.
• Gemini Flash hoạt động kém hiệu quả khi được yêu cầu phiên mã 6 chữ số viết tay từ một trình chiếu 25 hình ảnh, chỉ đạt khoảng 50% độ chính xác và 30% với 8 chữ số.
• Michael Saxon, đồng tác giả nghiên cứu, nhận xét rằng việc nhận dạng số trong khung hình và đọc nó dường như đặc biệt khó khăn đối với tất cả các mô hình được kiểm tra.
• Những phát hiện này đặt ra câu hỏi về khả năng thực tế của AI tạo sinh trong việc phân tích và hiểu các nguồn dữ liệu phức tạp và dài hơn.
• Các công ty nên cân nhắc những hạn chế này khi tích hợp AI tạo sinh vào lực lượng lao động của họ.
📌 Nghiên cứu mới cho thấy Google Gemini và các mô hình AI khác gặp khó khăn đáng kể khi phân tích văn bản dài và video. Gemini 1.5 Pro chỉ đạt 46,7% độ chính xác với sách 520 trang, trong khi GPT-4 đạt cao nhất 55,8%. Các mô hình cũng gặp khó khăn trong việc trả lời câu hỏi về video, đặt ra câu hỏi về khả năng thực tế của AI trong xử lý dữ liệu phức tạp.
https://www.techspot.com/news/103610-google-gemini-not-good-analysis-hype-other-ai.html