• Meta vừa ra mắt mô hình ngôn ngữ lớn nhất của họ - Llama 3.1 405B, được quảng cáo là mô hình nguồn mở đầu tiên có thể cạnh tranh với các mô hình đóng như GPT-4 và Gemini 1.5.
• Tác giả đã thử nghiệm Llama 3.1 405B bằng một câu hỏi đơn giản về cách chia động từ "ყოფნა" (có nghĩa là "là") trong tiếng Georgia.
• Kết quả cho thấy Llama 3.1 405B đã thất bại hoàn toàn, đưa ra câu trả lời vô nghĩa và sai lệch so với câu trả lời chính xác của GPT-4o mini.
• Thử nghiệm được thực hiện trên cả trang web Meta AI chính thức và nền tảng HuggingChat, đều cho kết quả tương tự.
• Điều này đặc biệt đáng chú ý vì các nhà nghiên cứu của Meta đã nhấn mạnh về khả năng đa ngôn ngữ được cải thiện của Llama 3.1 trong báo cáo kỹ thuật.
• Mô hình có xu hướng tạo ra các từ nghe có vẻ hợp lệ trong tiếng Georgia nhưng thực tế là sai hoàn toàn, cho thấy dấu hiệu của việc quá khái quát hóa.
• Khi thử lại nhiều lần, Llama 3.1 405B đôi khi có thể đưa ra câu trả lời đúng cho thì hiện tại, nhưng lại thất bại với thì tương lai.
• Đáng chú ý là phiên bản nhỏ hơn Llama 3.1 70B lại có thể trả lời đúng ngay từ lần đầu tiên, gợi ý rằng việc tăng kích thước và sức mạnh tính toán có thể làm giảm chất lượng kết quả trong một số trường hợp.
• Meta đã sử dụng nhiều dữ liệu tổng hợp để "tinh chỉnh" mô hình. Điều này đặt ra câu hỏi liệu việc sử dụng dữ liệu tổng hợp ở quy mô lớn có góp phần gây ra hiện tượng "quá chuẩn hóa" hay không.
📌 Llama 3.1 405B của Meta thất bại trước câu hỏi đơn giản về ngôn ngữ Georgia, trong khi mô hình nhỏ hơn 70B lại trả lời đúng. Điều này đặt ra nghi vấn về hiệu quả của việc tăng kích thước mô hình và sử dụng dữ liệu tổng hợp quy mô lớn trong AI tạo sinh.
https://www.zdnet.com/article/i-broke-metas-llama-3-1-405b-with-one-question-which-gpt-4o-mini-gets-right/