• Matt Shumer, đồng sáng lập và CEO của startup viết AI HyperWrite, vừa ra mắt mô hình mới có tên Reflection 70B.
• Reflection 70B là mô hình ngôn ngữ nguồn mở hàng đầu, vượt trội so với các mô hình độc quyền như GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic.
• Mô hình được phát triển bằng kỹ thuật mới gọi là Reflection-Tuning, cho phép phát hiện và sửa lỗi của chính nó trước khi đưa ra câu trả lời cuối cùng.
• Reflection 70B đạt hiệu suất cao trong các bài kiểm tra chuẩn như MMLU, MATH, IFEval và GSM8K.
• Mô hình xuất ra quá trình suy luận nội bộ trong thẻ <thinking>, câu trả lời cuối cùng trong thẻ <output>, và sử dụng thẻ <reflection> để sửa lỗi phát hiện được.
• Hiện tại, Reflection 70B đứng đầu trong nhiều tiêu chuẩn và thể hiện hiệu suất vượt trội so với GPT-4o và Llama 3.1 405B.
• Mô hình Reflection 405B dự kiến ra mắt tuần tới, được kỳ vọng sẽ nâng cao tiêu chuẩn cho các mô hình ngôn ngữ lớn toàn cầu.
• Alibaba cũng vừa phát hành Qwen2-VL, mô hình mới nhất trong loạt mô hình thị giác-ngôn ngữ của họ.
• Qwen2-VL có khả năng trò chuyện qua camera, chơi trò chơi bài, và điều khiển điện thoại di động và robot bằng cách hoạt động như một agent.
• Qwen2-VL có 3 phiên bản: mô hình nguồn mở 2 tỷ và 7 tỷ tham số, và mô hình nâng cao 72 tỷ tham số truy cập qua API.
• Mô hình 72 tỷ tham số của Qwen2-VL đạt hiệu suất tốt nhất trong 20 tiêu chuẩn về hiểu thị giác.
• Alibaba cho biết mô hình 72 tỷ tham số của họ thể hiện hiệu suất hàng đầu trong hầu hết các chỉ số, thường vượt qua cả các mô hình độc quyền như GPT-4o và Claude 3.5-Sonnet.
• Qwen2-VL được đánh giá là có ưu thế đáng kể trong việc hiểu tài liệu.
📌 Hai mô hình AI nguồn mở mới Reflection 70B và Qwen2-VL 72B vượt trội GPT-4o và Claude 3.5 trong nhiều tiêu chuẩn. Reflection 70B sử dụng kỹ thuật Reflection-Tuning để tự sửa lỗi, trong khi Qwen2-VL thể hiện khả năng hiểu thị giác vượt trội trên 20 tiêu chuẩn.
https://analyticsindiamag.com/ai-news-updates/new-open-source-champion-reflection-70b-outperforms-gpt-4o-and-claude-sonnet-3-5/