- Công ty công nghệ Mỹ Ai2 vừa công bố mô hình AI nguồn mở Tülu 3 405B, khẳng định hiệu suất vượt trội hơn DeepSeek V3
- Mô hình này là phiên bản mới nhất trong dòng Tülu 3, sử dụng phương pháp học tăng cường từ phần thưởng có thể xác minh (RLVR)
- Theo công bố trên nền tảng X, Tülu 3 405B:
+ Có hiệu suất ngang bằng với GPT-4o
+ Vượt trội hơn các mô hình post-trained cùng quy mô như Llama 3.1
+ Đạt kết quả tốt hơn DeepSeek V3 trong nhiều tiêu chuẩn đánh giá
- Ai2 nhấn mạnh hiệu quả của framework RLVR:
+ Cải thiện đáng kể hiệu suất MATH ở quy mô lớn 405B
+ Cho kết quả tốt hơn so với mô hình 70B và 8B
+ Phát hiện tương tự được ghi nhận trong báo cáo DeepSeek-R1
- Điểm khác biệt của Tülu 3 405B:
+ Là mô hình nguồn mở
+ Tất cả thành phần cần thiết để sao chép đều miễn phí
+ Được cấp phép sử dụng
- Người phát ngôn của Ai2 chia sẻ với TechCrunch: mô hình này thể hiện tiềm năng dẫn đầu của Mỹ trong phát triển các mô hình AI tạo sinh tốt nhất toàn cầu
📌 Ai2 của Mỹ tạo bước đột phá với mô hình AI nguồn mở Tülu 3 405B, vượt trội DeepSeek V3 của Trung Quốc trong nhiều tiêu chuẩn đánh giá. Mô hình sử dụng framework RLVR, cho hiệu suất ngang bằng GPT-4o và vượt qua Llama 3.1 cùng quy mô.
https://readwrite.com/us-based-ai2-releases-new-ai-model-claims-it-beats-deepseek/