- Qwen AI giới thiệu dòng mô hình ngôn ngữ Qwen2 gồm 5 kích cỡ từ 0.5B đến 72B tham số, được huấn luyện trên dữ liệu 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung.
- Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá chuẩn, đặc biệt cải thiện đáng kể khả năng lập trình và toán học. Qwen2-72B vượt trội hơn Qwen1.5-110B dù có ít tham số hơn.
- Các mô hình hỗ trợ chiều dài ngữ cảnh lên đến 128,000 token với Qwen2-7B-Instruct và Qwen2-72B-Instruct. Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin trong ngữ cảnh 128k token.
- Qwen2 được đánh giá cao về khả năng xử lý an toàn các truy vấn không an toàn đa ngôn ngữ, tương đương GPT-4 và vượt trội hơn Mistral-8x22B.
- Các mô hình Qwen2 đã được mở mã nguồn trên Hugging Face và ModelScope. Qwen2-72B vẫn sử dụng giấy phép Qianwen, các mô hình còn lại chuyển sang Apache 2.0 để thúc đẩy ứng dụng và thương mại hóa.
- Trong tương lai, Qwen AI sẽ huấn luyện các mô hình Qwen2 lớn hơn, mở rộng sang đa phương thức (vision, audio) và tiếp tục mở mã nguồn để thúc đẩy phát triển AI nguồn mở.
📌 Qwen AI đã ra mắt dòng mô hình ngôn ngữ Qwen2 với 5 kích thước từ 0.5B đến 72B tham số, hỗ trợ 27 ngôn ngữ. Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá, đặc biệt trong lập trình, toán học và xử lý ngữ cảnh dài lên đến 128,000 token. Các mô hình lớn như Qwen2-72B vượt trội hơn cả Qwen1.5-110B. Qwen2 cũng được đánh giá cao về khả năng xử lý an toàn, tương đương GPT-4. Hầu hết các mô hình Qwen2 đã được mở mã nguồn để thúc đẩy phát triển và ứng dụng AI nguồn mở. Trong tương lai, Qwen AI sẽ tiếp tục mở rộng Qwen2 lên các mô hình lớn hơn và hỗ trợ đa phương thức.
https://qwenlm.github.io/blog/qwen2/