DeepSeek vừa công bố mô hình AI toán học nguồn mở mới nhất, DeepSeek-Prover-V2-671B, trên Hugging Face, tích hợp 671 tỷ tham số và dựa trên kiến trúc DeepSeek-V3.
Mô hình này gồm 61 lớp Transformer, kích thước ẩn 7.168, hỗ trợ xử lý ngữ cảnh dài với embedding vị trí lên đến 163.840 tokens.
Prover-V2 tương thích định dạng file safetensors, nhiều loại độ chính xác (precision) nhằm tối ưu hiệu suất huấn luyện và triển khai. Tích hợp FP8 quantization giúp giảm kích thước và cải thiện tốc độ suy luận.
Đây là bản nâng cấp từ mô hình Prover-V1.5 ra mắt năm ngoái.
Xu hướng mới trong AI là tăng cường năng lực lập luận toán học, được xem như yếu tố chủ lực thúc đẩy phát triển AI và đổi mới nghiên cứu khoa học.
AI toán học mở ra khả năng tự động hóa chứng minh định lý, tạo ra dự đoán và rút ngắn rào cản tham gia lĩnh vực toán học chuyên sâu.
DeepSeek cùng các hãng lớn như OpenAI, Alibaba liên tục thử sức mô hình trên các bài kiểm tra toán học danh giá như AIME, MATH-500.
Prover-V2 sử dụng kiến trúc Mixture-of-Experts (MoE) cho phép chỉ kích hoạt các submodel liên quan, giúp mô hình vận hành với 37 tỷ tham số hiệu dụng dù tổng số lượng là 671 tỷ.
Chiến lược này giảm mạnh chi phí tính toán, minh chứng qua việc DeepSeek chỉ tốn 5,6 triệu USD với 2.048 GPU Nvidia H800, tiết kiệm hơn khoảng 95% so với các đối thủ cùng cấu hình.
Việc sử dụng MoE đang là xu hướng chung của ngành AI, Llama 4 của Meta cũng áp dụng kiến trúc này để tối ưu hiệu năng mà không giảm chất lượng.
Chính sách mở của DeepSeek đã thu hút hơn 10 triệu lượt tải mô hình, hơn 500 mô hình phái sinh trên các nền tảng như Hugging Face kể từ khi ra mắt năm 2023.
Mô hình AI Trung Quốc như DeepSeek đang khẳng định vị thế toàn cầu dù đối mặt hạn chế về phần cứng tiên tiến do lệnh giới hạn xuất khẩu.
Alibaba đã giới thiệu QwQ-32B (32 tỷ tham số) để cạnh tranh trực diện với DeepSeek-R1 và OpenAI-o1, dù số tham số thấp hơn rất nhiều so với DeepSeek.
📌 DeepSeek-Prover-V2-671B gây chấn động khi hỗ trợ ngữ cảnh siêu dài, sử dụng MoE để vận hành hiệu quả với chỉ 37 tỷ tham số hiệu dụng. Chính sách nguồn mở, số lượt tải hơn 10 triệu, và hơn 500 mô hình phái sinh đang định hình lại cuộc chơi AI toán học toàn cầu.
https://www.techinasia.com/news/deepseek-releases-opensource-math-model-proverv2
DeepSeek đã ra mắt mô hình mới, DeepSeek-Prover-V2-671B, trên nền tảng mã nguồn mở Hugging Face. Mô hình này dựa trên kiến trúc DeepSeek-V3 và có 671 tỷ tham số.
DeepSeek-Prover-V2 bao gồm 61 lớp Transformer với kích thước ẩn 7.168. Mô hình hỗ trợ các tác vụ ngữ cảnh dài với giới hạn nhúng vị trí lên đến 163.840 token.
Mô hình tương thích với định dạng tệp safetensors và nhiều loại độ chính xác khác nhau để nâng cao hiệu quả đào tạo và triển khai. Mô hình cũng tích hợp lượng tử hóa FP8 để giảm kích thước và cải thiện hiệu suất suy luận.
Phiên bản này là bản nâng cấp từ mô hình Prover-V1.5 được giới thiệu vào năm ngoái.