- DeepSeek Coder V2 được xây dựng dựa trên DeepSeek-V2, một mô hình MoE ra mắt tháng trước.
- Mô hình này hỗ trợ hơn 300 ngôn ngữ lập trình, tăng từ 86 ngôn ngữ của phiên bản gốc, và mở rộng cửa sổ ngữ cảnh lên 128K.
- Trên các bài kiểm tra MBPP+, HumanEval và Aider, DeepSeek Coder V2 đạt điểm số lần lượt là 76.2, 90.2 và 73.7, vượt trội hơn hầu hết các mô hình nguồn đóng và mở như GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral và Llama-3 70B.
- Để đạt được những tiến bộ này, DeepSeek đã tiền huấn luyện mô hình cơ sở V2 trên bộ dữ liệu bổ sung 6 nghìn tỷ token, chủ yếu bao gồm dữ liệu liên quan đến mã và toán học từ GitHub và CommonCrawl.
- DeepSeek Coder V2 cũng đạt hiệu suất tốt trong các tác vụ lý luận và hiểu ngôn ngữ tổng quát. Trên bài kiểm tra MMLU, nó đạt 79.2 điểm, tốt hơn nhiều so với các mô hình chuyên biệt về mã khác.
- Mô hình này hiện được cung cấp theo giấy phép MIT, cho phép sử dụng cả trong nghiên cứu và thương mại không hạn chế. Người dùng có thể tải xuống cả hai kích thước 16B và 236B trên Hugging Face hoặc truy cập qua API trên nền tảng của công ty.
📌 DeepSeek Coder V2 là mô hình lập trình mã nguồn mở đầu tiên vượt trội hơn GPT-4 Turbo và các mô hình nguồn đóng khác. Với khả năng hỗ trợ hơn 300 ngôn ngữ lập trình và hiệu suất mạnh mẽ trên nhiều bài kiểm tra, mô hình 16B và 236B này hứa hẹn mang lại nhiều tiện ích cho cả nghiên cứu và ứng dụng thương mại.
https://venturebeat.com/ai/chinas-deepseek-coder-becomes-first-open-source-coding-model-to-beat-gpt-4-turbo/