DeepSeek nâng cấp mô hình toán học nguồn mở Prover-V2 với 671 tỷ tham số

  • DeepSeek vừa công bố mô hình AI toán học nguồn mở mới nhất, DeepSeek-Prover-V2-671B, trên Hugging Face, tích hợp 671 tỷ tham số và dựa trên kiến trúc DeepSeek-V3.

  • Mô hình này gồm 61 lớp Transformer, kích thước ẩn 7.168, hỗ trợ xử lý ngữ cảnh dài với embedding vị trí lên đến 163.840 tokens.

  • Prover-V2 tương thích định dạng file safetensors, nhiều loại độ chính xác (precision) nhằm tối ưu hiệu suất huấn luyện và triển khai. Tích hợp FP8 quantization giúp giảm kích thước và cải thiện tốc độ suy luận.

  • Đây là bản nâng cấp từ mô hình Prover-V1.5 ra mắt năm ngoái.

  • Xu hướng mới trong AI là tăng cường năng lực lập luận toán học, được xem như yếu tố chủ lực thúc đẩy phát triển AI và đổi mới nghiên cứu khoa học.

  • AI toán học mở ra khả năng tự động hóa chứng minh định lý, tạo ra dự đoán và rút ngắn rào cản tham gia lĩnh vực toán học chuyên sâu.

  • DeepSeek cùng các hãng lớn như OpenAI, Alibaba liên tục thử sức mô hình trên các bài kiểm tra toán học danh giá như AIME, MATH-500.

  • Prover-V2 sử dụng kiến trúc Mixture-of-Experts (MoE) cho phép chỉ kích hoạt các submodel liên quan, giúp mô hình vận hành với 37 tỷ tham số hiệu dụng dù tổng số lượng là 671 tỷ.

  • Chiến lược này giảm mạnh chi phí tính toán, minh chứng qua việc DeepSeek chỉ tốn 5,6 triệu USD với 2.048 GPU Nvidia H800, tiết kiệm hơn khoảng 95% so với các đối thủ cùng cấu hình.

  • Việc sử dụng MoE đang là xu hướng chung của ngành AI, Llama 4 của Meta cũng áp dụng kiến trúc này để tối ưu hiệu năng mà không giảm chất lượng.

  • Chính sách mở của DeepSeek đã thu hút hơn 10 triệu lượt tải mô hình, hơn 500 mô hình phái sinh trên các nền tảng như Hugging Face kể từ khi ra mắt năm 2023.

  • Mô hình AI Trung Quốc như DeepSeek đang khẳng định vị thế toàn cầu dù đối mặt hạn chế về phần cứng tiên tiến do lệnh giới hạn xuất khẩu.

  • Alibaba đã giới thiệu QwQ-32B (32 tỷ tham số) để cạnh tranh trực diện với DeepSeek-R1 và OpenAI-o1, dù số tham số thấp hơn rất nhiều so với DeepSeek.

📌 DeepSeek-Prover-V2-671B gây chấn động khi hỗ trợ ngữ cảnh siêu dài, sử dụng MoE để vận hành hiệu quả với chỉ 37 tỷ tham số hiệu dụng. Chính sách nguồn mở, số lượt tải hơn 10 triệu, và hơn 500 mô hình phái sinh đang định hình lại cuộc chơi AI toán học toàn cầu.

https://www.techinasia.com/news/deepseek-releases-opensource-math-model-proverv2

 

DeepSeek phát hành mô hình toán học mã nguồn mở Prover-V2

DeepSeek đã ra mắt mô hình mới, DeepSeek-Prover-V2-671B, trên nền tảng mã nguồn mở Hugging Face. Mô hình này dựa trên kiến trúc DeepSeek-V3 và có 671 tỷ tham số.

DeepSeek-Prover-V2 bao gồm 61 lớp Transformer với kích thước ẩn 7.168. Mô hình hỗ trợ các tác vụ ngữ cảnh dài với giới hạn nhúng vị trí lên đến 163.840 token.

Mô hình tương thích với định dạng tệp safetensors và nhiều loại độ chính xác khác nhau để nâng cao hiệu quả đào tạo và triển khai. Mô hình cũng tích hợp lượng tử hóa FP8 để giảm kích thước và cải thiện hiệu suất suy luận.

Phiên bản này là bản nâng cấp từ mô hình Prover-V1.5 được giới thiệu vào năm ngoái.

🧠 Điểm đáng suy nghĩ

1️⃣ Suy luận toán học nổi lên như biên giới mới của AI

  • Mô hình 671 tỷ tham số của DeepSeek thể hiện sự tập trung ngày càng tăng vào khả năng suy luận toán học đang định hình lại các ưu tiên phát triển AI trong toàn ngành.
  • Sự chuyển dịch này theo sau tiến trình lịch sử khi khả năng AI đã phát triển từ mạng neural cơ bản trong những năm 1940 đến các hệ thống suy luận tinh vi ngày nay.
  • Các nhà toán học hàng đầu hiện dự đoán AI sẽ biến đổi nghiên cứu toán học bằng cách tự động hóa quá trình phát triển chứng minh, tạo ra các giả thuyết, và giảm rào cản gia nhập trong các lĩnh vực toán học phức tạp.
  • Sự tích hợp của AI với suy luận toán học hình thức được coi là thiết yếu để thúc đẩy khám phá trong toán học và các lĩnh vực khoa học liên quan, với ứng dụng mở rộng đến xác minh phần mềm và chứng minh định lý.
  • Sự tập trung vào suy luận toán học đã trở thành chuẩn mực cạnh tranh quan trọng, với các công ty như DeepSeek, OpenAI và Alibaba đặc biệt nhấn mạnh hiệu suất của mô hình của họ trên các bài kiểm tra toán học như AIME và MATH-500.

2️⃣ Kiến trúc Mixture-of-Experts thúc đẩy hiệu quả trong các mô hình khổng lồ

  • Việc DeepSeek sử dụng phương pháp Mixture-of-Experts (MoE) chứng minh cách các nhà phát triển AI đang giải quyết thách thức về hiệu quả tính toán trong các mô hình quy mô lớn.
  • Kiến trúc này chỉ kích hoạt các mô hình con liên quan cho các tác vụ cụ thể, cho phép mô hình R1 của DeepSeek sử dụng hiệu quả chỉ 37 tỷ trong số 671 tỷ tham số của nó trong quá trình hoạt động, giảm đáng kể yêu cầu tính toán.
  • Lợi ích hiệu quả từ kiến trúc MoE đã trở thành xu hướng toàn ngành, với các mô hình Llama 4 của Meta cũng sử dụng kỹ thuật này để tối ưu hóa suy luận mà không ảnh hưởng đến hiệu suất.
  • DeepSeek đã phát triển mô hình R1 với chi phí khoảng 5,6 triệu USD sử dụng 2.048 GPU Nvidia H800 - được báo cáo là khoảng 5% chi phí của các mô hình cạnh tranh có khả năng tương tự - nhấn mạnh cách các đổi mới kiến trúc đang làm cho AI tiên tiến trở nên dễ tiếp cận hơn về mặt kinh tế.
  • Phương pháp này đã cho phép DeepSeek duy trì hiệu suất tương đương với các hệ thống độc quyền lớn hơn trong khi cung cấp công nghệ của mình dưới giấy phép cho phép, góp phần tạo ra hơn 500 mô hình phái sinh trên các nền tảng như Hugging Face.

3️⃣ Các mô hình mã nguồn mở thách thức sự thống trị của AI độc quyền

  • Việc DeepSeek phát hành mô hình của mình trên Hugging Face tiếp tục một sự thay đổi đáng kể trong bối cảnh AI, nơi các giải pháp thay thế mã nguồn mở ngày càng cạnh tranh với các hệ thống đóng từ các công ty công nghệ lớn.
  • Các phiên bản mô hình của công ty đã đạt được hơn 10 triệu lượt tải xuống, thể hiện sự áp dụng đáng kể của nhà phát triển mặc dù là một công ty mới thành lập vào năm 2023.
  • Các mô hình AI Trung Quốc như của DeepSeek đang nổi lên như những đối thủ cạnh tranh toàn cầu đáng kể bất chấp những thách thức về quy định và hạn chế xuất khẩu giới hạn quyền truy cập vào phần cứng tiên tiến nhất như chip mạnh nhất của Nvidia.
  • Cuộc cạnh tranh này đang thúc đẩy đổi mới trong toàn ngành về khả năng suy luận toán học, với Alibaba gần đây đã ra mắt QwQ-32B để cạnh tranh trực tiếp với R-1 của DeepSeek và o1 của OpenAI, mặc dù có ít tham số hơn đáng kể (32 tỷ so với 671 tỷ của DeepSeek).

Không có file đính kèm.

12

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo