DeepSeek tiết lộ cách đào tạo mô hình AI nguồn mở mạnh nhất Trung Quốc với 2.048 chip Nvidia H800

 

  • DeepSeek công bố tài liệu nghiên cứu chi tiết về cách xây dựng hệ thống AI tạo sinh nguồn mở mạnh mẽ nhất tại Trung Quốc – DeepSeek-V3, sử dụng 2.048 GPU Nvidia H800.

  • Nvidia H800 được thiết kế riêng cho thị trường Trung Quốc để tuân thủ lệnh cấm xuất khẩu của Mỹ, nhưng sau đó bị cấm hoàn toàn vào năm 2023. DeepSeek và quỹ đầu tư High-Flyer đã dự trữ số lượng lớn GPU này trước khi lệnh cấm có hiệu lực.

  • Hệ thống AI được phát triển dựa trên cách tiếp cận "đồng thiết kế phần cứng và phần mềm", tập trung vào tối ưu hóa bộ nhớ, giao tiếp giữa các chip và cải thiện hiệu năng tổng thể.

  • Mô hình DeepSeek-V3 đã được đào tạo với chi phí thấp hơn nhiều so với các đối thủ nhờ các kỹ thuật tối ưu hóa tính toán, cho phép đào tạo và suy luận hiệu quả trên quy mô lớn.

  • DeepSeek áp dụng kiến trúc MoE (mixture-of-experts), chia nhỏ mô hình AI thành các mạng con chuyên biệt giúp tiết kiệm chi phí huấn luyện và tăng tốc độ suy luận. Kiến trúc này hiện đã được Alibaba áp dụng vào dòng Qwen3.

  • DeepSeek ra mắt mô hình V3 vào tháng 12 và mô hình suy luận R1 vào tháng 1, gây chấn động thị trường và khiến cổ phiếu các công ty AI sụt giảm mạnh.

  • V3 từng đứng đầu bảng xếp hạng LiveBench cho AI nguồn mở trước khi bị vượt mặt bởi Qwen3 của Alibaba – dòng mô hình có giá rẻ hơn 40% so với V3 và tích hợp năng lực suy luận multimodal.

  • Ngoài ra, DeepSeek còn tung bản cập nhật nhỏ của V3 vào tháng 3 và hệ thống Prover-V2 chuyên xử lý chứng minh toán học vào cuối tháng 4.

  • Trong vòng 6 tháng qua, nhiều ông lớn công nghệ Trung Quốc đua nhau ra mắt hệ thống AI mới, tập trung vào công nghệ nguồn mở để cạnh tranh với DeepSeek.

📌 DeepSeek đã dùng 2.048 GPU Nvidia H800 và phương pháp đồng thiết kế phần cứng-phần mềm để tạo nên DeepSeek-V3 – mô hình AI nguồn mở hàng đầu trước khi bị Qwen3 vượt mặt. Với kỹ thuật MoE giúp giảm chi phí huấn luyện và hiệu năng mạnh mẽ, DeepSeek đang là nhân tố gây rúng động thị trường AI Trung Quốc và toàn cầu.

https://www.scmp.com/tech/big-tech/article/3310639/deepseek-paper-offers-new-details-how-it-used-2048-nvidia-chips-take-openai

 

Nghiên cứu của DeepSeek tiết lộ chi tiết mới về cách họ sử dụng 2.048 chip Nvidia để cạnh tranh với OpenAI

Trong một bài báo được đồng tác giả bởi nhà sáng lập Liang Wenfeng, công ty khởi nghiệp này cho rằng thành công của họ đến từ phương pháp thiết kế kết hợp phần cứng-phần mềm

Thời gian đọc: 2 phút

Tại sao bạn có thể tin tưởng SCMP

Trong một bài báo được đồng tác giả bởi nhà sáng lập Liang Wenfeng, DeepSeek đã giải thích chi tiết về một số công nghệ đằng sau mô hình nền tảng V3 của họ. Ảnh: Shutterstock

Ben Jiangin tại Bắc Kinh

Xuất bản: 7:00 tối, 16 tháng 5 năm 2025

Phòng nghiên cứu trí tuệ nhân tạo (AI) Trung Quốc DeepSeek đã phát hành một bài báo nghiên cứu mới tiết lộ chi tiết lần đầu tiên về cách họ xây dựng một trong những hệ thống AI mã nguồn mở mạnh mẽ nhất thế giới với chi phí chỉ bằng một phần nhỏ so với đối thủ cạnh tranh.

"Những hiểu biết sâu sắc về DeepSeek-V3: Thách thức mở rộng và suy ngẫm về phần cứng cho kiến trúc AI", được đồng tác giả bởi nhà sáng lập DeepSeek Liang Wenfeng và công bố vào thứ Tư, cho rằng bước đột phá của công ty khởi nghiệp này trong việc đào tạo hệ thống AI hiệu suất cao, tiết kiệm chi phí đến từ phương pháp thiết kế kết hợp phần cứng-phần mềm.

"DeepSeek-V3, được đào tạo trên 2.048 GPU Nvidia H800, cho thấy cách thiết kế đồng bộ mô hình với nhận thức về phần cứng có thể giải quyết hiệu quả những thách thức này, cho phép đào tạo và suy luận tiết kiệm chi phí ở quy mô lớn," các nhà nghiên cứu viết. DeepSeek và quỹ đầu tư phòng hộ High-Flyer chủ quản trước đó đã tích trữ H800, loại chip mà Nvidia ban đầu thiết kế cho thị trường Trung Quốc để tuân thủ các hạn chế xuất khẩu của Mỹ nhưng đã bị cấm xuất khẩu vào quốc gia này vào năm 2023.

Phương pháp đào tạo của công ty khởi nghiệp này bắt nguồn từ nhận thức của nhóm về các hạn chế phần cứng và "chi phí quá cao" của việc đào tạo các mô hình ngôn ngữ lớn (LLM) - công nghệ đằng sau các chatbot AI như ChatGPT của OpenAI - theo bài báo.

Bài báo nêu chi tiết các tối ưu hóa kỹ thuật giúp tăng hiệu quả bộ nhớ, tối ưu hóa giao tiếp giữa các chip, và nâng cao hiệu suất tổng thể của cơ sở hạ tầng AI - những tiến bộ quan trọng để giảm chi phí vận hành trong khi mở rộng khả năng. Những điều này cung cấp một "bản thiết kế thực tế cho đổi mới trong hệ thống AI thế hệ tiếp theo", các nhà nghiên cứu cho biết.

[TRỰC TIẾP] Hội thảo trực tuyến Công nghệ Tương lai Trung Quốc | DeepSeek đang định hình cuộc đua giành vị thế thống trị AI như thế nào?

DeepSeek cũng nhấn mạnh việc sử dụng kiến trúc mô hình kết hợp các chuyên gia (MoE), một phương pháp học máy chia mô hình AI thành các mạng con riêng biệt, hay các "chuyên gia", mỗi chuyên gia tập trung vào một tập hợp con của dữ liệu đầu vào trong khi làm việc cộng tác.

Phương pháp này, được cho là giảm chi phí tính toán tiền đào tạo và đạt được hiệu suất nhanh hơn trong quá trình suy luận, giờ đây đã được áp dụng rộng rãi bởi các nhà phát triển AI Trung Quốc khác, bao gồm Alibaba Group Holding trong gia đình mô hình Qwen3 mới nhất của họ, trong đó sáu biến thể sử dụng kiến trúc MoE.

Việc DeepSeek phát hành mô hình nền tảng V3 vào tháng 12 và sau đó là mô hình suy luận R1 vào tháng sau đã gây sốc cho ngành công nghệ toàn cầu và thị trường chứng khoán, làm giảm giá cổ phiếu liên quan đến AI.

Kể từ đó, công ty đã giữ im lặng về kế hoạch nghiên cứu tương lai nhưng vẫn duy trì sự quan tâm của công chúng với các công bố nghiên cứu thường xuyên.

Trong khi đó, cuộc đua giữa các công ty công nghệ Trung Quốc để tuyên bố những tiến bộ mới đã tăng tốc. Trong sáu tháng kể từ khi phát hành V3, các gã khổng lồ công nghệ Trung Quốc đã ra mắt hàng loạt hệ thống AI mới để cạnh tranh với công ty khởi nghiệp này, với những lời hứa mới tập trung vào công nghệ mã nguồn mở trong tương lai.

Baidu vào tháng trước đã ra mắt các mô hình Ernie 4.5 Turbo và X1 Turbo mới nhất, tự hào về khả năng suy luận đa phương thức và mức giá thấp hơn 40% so với DeepSeek-V3.

Alibaba, công ty sở hữu South China Morning Post, đã giới thiệu thế hệ mới nhất của các mô hình Qwen vào tháng trước. Qwen3 vượt qua DeepSeek-V3 trở thành mô hình AI mã nguồn mở hàng đầu thế giới ngay sau khi phát hành, theo LiveBench, một nền tảng bên thứ ba đánh giá các mô hình AI.

Trước khi Qwen3 được phát hành, DeepSeek-R1 giữ vị trí hàng đầu trong bảng xếp hạng LiveBench kể từ khi ra mắt vào tháng 1.

Các phát hành mới nhất của DeepSeek bao gồm một bản cập nhật nhỏ cho mô hình V3 vào cuối tháng 3 và một hệ thống chuyên biệt có tên Prover-V2 để xử lý các chứng minh toán học, công ty đã ra mắt một cách lặng lẽ vào cuối tháng 4 giữa những đồn đoán rộng rãi về ngày phát hành của người kế nhiệm R1.

DeepSeek paper offers new details on how it used 2,048 Nvidia chips to take on OpenAI

In a paper co-authored by founder Liang Wenfeng, the start-up attributes its success to a hardware-software co-design approach
Reading Time:2 minutes
 
Ben Jiangin Beijing
Chinese artificial intelligence (AI) research lab DeepSeek has released a new research paper revealing in detail for the first time how it built one of the world’s most powerful open-source AI systems at a fraction of the cost of its competitors.
“Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”, co-authored by DeepSeek founder Liang Wenfeng and released on Wednesday, attributes the start-up’s breakthrough in training high-performance, cost-efficient AI systems to a hardware-software co-design approach.
“DeepSeek-V3, trained on 2,048 Nvidia H800 GPUs, demonstrates how hardware-aware model co-design can effectively address these challenges, enabling cost-efficient training and inference at scale,” the researchers wrote. DeepSeek and its hedge fund owner High-Flyer had previously stockpiled the H800, which Nvidia originally designed for the China market to comply with US export restrictions but were banned from export to to the country in 2023.
The start-up’s training approach stemmed from the team’s awareness of hardware constraints and the “exorbitant costs” of training large language models (LLMs) – the technology behind AI chatbots such as OpenAI’s ChatGPT – according to the paper.
The paper details technical optimisations that boost memory efficiency, streamline inter-chip communication, and enhance overall AI infrastructure performance – key advancements for reducing operational costs while scaling capabilities. These offer a “practical blueprint for innovation in next-generation AI systems”, the researchers said.
DeepSeek also highlighted its use of a mixture-of-experts (MoE) model architecture, a machine-learning approach that divides an AI model into separate sub-networks, or experts, each focused on a subset of the input data while working collaboratively.
The method, said to reduce pre-training computational costs and achieve faster performance during inference, has now been widely adopted by other Chinese AI developers, including Alibaba Group Holding in its latest Qwen3 model family, in which six variants use the MoE architecture.
DeepSeek’s release of its foundational V3 model in December and then the R1 reasoning model the following month shocked the global technology industry and stock markets, tanking AI-related stocks.
Since then, the company has kept quiet about its future research plans but has maintained public interest with regular research releases.
Meanwhile, the race among Chinese technology players to claim new advances has accelerated. In the six months since the release of V3, Chinese tech giants have launched a slew of new AI systems to take on the start-up, with fresh promises to focus on open-source tech going forward.
Baidu last month launched its latest Ernie 4.5 Turbo and X1 Turbo models, boasting multimodal reasoning capabilities and a price that is 40 per cent lower than DeepSeek-V3.
Alibaba, which owns the South China Morning Post, introduced last month the latest generation of its Qwen models. Qwen3 topped DeepSeek-V3 as the world’s top open-source AI model shortly after its release, according to LiveBench, a third-party platform that benchmarks AI models.
Before the Qwen3 release, DeepSeek-R1 held the top position in the LiveBench rankings since its January release.
DeepSeek’s latest releases include a small update to its V3 model in late March and a specialist system called Prover-V2 for handling maths proofs, which the company launched quietly at the end of April amid broad speculation about the release date of its R1 successor.

Không có file đính kèm.

4

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo