AI mở-nguồn mở AI nhỏ 2025-05-30 06:46:40

DeepSeek ra mắt mô hình AI chưng cất từ R1 hoạt động trên 1 GPU và đánh bại cả Gemini 2.5 Flash

DeepSeek, phòng thí nghiệm AI Trung Quốc, vừa ra mắt phiên bản nhẹ “chưng cất” của mô hình suy luận R1, mang tên DeepSeek-R1-0528-Qwen3-8B.
Mô hình này được xây dựng dựa trên Qwen3-8B – sản phẩm của Alibaba phát hành vào tháng 5 – bằng cách chưng cất từ đầu ra của R1 đầy đủ.
Dù nhỏ gọn, mô hình này đánh bại Google Gemini 2.5 Flash trong bài kiểm tra AIME 2025, bộ đề toán học khó nhằn.
Ngoài ra, nó gần như đạt được hiệu suất của Microsoft Phi 4 Reasoning Plus trên bài test HMMT – một kỳ thi toán học phức tạp dành cho học sinh trung học giỏi.
Các mô hình dạng "distilled" thường kém hơn bản gốc, nhưng đổi lại rất tiết kiệm tài nguyên.
Qwen3-8B chỉ cần GPU có 40GB-80GB RAM để chạy (ví dụ: Nvidia H100), trong khi R1 đầy đủ cần tới hàng chục GPU 80GB.
DeepSeek định vị mô hình này phục vụ cả nghiên cứu học thuật về suy luận và ứng dụng công nghiệp quy mô nhỏ.
Mô hình hiện được phát hành miễn phí theo giấy phép MIT, cho phép dùng thương mại không giới hạn.
Một số nền tảng như LM Studio đã tích hợp mô hình và cung cấp qua API sẵn sàng sử dụng.
Thay vì cần hạ tầng siêu khủng, các nhóm nhỏ hoặc startup có thể tận dụng mô hình này để xây dựng ứng dụng AI suy luận mạnh mà tiết kiệm chi phí.
Sự kết hợp giữa kỹ thuật chắt lọc và nền tảng từ Qwen3 giúp tạo ra một mô hình nhỏ nhưng “có võ”, cạnh tranh ngang hàng với các ông lớn công nghệ.

📌 DeepSeek-R1-0528-Qwen3-8B là mô hình AI nhẹ mới chỉ cần 1 GPU 40GB nhưng vẫn vượt Google Gemini 2.5 Flash trong bài toán AIME 2025 và gần bắt kịp Phi 4 của Microsoft. Mô hình dùng mã nguồn mở MIT, hỗ trợ nghiên cứu và thương mại hóa, giúp các nhóm nhỏ truy cập AI suy luận mạnh mẽ mà không cần hạ tầng đắt đỏ.

https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

Không có file đính kèm.

Nguồn tham khảo

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

DeepSeek ra mắt mô hình AI chưng cất từ R1 hoạt động trên 1 GPU và đánh bại cả Gemini 2.5 Flash

Thảo luận

Follow Us

Tin phổ biến

TAG