DeepSeek công bố mở hệ thống suy luận DeepSeek-V3/R1 với hiệu suất ấn tượng, nhưng thiếu minh bạch

  • DeepSeek vừa công bố bản cập nhật cho hệ thống suy luận DeepSeek-V3/R1, gây chú ý với các thành tựu kỹ thuật ấn tượng:

    • Hệ thống song song chuyên gia nâng cao giữa các nút

    • Kết hợp đồng thời giao tiếp và tính toán

    • Mỗi nút GPU H800 xử lý tới 73.700 token/giây

    • Phục vụ hàng tỷ token mỗi ngày

  • Tuy nhiên, việc công bố thiếu minh bạch gây nghi ngờ về cam kết nguồn mở thực sự của công ty:

    • Chỉ chia sẻ một phần mã nguồn như thư viện ma trận FP8 tùy chỉnh

    • Giữ kín các thành phần quan trọng như thuật toán cân bằng tải và hệ thống bộ nhớ phân tán

    • Thiếu tài liệu toàn diện về dữ liệu và quy trình huấn luyện mô hình

    • Không công bố thông tin về bộ dữ liệu, quy trình lọc và giảm thiểu thiên kiến

  • Chiến lược cấp phép gây tranh cãi:

    • Tự gọi là tiên phong nguồn mở nhưng áp dụng giấy phép tùy chỉnh

    • Hạn chế sử dụng thương mại đối với mô hình

  • So với tiêu chuẩn ngành, DeepSeek còn thiếu sót:

    • Không cung cấp thẻ mô hình và tài liệu về các biện pháp bảo vệ đạo đức như Meta với LLaMA 2

    • Tập trung vào số liệu hiệu suất hơn là tính minh bạch của dữ liệu và đạo đức

  • Cộng đồng AI kêu gọi minh bạch thực sự:

    • Cần công bố đầy đủ từ thiết kế hệ thống đến cân nhắc đạo đức

    • Mời gọi kiểm tra độc lập và chia sẻ cả thành tựu lẫn hạn chế

📌 DeepSeek công bố hệ thống suy luận DeepSeek-V3/R1 với hiệu suất cao (73.700 token/giây/GPU), nhưng thiếu minh bạch toàn diện. Cách tiếp cận nguồn mở có chọn lọc của công ty gây nghi ngờ, làm dấy lên cuộc thảo luận về tầm quan trọng của sự minh bạch thực sự trong cộng đồng AI.

https://www.marktechpost.com/2025/03/01/deepseeks-latest-inference-release-a-transparent-open-source-mirage/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo