DeepSeek, phòng thí nghiệm AI của Trung Quốc thuộc startup High-Flyer, đã khởi động "Tuần lễ nguồn mở" bằng việc phát hành FlashMLA
FlashMLA là kernel giải mã được thiết kế riêng cho GPU Hopper, tối ưu hóa để xử lý các chuỗi có độ dài thay đổi
Thông số kỹ thuật chính của FlashMLA:
Hỗ trợ BF16
Tích hợp bộ nhớ đệm KV phân trang với kích thước khối 64
Đạt tốc độ 3.000 GB/giây trong cấu hình giới hạn bộ nhớ
Đạt 580 TFLOPS trong cấu hình giới hạn tính toán trên GPU H800
Kernel được phát triển dựa trên cảm hứng từ các dự án:
FlashAttention 2&3
Cutlass
DeepSeek sẽ phát hành 5 kho lưu trữ nguồn mở trong tuần này
Hiện tại DeepSeek đã có:
14 mô hình nguồn mở
14 kho lưu trữ trên nền tảng Hugging Face
Các phát hành gần đây của DeepSeek:
Mô hình DeepSeek-R1
Mô hình DeepSeek-V3
Các mô hình này mang lại hiệu suất tốt nhất với chi phí thấp hơn nhiều so với đối thủ cạnh tranh
FlashMLA được kỳ vọng cải thiện hiệu quả tính toán trong:
Các ứng dụng AI
Thuật toán giao dịch tiền mã hóa
Các lĩnh vực công nghệ khác
📌 FlashMLA của DeepSeek mang đến bước đột phá về hiệu suất với tốc độ 3.000 GB/giây trên GPU H800. Dự án nguồn mở này là một trong 5 kho lưu trữ sắp được công bố, bổ sung vào bộ sưu tập 14 mô hình hiện có của công ty trên Hugging Face.
https://analyticsindiamag.com/ai-news-updates/deepseek-launches-flashmla-an-mla-decoding-kernel-for-hopper-gpus/