DeepSeek ra mắt FlashMLA - kernel giải mã MLA mới cho GPU Hopper với hiệu suất ấn tượng

  • DeepSeek, phòng thí nghiệm AI của Trung Quốc thuộc startup High-Flyer, đã khởi động "Tuần lễ nguồn mở" bằng việc phát hành FlashMLA

  • FlashMLA là kernel giải mã được thiết kế riêng cho GPU Hopper, tối ưu hóa để xử lý các chuỗi có độ dài thay đổi

  • Thông số kỹ thuật chính của FlashMLA:

  • Hỗ trợ BF16

  • Tích hợp bộ nhớ đệm KV phân trang với kích thước khối 64

  • Đạt tốc độ 3.000 GB/giây trong cấu hình giới hạn bộ nhớ

  • Đạt 580 TFLOPS trong cấu hình giới hạn tính toán trên GPU H800

  • Kernel được phát triển dựa trên cảm hứng từ các dự án:

  • FlashAttention 2&3

  • Cutlass

  • DeepSeek sẽ phát hành 5 kho lưu trữ nguồn mở trong tuần này

  • Hiện tại DeepSeek đã có:

  • 14 mô hình nguồn mở

  • 14 kho lưu trữ trên nền tảng Hugging Face

  • Các phát hành gần đây của DeepSeek:

  • Mô hình DeepSeek-R1

  • Mô hình DeepSeek-V3

  • Các mô hình này mang lại hiệu suất tốt nhất với chi phí thấp hơn nhiều so với đối thủ cạnh tranh

  • FlashMLA được kỳ vọng cải thiện hiệu quả tính toán trong:

  • Các ứng dụng AI

  • Thuật toán giao dịch tiền mã hóa

  • Các lĩnh vực công nghệ khác

📌 FlashMLA của DeepSeek mang đến bước đột phá về hiệu suất với tốc độ 3.000 GB/giây trên GPU H800. Dự án nguồn mở này là một trong 5 kho lưu trữ sắp được công bố, bổ sung vào bộ sưu tập 14 mô hình hiện có của công ty trên Hugging Face.

https://analyticsindiamag.com/ai-news-updates/deepseek-launches-flashmla-an-mla-decoding-kernel-for-hopper-gpus/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo