• FlashAttention-3 là một kỹ thuật mới được phát triển bởi các nhà nghiên cứu từ Colfax Research, Meta, Nvidia, Georgia Tech, Princeton University và Together AI nhằm tăng tốc đáng kể việc tính toán attention trên GPU Nvidia Hopper (H100 và H800).
• Attention là thành phần cốt lõi của kiến trúc transformer được sử dụng trong các mô hình ngôn ngữ lớn (LLM). Tuy nhiên, khi LLM ngày càng lớn hơn và xử lý các chuỗi đầu vào dài hơn, chi phí tính toán attention trở thành nút thắt cổ chai.
• FlashAttention-3 xây dựng dựa trên các công trình trước đó về FlashAttention và FlashAttention-2, tối ưu hóa hơn nữa việc sử dụng tài nguyên trên GPU Nvidia Hopper để tối đa hóa hiệu suất và hiệu quả cho việc huấn luyện và suy luận LLM.
• Kỹ thuật mới này giải quyết thách thức của việc tính toán attention bằng cách giảm số lần đọc và ghi bộ nhớ giữa bộ nhớ băng thông cao (HBM) của GPU và bộ nhớ truy cập ngẫu nhiên tĩnh (SRAM) trên chip GPU khi thực hiện tính toán attention.
• FlashAttention-3 lập lịch các hoạt động để tối đa hóa sự chồng chéo giữa tính toán và di chuyển dữ liệu giữa các phân đoạn bộ nhớ khác nhau của GPU, giảm thời gian GPU chờ đợi dữ liệu được chuyển.
• Kỹ thuật này cũng đan xen các phép nhân ma trận và các phép toán softmax để giảm khả năng xảy ra nút thắt cổ chai trong việc tính toán giá trị attention.
• FlashAttention-3 sử dụng một sắp xếp đặc biệt các phép toán để tính toán attention nhanh hơn và chính xác hơn trong các mô hình lượng tử hóa.
• Theo các nhà nghiên cứu, FlashAttention-3 đạt được mức sử dụng lên tới 75% khả năng tối đa của GPU H100, tương đương với tốc độ tăng 1,5-2 lần so với các phiên bản FlashAttention trước đó cho cả việc huấn luyện và chạy LLM.
• Việc tính toán attention nhanh hơn do FlashAttention-3 cung cấp có thể giúp giảm đáng kể thời gian huấn luyện LLM, mở rộng cửa sổ ngữ cảnh của LLM và giảm số lượng bộ tăng tốc cần thiết để chạy LLM, từ đó giảm chi phí vận hành mô hình trong sản xuất.
• Các nhà nghiên cứu đã mở nguồn FlashAttention-3 dưới giấy phép cho phép và có kế hoạch tích hợp nó vào các thư viện học sâu phổ biến như PyTorch và Hugging Face Transformers.
📌 FlashAttention-3 tối ưu hóa hiệu suất GPU H100 cho LLM, tăng tốc 1,5-2 lần so với phiên bản trước. Công nghệ nguồn mở này giúp giảm thời gian huấn luyện, mở rộng cửa sổ ngữ cảnh lên hàng trăm nghìn token và tiết kiệm chi phí vận hành LLM trong sản xuất.
https://venturebeat.com/ai/flashattention-3-unleashes-the-power-of-h100-gpus-for-llms/