GPU Nvidia H100 gây thảm họa cho Meta: một sự cố mỗi 3 giờ khi huấn luyện LLama 3

• Meta vừa công bố nghiên cứu về quá trình huấn luyện mô hình Llama 3 405B trên cụm máy chứa 16.384 GPU Nvidia H100 80GB.

• Quá trình huấn luyện kéo dài 54 ngày và gặp 419 sự cố linh kiện không mong muốn, trung bình cứ 3 giờ lại có một sự cố.

50% số sự cố là do GPU hoặc bộ nhớ HBM3 trên GPU gây ra.

• Trong 419 sự cố không mong muốn, 148 (30,1%) do các lỗi GPU khác nhau và 72 (17,2%) do lỗi bộ nhớ HBM3.

• GPU Nvidia H100 tiêu thụ khoảng 700W và chịu nhiều áp lực nhiệt, dẫn đến dễ gặp sự cố.

• 41,3% sự cố không mong muốn còn lại do nhiều yếu tố khác như lỗi phần mềm, cáp mạng và bộ chuyển đổi mạng.

• Chỉ có 2 CPU bị hỏng trong 54 ngày huấn luyện.

• Meta đã phát triển các công cụ chẩn đoán riêng và sử dụng PyTorch NCCL flight recorder để nhanh chóng phát hiện và khắc phục sự cố.

• NCCLX đóng vai trò quan trọng trong việc phát hiện và định vị lỗi, đặc biệt là các vấn đề liên quan đến NVLink và RoCE.

• Các công cụ chuyên dụng được sử dụng để xác định GPU chậm trễ, giúp duy trì hiệu quả huấn luyện tổng thể.

• Yếu tố môi trường như biến động nhiệt độ giữa trưa gây ra thay đổi 1-2% về thông lượng.

• Thay đổi đồng thời về mức tiêu thụ điện của hàng chục nghìn GPU tạo áp lực lên lưới điện của trung tâm dữ liệu, đôi khi lên tới hàng chục megawatt.

• Mặc dù gặp nhiều sự cố, nhóm Llama 3 vẫn duy trì thời gian huấn luyện hiệu quả trên 90%.

• So với cụm 16.384 GPU của Meta, cụm 100.000 GPU H100 của xAI có thể gặp sự cố thường xuyên hơn 6 lần.

📌 Meta đối mặt với 419 sự cố trong 54 ngày huấn luyện Llama 3, chủ yếu do GPU H100 và bộ nhớ HBM3. Tuy nhiên, họ vẫn duy trì hiệu suất trên 90% nhờ các công cụ chẩn đoán và tự động hóa tiên tiến. Điều này cho thấy tầm quan trọng của việc quản lý sự cố trong các dự án AI quy mô lớn.

https://www.tomshardware.com/tech-industry/artificial-intelligence/faulty-nvidia-h100-gpus-and-hbm3-memory-caused-half-of-the-failures-during-llama-3-training-one-failure-every-three-hours-for-metas-16384-gpu-training-cluster

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo