OpenAI giải thích về sự cố gián đoạn dịch vụ ChatGPT kéo dài do lỗi từ dịch vụ đo lường mới

• OpenAI đã trải qua một trong những sự cố gián đoạn dịch vụ kéo dài nhất trong lịch sử vào ngày 13/12/2024.

• Sự cố bắt đầu vào khoảng 15:00 giờ Thái Bình Dương, ảnh hưởng đến nhiều dịch vụ của OpenAI bao gồm ChatGPT, Sora và API dành cho nhà phát triển.

• Nguyên nhân được xác định là do một "dịch vụ đo lường mới" triển khai để thu thập số liệu Kubernetes.

Dịch vụ đo lường mới này vô tình gây ra các hoạt động API Kubernetes tiêu tốn nhiều tài nguyên.

• Máy chủ API Kubernetes bị quá tải, làm sập mặt phẳng điều khiển Kubernetes trong hầu hết các cụm lớn của OpenAI.

• Sự cố ảnh hưởng đến tài nguyên DNS mà nhiều dịch vụ của OpenAI phụ thuộc vào để phân giải tên miền.

• Việc sử dụng bộ nhớ đệm DNS của OpenAI làm chậm khả năng phát hiện vấn đề, cho phép quá trình triển khai tiếp tục trước khi hiểu rõ phạm vi của sự cố.

• OpenAI phát hiện vấn đề "vài phút" trước khi khách hàng bắt đầu bị ảnh hưởng, nhưng không thể triển khai sửa chữa nhanh chóng do máy chủ Kubernetes bị quá tải.

• Công ty mô tả sự cố là "sự hội tụ của nhiều hệ thống và quy trình thất bại đồng thời và tương tác theo cách không mong đợi".

• Các bài kiểm tra của OpenAI không phát hiện được tác động của thay đổi đối với mặt phẳng điều khiển Kubernetes.

• Quá trình khắc phục diễn ra rất chậm do hiệu ứng bị khóa.

• OpenAI cam kết thực hiện nhiều biện pháp để ngăn chặn các sự cố tương tự trong tương lai.

• Các biện pháp bao gồm cải thiện quy trình triển khai theo từng giai đoạn với giám sát tốt hơn đối với các thay đổi cơ sở hạ tầng.

• Công ty cũng sẽ triển khai các cơ chế mới để đảm bảo kỹ sư OpenAI có thể truy cập máy chủ API Kubernetes trong mọi trường hợp.

• OpenAI xin lỗi về tác động của sự cố đối với tất cả khách hàng, từ người dùng ChatGPT đến nhà phát triển và doanh nghiệp phụ thuộc vào sản phẩm của OpenAI.

• Công ty thừa nhận đã không đáp ứng được kỳ vọng của chính mình trong việc xử lý sự cố này.

📌 Sự cố kéo dài 3 giờ của OpenAI do lỗi dịch vụ đo lường mới ảnh hưởng đến ChatGPT và các dịch vụ khác. Công ty cam kết cải thiện quy trình triển khai, giám sát và khắc phục sự cố để ngăn chặn các vấn đề tương tự trong tương lai.

https://techcrunch.com/2024/12/13/openai-blames-its-massive-chatgpt-outage-on-a-new-telemetry-service/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo