Gần đây, chúng tôi đã nhận thấy rằng dự án Google App Engine của chúng tôi gặp lỗi định kỳ cứ sau 25 giờ 10 phút (1510 phút) trong ba ngày liên tiếp mà không có lý do rõ ràng.
Trong sự cố, chúng tôi đã thấy các yêu cầu không thành công với mã 499 (Yêu cầu đã đóng của ứng dụng khách) sau thời gian yêu cầu rất dài (10 giây). Các yêu cầu thường mất vài trăm mili giây hoặc đôi khi là 2-3 giây, nhưng không bao giờ gần 10 giây. Vào thời điểm đó, chúng tôi không nhận thấy bất kỳ sự gia tăng nào về lưu lượng truy cập và chúng tôi không có bất kỳ công việc nền nào đang chạy. Tất cả CPU và bộ nhớ đều ổn cho đến khi sự cố bắt đầu, sau đó CPU tăng lên một chút (ví dụ: từ khoảng 10% lên 60%) và thậm chí kích hoạt mở rộng quy mô tạm thời từ 3 lên 5 máy chủ.
Dự án là API nhanh của Python hình ảnh được triển khai trong môi trường linh hoạt, tối thiểu 3, tối đa 12 máy chủ tại thời điểm đó.
Thời điểm xảy ra những sự cố này rất thú vị vì chúng xảy ra gần như chính xác cách nhau 25 giờ 10 phút. Chúng tôi đã có một vài triển khai trong những ngày này vào các thời điểm khác nhau, không có mối tương quan nào với thời gian hoạt động của máy chủ.
Dấu thời gian bên dưới là theo giờ UTC:
2021-11-17 17:43
2021-11-18 18:53
2021-11-19 20:03
Có ai thấy điều gì tương tự xảy ra trên Google App Engine hoặc có lẽ với hình ảnh API nhanh được đề cập không?