Điểm:0

Thời gian ngừng hoạt động trên phiên bản EC2

lá cờ cn

Gần đây, tôi gặp sự cố trên phiên bản EC2. Trang web đang chạy ở đó không khả dụng trong 2 giờ:

Sử dụng CPU trong tuần qua:

Phần còn lại là khoảng thời gian nó xảy ra:

Các hệ thống tạp chí khoảng thời gian đó.

Tôi có thể thấy gì ở đó? Vào khoảng 20:31, có vẻ như mọi thứ trở nên chậm lại:

Thực hiện công việc của công việc mỗi phút được lên lịch cho 20:30 bị trì hoãn vào phút tiếp theo 20:31. Bỏ qua công việc chạy.

Công việc (bạn thân) không khởi động được.

Ngày 12 tháng 1 21:31:29 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Đã phát hiện bước nhảy thời gian chuyển tiếp!
Ngày 12 tháng 1 21:33:21 ip-172-xx-x-xx.xx-yy-z.compute.internal chronyd[24287]: Không thể đồng bộ hóa: không có nguồn có thể chọn

Các dhclient các dòng, thường thì chúng đi cùng nhau, nhưng vào thời kỳ đó nó như thế này:

Ngày 12 tháng 1 20:46:21 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPREQUEST trên eth0 tới 172.xx.x.xx cổng 67 (xid=0x7cb0e02d)
Ngày 12 tháng 1 20:46:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: DHCPACK từ 172.xx.x.xx (xid=0x7cb0e02d)
Ngày 12 tháng 1 21:06:23 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: bị ràng buộc tới 172.yy.y.yy -- gia hạn sau 354 giây.

Cũng thế:

Ngày 12 tháng 1 21:47:22 ip-172-xx-x-xx.xx-yy-z.compute.internal dhclient[3066]: bị ràng buộc tới 172.yy.y.yy -- gia hạn sau -554 giây.

Và có vẻ như lúc 21:47 mọi thứ trở lại bình thường.

Các người đóng tàu container đang chạy ở đó được khởi động lại. Tôi nhớ rằng nhật ký của họ bắt đầu gần 10 giờ tối, có thể là lúc 21:47.

Các thống kê nhật ký (/var/log/sa/sar12):

07:00:01 Chiều tất cả 3.77 0.00 0.53 0.00 0.53 0.00 0.11 0.00 0.00 95.05
07:00:01 Chiều 0 4.22 0.00 0.54 0.01 0.45 0.00 0.11 0.00 0.00 94.68
07:00:01 Chiều 1 3.33 0.00 0.53 0.00 0.61 0.00 0.10 0.00 0.00 95.43
07:10:01 Chiều tất cả 3.47 0.00 0.52 0.00 0.54 0.00 0.13 0.00 0.00 95.34
07:10:01 Chiều 0 4.01 0.00 0.53 0.00 0.48 0.00 0.10 0.00 0.00 94.88
07:10:01 Chiều 1 2.93 0.00 0.52 0.01 0.60 0.00 0.15 0.00 0.00 95.80
07:20:01 Chiều tất cả 1.89 0.00 0.47 0.00 0.46 0.00 0.10 0.00 0.00 97.08
07:20:01 Chiều 0 1.54 0.00 0.46 0.00 0.39 0.00 0.10 0.00 0.00 97.50
07:20:01 Chiều 1 2.24 0.00 0.48 0.00 0.53 0.00 0.10 0.00 0.00 96.65
07:30:01 CH tất cả 1.37 0.00 0.47 0.00 0.42 0.00 0.09 0.00 0.00 97.65
07:30:01 Chiều 0 1.55 0.00 0.46 0.00 0.36 0.00 0.08 0.00 0.00 97.54
07:30:01 Chiều 1 1.18 0.00 0.48 0.00 0.47 0.00 0.10 0.00 0.00 97.77
07:40:01 Chiều tất cả 1.32 0.00 0.47 0.00 0.41 0.00 0.10 0.00 0.00 97.71
07:40:01 Chiều 0 1.46 0.00 0.46 0.00 0.33 0.00 0.09 0.00 0.00 97.66
07:40:01 Chiều 1 1.18 0.00 0.47 0.00 0.48 0.00 0.10 0.00 0.00 97.77
07:50:01 Chiều tất cả 1.36 0.00 0.48 0.00 0.41 0.00 0.10 0.00 0.00 97.65
07:50:01 Chiều 0 1.14 0.00 0.45 0.00 0.33 0.00 0.11 0.00 0.00 97.96
07:50:01 Chiều 1 1.58 0.00 0.50 0.00 0.50 0.00 0.09 0.00 0.00 97.33
08:00:01 Chiều tất cả 2.17 0.00 0.52 0.01 0.52 0.00 0.12 0.00 0.00 96.66
08:00:01 Chiều 0 2.26 0.00 0.49 0.01 0.45 0.00 0.13 0.00 0.00 96.67
08:00:01 Chiều 1 2.08 0.00 0.55 0.01 0.60 0.00 0.12 0.00 0.00 96.65
08:10:01 CH tất cả 3.47 1.35 2.41 0.08 0.58 0.00 0.15 0.00 0.00 91.96
08:10:01 Chiều 0 3.28 1.11 2.38 0.07 0.50 0.00 0.15 0.00 0.00 92.51
08:10:01 Chiều 1 3.66 1.58 2.45 0.09 0.66 0.00 0.15 0.00 0.00 91.40

08:10:01 PM CPU %usr %nice %sys %iowait %steal %irq %soft %guest %gnice %idle
08:20:01 Chiều tất cả 1.73 0.00 0.54 0.07 0.48 0.00 0.10 0.00 0.00 97.07
08:20:01 Chiều 0 1.94 0.00 0.58 0.07 0.40 0.00 0.10 0.00 0.00 96.90
08:20:01 Chiều 1 1.52 0.00 0.51 0.08 0.55 0.00 0.11 0.00 0.00 97.23
09:50:02 Chiều tất cả 2.11 0.11 50.63 43.63 0.09 0.00 0.02 0.00 0.00 3.41
09:50:02 Chiều 0 3.34 0.09 15.85 77.19 0.07 0.00 0.02 0.00 0.00 3.45
09:50:02 Chiều 1 0,93 0,12 83,90 11,54 0,11 0,00 0,02 0,00 0,00 3,37
10:00:01 chiều tất cả 2,11 0,00 0,43 2,61 0,35 0,00 0,07 0,00 0,00 94,42
10:00:01 CH 0 1,87 0,00 0,45 2,73 0,25 0,00 0,07 0,00 0,00 94,63
10:00:01 CH 1 2,36 0,00 0,42 2,50 0,45 0,00 0,07 0,00 0,00 94,20
10:10:01 chiều tất cả 0,80 0,00 0,33 0,00 0,29 0,00 0,06 0,00 0,00 98,52
10:10:01 Chiều 0 0,82 0,00 0,31 0,00 0,20 0,00 0,07 0,00 0,00 98,59
10:10:01 Chiều 1 0,77 0,00 0,35 0,00 0,37 0,00 0,06 0,00 0,00 98,45
10:20:01 chiều tất cả 0,85 0,00 0,35 0,00 0,29 0,00 0,07 0,00 0,00 98,44
10:20:01 Chiều 0 0.85 0.00 0.34 0.00 0.21 0.00 0.07 0.00 0.00 98.53
10:20:01 Chiều 1 0,86 0,00 0,36 0,00 0,37 0,00 0,06 0,00 0,00 98,35
10:30:01 chiều tất cả 1,41 0,00 0,38 0,00 0,33 0,00 0,08 0,00 0,00 97,79
10:30:01 Chiều 0 1.13 0.00 0.36 0.00 0.25 0.00 0.07 0.00 0.00 98.18
10:30:01 Chiều 1 1,69 0,00 0,40 0,00 0,42 0,00 0,09 0,00 0,00 97,40
10:40:01 chiều tất cả 0,98 0,00 0,35 0,00 0,29 0,00 0,06 0,00 0,00 98,32
10:40:01 Chiều 0 0.70 0.00 0.33 0.00 0.22 0.00 0.06 0.00 0.00 98.69
10:40:01 Chiều 1 1.25 0.00 0.36 0.00 0.35 0.00 0.07 0.00 0.00 97.96
10:50:01 chiều tất cả 0,65 0,00 0,34 0,00 0,28 0,00 0,06 0,00 0,00 98,68
10:50:01 Chiều 0 0.80 0.00 0.34 0.00 0.20 0.00 0.05 0.00 0.00 98.61
10:50:01 Chiều 1 0,50 0,00 0,34 0,00 0,35 0,00 0,06 0,00 0,00 98,75

Có một khoảng cách giữa 8:20 và 9:50 và chỉ lúc 9:50, chúng tôi mới thấy tải (3% không tải).

Điều gì có thể liên quan ở đây, vào ngày 04 tháng 1, tôi đã bật đồng bộ hóa thời gian (timedatectl set-ntp true) vì đã được bù 15 phút:

Đồng hồ hệ thống sai -910,996745 giây

nó là một t3a.medium ví dụ. Và tôi tin rằng đặc điểm kỹ thuật tín dụng là không giới hạn vào thời điểm đó. Ít nhất đó là những gì tôi thấy vào ngày hôm sau. Dù sao, dư nợ tín dụng đã không chạm sàn.

Bạn có thể giải thích nó được không? Tôi có thể kiểm tra những gì?

Công bằng mà nói, tôi không thể chắc chắn rằng đó có phải do trang web hoặc một trong các thành phần của nó gây ra hay không, nhưng tôi chưa gặp phải những vấn đề như vậy.

CẬP NHẬT Sự cố có thể do rò rỉ bộ nhớ ở một trong các vùng chứa. Ít nhất là sau khi làm cho nó chạy nokogiri các tác vụ trong các quy trình riêng biệt, bộ nhớ ngừng phát triển và cho đến nay không có sự cố tương tự.

Tim avatar
lá cờ gp
Tim
Đó có thể không phải là câu trả lời trong trường hợp này, nhưng trước đây tôi đã thấy các phiên bản Windows không hoạt động đối với các bản cập nhật Windows. Windows Update trên EC2 đôi khi có thể khá chậm.
Điểm:1
lá cờ jp

Có vẻ như phiên bản của bạn đã bị tạm dừng/treo do một số vấn đề với máy chủ vật lý đang chạy phiên bản EC2 của bạn. Hãy nhớ rằng SLA cấp phiên bản EC2 là 99,5%. Bạn có thể muốn kích hoạt giám sát cho kiểm tra trạng thái cho các phiên bản của bạnphục hồi tự động.

lá cờ cn
Từ nhật ký `sysstat`, có vẻ như nó đã bị tạm dừng/treo. Nhưng đó là do công việc `sa1` không khởi động được trong thời gian đó. Nếu bạn xem nhật ký `systemd`, không có dấu hiệu nào cho thấy nó đã bị treo. Tôi đã thêm [tệp khác](https://gist.github.com/x-yuri/e13937c2d32e1a48ce76f756fce395f5#file-timestamps-txt) vào ý chính nơi bạn có thể xem dấu thời gian cho khoảng thời gian mà nó có thể bị tạm ngưng. Đối với kiểm tra trạng thái, chỉ số `StatusCheckFailed*` bằng 0 từ rất lâu trước thời điểm xảy ra sự cố...
lá cờ cn
...Và một mặt, lỗi có thể là do tôi, nhưng hiện tại không có nhiều khách truy cập và được cho là không có gì để phá vỡ con đường này. Chà, ít nhất tôi đã không gặp phải một vấn đề như vậy. Mặt khác, tôi không thể chắc chắn rằng nó không phải do trang web hoặc một trong các thành phần của nó gây ra. Bạn có gặp bất kỳ sự cố nào như vậy không, đặc biệt là những sự cố mà giao diện người dùng AWS cho bạn biết rằng không có sự cố nào xảy ra?
lá cờ jp
Phiên bản bị mất kết nối mạng vào khoảng 20:30 (NetworkOut phẳng trên biểu đồ), sau đó sự cố trên máy chủ có thể được tự động phát hiện và phiên bản bị treo và di chuyển sang máy chủ vật lý khác trong khoảng thời gian từ 21:12 đến 21:31 (khi thời gian nhảy đã được phát hiện).
lá cờ cn
Cần lưu ý rằng lưu lượng truy cập [không bao giờ đạt được](https://i.imgur.com/Dm797xi.png) bằng 0, nhưng (ít nhất) tôi không chắc nó đo lường chính xác điều gì, vì vậy điều đó nghe có vẻ hợp lý. Nó cũng giải thích bước nhảy thời gian chuyển tiếp. Đó là lời giải thích tốt nhất cho đến nay :) Mặc dù điều đó không giải thích được tại sao nó không được chú ý khi kiểm tra trạng thái.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.