Gần đây, chúng tôi đã triển khai một số phần cứng mới và kể từ Ngày đầu tiên, chúng tôi đã gặp phải tình trạng khởi động lại ngẫu nhiên, rất nhiều trong số đó. Tôi thực sự đã làm việc trên bảng điều khiển và nó vừa được khởi động lại mà không có bất kỳ cảnh báo nào.
Chúng tôi đã đi xuống một loạt các lỗ thỏ để cố gắng khắc phục sự cố, nhưng cho đến nay vẫn chưa có gì được giải quyết. Nó xảy ra trên nhiều thiết bị khiến tôi có xu hướng nghĩ rằng đó không phải là sự cố phần cứng với một thiết bị xấu.
Đầu tiên, chúng tôi nghĩ rằng đó có thể là nhiệt, vì chúng được triển khai "tại hiện trường", nhưng việc khởi động lại xảy ra vào tất cả các giờ trong ngày/đêm, không chỉ vào những thời điểm nóng nhất trong ngày. Đôi khi vào lúc nửa đêm khi nhiệt độ trong tủ là 50 độ F và thiết bị đang chạy ở mức tải thấp nhất.
Tuy nhiên, nó dường như xảy ra trong thời gian CPU tải nặng nhất. Dưới đây là các mục 'khởi động lại lần cuối' gần đây:
khởi động lại hệ thống boot 5.4.0-77-generic Chủ nhật ngày 1 tháng 8 17:31 vẫn chạy
khởi động lại hệ thống boot 5.4.0-77-generic Chủ nhật ngày 1 tháng 8 15:48 vẫn chạy
khởi động lại hệ thống boot 5.4.0-77-generic Chủ nhật ngày 1 tháng 8 15:32 vẫn chạy
khởi động lại hệ thống boot 5.4.0-77-generic Thứ Bảy ngày 31 tháng 7 19:02 vẫn đang chạy
khởi động lại hệ thống boot 5.4.0-77-generic Thứ Bảy ngày 31 tháng 7 17:56 vẫn đang chạy
khởi động lại hệ thống boot 5.4.0-77-generic Thứ bảy ngày 31 tháng 7 17:30 vẫn chạy
khởi động lại hệ thống boot 5.4.0-77-generic Thứ Bảy ngày 31 tháng 7 17:17 vẫn đang chạy
khởi động lại hệ thống boot 5.4.0-77-generic Thứ Bảy ngày 31 tháng 7 16:52 vẫn chạy
khởi động lại hệ thống boot 5.4.0-77-generic Thứ Bảy ngày 31 tháng 7 16:40 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 23:13 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 22:37 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 22:05 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 21:42 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 21:24 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 20:53 vẫn đang chạy
khởi động lại hệ thống khởi động 5.4.0-77-generic Thứ Sáu ngày 30 tháng 7 20:42 vẫn đang chạy
dmesg không hiển thị bất cứ điều gì hữu ích liên quan đến việc khởi động lại. Chúng tôi đã theo dõi /var/log/kern.log và syslog.log cả ngày, nhưng không có gì được thêm ngay trước khi khởi động lại.
Nghĩ rằng nó có thể liên quan đến nhiệt, chúng tôi đã thực hiện 'watch -n 1 cảm biến' vào khoảng thời gian chúng có nhiều khả năng khởi động lại nhất và mặc dù CPU "ấm" nhưng nó vẫn ở dưới giới hạn CAO và 20-30 độ C thấp hơn giới hạn TIÊU CHUẨN mà theo tôi hiểu là nơi nó sẽ tắt/khởi động lại.
Chúng ta có thể thử làm gì tiếp theo để tìm ra nguyên nhân của những lần khởi động lại này?
Cảm ơn.