Tôi đang gặp phải một vấn đề cực kỳ kỳ lạ liên quan đến một máy chủ, nó bị đóng băng/treo ngẫu nhiên mà không có đầu ra trên máy chủ và không phản hồi với các phím ngắn và yêu cầu khởi động nguội, khi khởi động với khởi động nguội, không có lỗi nào trên màn hình khởi động.
Nó hoàn toàn không bị đóng băng khi tải nặng, với sự cố khoảng 9-20% cpu wheb, tải trung bình khoảng 2-5 (12 lõi cpu)
và ram 128gb
Chúng tôi đã thử kiểm tra nhật ký, không có gì hiển thị như hoảng loạn hạt nhân hoặc bất kỳ thứ gì liên quan đến chính vấn đề đó.
Trong tất cả các lần đóng băng sau khi khởi động nguội, khi chúng tôi kiểm tra nhật ký, chúng tôi thấy máy gặt OOM bình thường giết chết các procces php (người dùng đạt đến giới hạn) nhưng không có gì quá lạm dụng, nhưng luôn ở trên OOM,
Đôi khi, khi máy chủ đóng băng trong nhật ký, bạn sẽ thấy thời gian hiện tại và đôi khi giống như thời gian nó hiển thị sau thời điểm hiện tại của sự cố vài dòng từ ngày cũ hơn và bị treo.
Nhật ký không có gì có thể xác định có liên quan đến phần mềm hay tải nặng, chỉ hoạt động bình thường, đây là máy nâng cấp từ máy cũ, chạy ổn định bao năm..
Việc đóng băng là ngẫu nhiên, có thể là sau khi máy chủ hoạt động được một tuần, hoặc hai ngày hoặc ba tuần, v.v...
Ngoài ra, chúng tôi đã cố gắng giải nén kết xuất vmcore của máy chủ bị đóng băng nhưng vẫn không có gì bắt được ở đó.
Nó chỉ bị đóng băng mà không phải đầu ra màn hình, nhưng máy chủ vẫn chạy nhưng không thể đặt trước được, không thể truy cập ssh không có gì, còn kvm như tôi đã nói không hiển thị đầu ra nào trên màn hình.
Nó có thể liên quan đến phần cứng có thể bị lỗi? Vì hệ thống treo của tôi là do RAM bị lỗi?
Tôi vô cùng mất mát với vấn đề này ..
Cảm ơn