Tôi có một hệ thống không ổn định (khởi động lại ngẫu nhiên) và đang cố gắng xác định nguyên nhân của việc khởi động lại. Câu hỏi của tôi là liệu những MCE này có phải là lỗi nghiêm trọng có thể dẫn đến việc khởi động lại hay không. Nếu vậy, họ có nên dẫn tôi đi thay CPU hay RAM không?
Sau mỗi lần khởi động lại (dù ngẫu nhiên hay được bắt đầu bởi khởi động lại sudo
) các MCE sau được sản xuất:
14:50:45 kernel: [ 0.778792] mce: [Lỗi phần cứng]: Các sự kiện kiểm tra máy đã được ghi lại
14:50:45 kernel: [ 0.778793] mce: [Lỗi phần cứng]: CPU 0: Kiểm tra máy: 0 Ngân hàng 17: ee2000000004017a
14:50:45 kernel: [ 0.778795] mce: [Lỗi phần cứng]: TSC 0 ADDR 5f000000 MISC 8cf00031e0000086
14:50:45 kernel: [ 0.778797] mce: [Lỗi phần cứng]: BỘ XỬ LÝ 0:306f2 THỜI GIAN 1639083036 Ổ CẮM 0 APIC 0 vi mã 46
14:50:45 kernel: [ 0.778798] mce: [Lỗi phần cứng]: Các sự kiện kiểm tra máy đã được ghi lại
14:50:45 kernel: [ 0.778799] mce: [Lỗi phần cứng]: CPU 0: Kiểm tra máy: 0 Ngân hàng 18: ee2000000004017a
14:50:45 kernel: [ 0.778799] mce: [Lỗi phần cứng]: TSC 0 ADDR 5f100040 MISC 1cf00031e0000086
14:50:45 kernel: [ 0.778801] mce: [Lỗi phần cứng]: BỘ XỬ LÝ 0:306f2 THỜI GIAN 1639083036 Ổ CẮM 0 APIC 0 vi mã 46
14:50:45 kernel: [ 0.778802] mce: [Lỗi phần cứng]: CPU 0: Kiểm tra máy: 0 Ngân hàng 19: ee2000000004017a
14:50:45 kernel: [ 0.778802] mce: [Lỗi phần cứng]: TSC 0 ADDR 5f100000 MISC 54f00031e0000086
14:50:45 kernel: [ 0.778804] mce: [Lỗi phần cứng]: BỘ XỬ LÝ 0:306f2 THỜI GIAN 1639083036 Ổ CẮM 0 APIC 0 vi mã 46
Thật không may, những tin nhắn này là vô nghĩa mà không có rasdaemon
hoặc mcelog
để giải thích chúng. Thật không may, nó không giống như rasdaemon
bắt đầu cho đến khi thông báo đã được ghi lại (lỗi không xuất hiện trong ras-mc-ctl --tóm tắt
). Lưu ý các dấu thời gian:
14:50:50 rasdaemon[1023]: rasdaemon: đã bật sự kiện ras:mc_event
14:50:50 rasdaemon[1023]: rasdaemon: Đã bật sự kiện ras:mc_event
14:50:50 rasdaemon[1023]: rasdaemon: ras:aer_event đã bật sự kiện
14:50:50 rasdaemon[1023]: rasdaemon: Đã bật sự kiện ras:aer_event
14:50:50 rasdaemon[1023]: rasdaemon: Cảnh báo: cpu 0 ngoại tuyến?, imc_log chưa được đặt
14:50:50 rasdaemon[1023]: rasdaemon: đã bật sự kiện mce:mce_record
14:50:50 rasdaemon[1023]: rasdaemon: Kích hoạt sự kiện mce:mce_record
14:50:50 rasdaemon[1023]: rasdaemon: ras:extlog_mem_event đã bật sự kiện
14:50:50 rasdaemon[1023]: rasdaemon: Đã bật sự kiện ras:extlog_mem_event
14:50:50 rasdaemon[1023]: rasdaemon: Lắng nghe các sự kiện cho cpus 0 đến 15
14:50:50 rasdaemon[1025]: rasdaemon: đã bật sự kiện ras:mc_event
14:50:50 rasdaemon[1025]: rasdaemon: ras:aer_event đã bật sự kiện
14:50:50 rasdaemon[1025]: rasdaemon: đã bật sự kiện mce:mce_record
14:50:50 rasdaemon[1025]: rasdaemon: ras:extlog_mem_event đã bật sự kiện
Có cách nào tốt hơn để giải quyết vấn đề này không? Việc cập nhật lên 20.04 có thực sự hữu ích không, như được đề xuất trong câu trả lời này?