Tôi có một hệ thống Supermicro X8DT6 đột nhiên phát triển tỷ lệ lỗi ECC không thể sửa chữa cao. Hệ thống đã chạy không có lỗi cho đến vài ngày trước và hiện tại nó đang gặp lỗi ECC không thể sửa được (và các lần khởi động lại tự phát có liên quan) nhiều lần mỗi ngày. Các lỗi không được tách biệt với một DIMM duy nhất.
Chi tiết hệ thống: CPU X5650 đơn, ram 48G DDR3 @1333Mhz trong 6 DIMM. Chạy Debian Linux.
Theo những gì tôi có thể nói, KHÔNG có lỗi ECC có thể sửa được nào được phát hiện (rasdaemon không hiển thị gì và nhật ký sự kiện ipmi chỉ hiển thị các lỗi không thể sửa).
Vấn đề phát sinh lần đầu cách đây vài ngày và bạn có thể thấy từ nhật ký này rằng ban đầu vấn đề dường như bị giới hạn trong một DIMM duy nhất:
3f | 13/09/2021 | 18:13:02 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
40 | 14/09/2021 | 03:30:49 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
41 | 14/09/2021 | 04:10:28 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
42 | 14/09/2021 | 04:11:42 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
43 | 14/09/2021 | 04:19:31 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
44 | 14/09/2021 | 04:27:06 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
45 | 14/09/2021 | 04:28:39 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
46 | 14/09/2021 | 04:32:42 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
47 | 14/09/2021 | 04:35:48 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
48 | 14/09/2021 | 04:39:51 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
49 | 14/09/2021 | 04:41:29 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
4a | 14/09/2021 | 04:48:16 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
4b | 14/09/2021 | 04:53:43 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
4c | 14/09/2021 | 04:54:52 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
4d | 14/09/2021 | 05:09:41 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
4e | 14/09/2021 | 05:12:04 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
4f | 14/09/2021 | 05:20:51 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
50 | 14/09/2021 | 05:23:42 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
51 | 14/09/2021 | 05:34:12 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
52 | 14/09/2021 | 05:39:44 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
53 | 14/09/2021 | 05:41:24 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
54 | 14/09/2021 | 05:47:19 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
55 | 14/09/2021 | 05:55:46 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
56 | 14/09/2021 | 12:05:32 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
57 | 14/09/2021 | 16:18:36 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
58 | 14/09/2021 | 17:31:57 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
59 | 14/09/2021 | 17:59:21 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
5a | 14/09/2021 | 18:09:04 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
5b | 14/09/2021 | 18:10:59 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
5c | 14/09/2021 | 18:41:11 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
5d | 14/09/2021 | 18:43:32 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
5e | 14/09/2021 | 18:49:21 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
5f | 14/09/2021 | 21:39:45 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
60 | 14/09/2021 | 21:43:26 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
61 | 14/09/2021 | 21:47:11 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
62 | 14/09/2021 | 22:35:41 | Bảo mật vật lý #0xaa | Đột nhập khung gầm chung () | khẳng định
Sau đó, tôi đã gỡ bỏ DIMM 1B và khởi động lại hệ thống chỉ với 5 DIMM được cài đặt. Tôi tin rằng đây là một cấu hình hợp lệ -- có ba kênh bộ nhớ và mỗi kênh có thể hoạt động với 1 hoặc 2 DIMM.
Ban đầu, điều này dường như giải quyết được vấn đề, nhưng như bạn có thể thấy, nó khiến mọi thứ trở nên khó hiểu hơn:
63 | 15/09/2021 | 12:21:05 | Bộ nhớ | ECC không thể sửa được (@DIMM1A(CPU1)) | khẳng định
64 | 15/09/2021 | 14:15:46 | Bộ nhớ | ECC không thể sửa được (@DIMM1A(CPU1)) | khẳng định
65 | 15/09/2021 | 14:22:07 | Bộ nhớ | ECC không thể sửa được (@DIMM2A(CPU1)) | khẳng định
66 | 15/09/2021 | 14:31:22 | Bộ nhớ | ECC không thể sửa được (@DIMM2B(CPU1)) | khẳng định
67 | 16/09/2021 | 05:02:38 | Bộ nhớ | ECC không thể sửa được (@DIMM2A(CPU1)) | khẳng định
68 | 16/09/2021 | 10:58:01 | Bộ nhớ | ECC không thể sửa được (@DIMM1A(CPU1)) | khẳng định
69 | 16/09/2021 | 11:17:37 | Bộ nhớ | ECC không thể sửa được (@DIMM2A(CPU1)) | khẳng định
Tất cả các câu trả lời hoặc bài viết khác mà tôi có thể tìm thấy đều tập trung vào các lỗi không thường xuyên xảy ra hoặc vào các tình huống trong đó một DIMM hoặc khe rõ ràng bị lỗi. Có ai biết điều gì có thể gây ra một loạt lỗi phổ biến như vậy trong một máy đang hoạt động trước đây không? Tôi có ý định sắp xếp lại mọi thứ, nhưng với nhiều điểm thất bại, tôi không có nhiều hy vọng về điều đó.