Điểm:0

Nhiều lỗi ECC không sửa được trên nhiều DIMM

lá cờ cn

Tôi có một hệ thống Supermicro X8DT6 đột nhiên phát triển tỷ lệ lỗi ECC không thể sửa chữa cao. Hệ thống đã chạy không có lỗi cho đến vài ngày trước và hiện tại nó đang gặp lỗi ECC không thể sửa được (và các lần khởi động lại tự phát có liên quan) nhiều lần mỗi ngày. Các lỗi không được tách biệt với một DIMM duy nhất.

Chi tiết hệ thống: CPU X5650 đơn, ram 48G DDR3 @1333Mhz trong 6 DIMM. Chạy Debian Linux.

Theo những gì tôi có thể nói, KHÔNG có lỗi ECC có thể sửa được nào được phát hiện (rasdaemon không hiển thị gì và nhật ký sự kiện ipmi chỉ hiển thị các lỗi không thể sửa).

Vấn đề phát sinh lần đầu cách đây vài ngày và bạn có thể thấy từ nhật ký này rằng ban đầu vấn đề dường như bị giới hạn trong một DIMM duy nhất:

  3f | 13/09/2021 | 18:13:02 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  40 | 14/09/2021 | 03:30:49 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  41 | 14/09/2021 | 04:10:28 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  42 | 14/09/2021 | 04:11:42 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  43 | 14/09/2021 | 04:19:31 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  44 | 14/09/2021 | 04:27:06 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  45 | 14/09/2021 | 04:28:39 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  46 | 14/09/2021 | 04:32:42 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  47 | 14/09/2021 | 04:35:48 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  48 | 14/09/2021 | 04:39:51 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  49 | 14/09/2021 | 04:41:29 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  4a | 14/09/2021 | 04:48:16 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  4b | 14/09/2021 | 04:53:43 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  4c | 14/09/2021 | 04:54:52 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  4d | 14/09/2021 | 05:09:41 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  4e | 14/09/2021 | 05:12:04 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  4f | 14/09/2021 | 05:20:51 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  50 | 14/09/2021 | 05:23:42 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  51 | 14/09/2021 | 05:34:12 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  52 | 14/09/2021 | 05:39:44 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  53 | 14/09/2021 | 05:41:24 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  54 | 14/09/2021 | 05:47:19 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  55 | 14/09/2021 | 05:55:46 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  56 | 14/09/2021 | 12:05:32 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  57 | 14/09/2021 | 16:18:36 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  58 | 14/09/2021 | 17:31:57 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  59 | 14/09/2021 | 17:59:21 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  5a | 14/09/2021 | 18:09:04 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  5b | 14/09/2021 | 18:10:59 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  5c | 14/09/2021 | 18:41:11 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  5d | 14/09/2021 | 18:43:32 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  5e | 14/09/2021 | 18:49:21 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  5f | 14/09/2021 | 21:39:45 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  60 | 14/09/2021 | 21:43:26 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  61 | 14/09/2021 | 21:47:11 | Bộ nhớ | ECC không thể sửa được (@DIMM1B(CPU1)) | khẳng định
  62 | 14/09/2021 | 22:35:41 | Bảo mật vật lý #0xaa | Đột nhập khung gầm chung () | khẳng định

Sau đó, tôi đã gỡ bỏ DIMM 1B và khởi động lại hệ thống chỉ với 5 DIMM được cài đặt. Tôi tin rằng đây là một cấu hình hợp lệ -- có ba kênh bộ nhớ và mỗi kênh có thể hoạt động với 1 hoặc 2 DIMM.

Ban đầu, điều này dường như giải quyết được vấn đề, nhưng như bạn có thể thấy, nó khiến mọi thứ trở nên khó hiểu hơn:

  63 | 15/09/2021 | 12:21:05 | Bộ nhớ | ECC không thể sửa được (@DIMM1A(CPU1)) | khẳng định
  64 | 15/09/2021 | 14:15:46 | Bộ nhớ | ECC không thể sửa được (@DIMM1A(CPU1)) | khẳng định
  65 | 15/09/2021 | 14:22:07 | Bộ nhớ | ECC không thể sửa được (@DIMM2A(CPU1)) | khẳng định
  66 | 15/09/2021 | 14:31:22 | Bộ nhớ | ECC không thể sửa được (@DIMM2B(CPU1)) | khẳng định
  67 | 16/09/2021 | 05:02:38 | Bộ nhớ | ECC không thể sửa được (@DIMM2A(CPU1)) | khẳng định
  68 | 16/09/2021 | 10:58:01 | Bộ nhớ | ECC không thể sửa được (@DIMM1A(CPU1)) | khẳng định
  69 | 16/09/2021 | 11:17:37 | Bộ nhớ | ECC không thể sửa được (@DIMM2A(CPU1)) | khẳng định

Tất cả các câu trả lời hoặc bài viết khác mà tôi có thể tìm thấy đều tập trung vào các lỗi không thường xuyên xảy ra hoặc vào các tình huống trong đó một DIMM hoặc khe rõ ràng bị lỗi. Có ai biết điều gì có thể gây ra một loạt lỗi phổ biến như vậy trong một máy đang hoạt động trước đây không? Tôi có ý định sắp xếp lại mọi thứ, nhưng với nhiều điểm thất bại, tôi không có nhiều hy vọng về điều đó.

Zac67 avatar
lá cờ ru
Các nguồn sự cố khác có thể là CPU, PSU, bo mạch chủ. Kiểm tra từng cái trong một hệ thống khác để xác minh chức năng phù hợp.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.