Điểm:0

Sự cố Ubuntu 20.04: Đã phát hiện lỗi ECC hoặc chất độc L2

lá cờ kz

Ubuntu 20.04 gặp sự cố ngẫu nhiên vào các thời điểm khác nhau. Không thể trỏ đến một sự kiện cụ thể.

uname -a 
Linux ubuntu 5.11.0-051100-chung #202102142330 
SMP Sun ngày 14 tháng 2 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Sự cố với tín hiệu sau:

 kernel:[19849.215258] [Lỗi phần cứng]: Lỗi khởi động lại phần mềm, không được sửa chữa.

 kernel:[19849.215259] [Lỗi phần cứng]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Lỗi phần cứng]: Địa chỉ lỗi: 0x000000076bed1c00

 kernel:[19849.215264] [Lỗi phần cứng]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Lỗi phần cứng]: Load Store Unit Ext. Mã lỗi: 1, Lỗi ECC hoặc chất độc L2 được phát hiện trên bộ đệm dữ liệu được đọc bởi một tải.

 kernel:[19849.215269] [Lỗi phần cứng]: mức bộ đệm: L1, tx: DATA, mem-tx: DRD

Thông tin phần cứng:

### CPU
  Kiến trúc: x86_64
  (Các) chế độ hoạt động của CPU: 32-bit, 64-bit
  Thứ tự byte: Little Endian
  Kích thước địa chỉ: 48 bit vật lý, 48 bit ảo
  (Các) CPU: 24
  Danh sách (các) CPU trực tuyến: 0-23
  (Các) luồng trên mỗi lõi: 2
  (Các) lõi trên mỗi ổ cắm: 12
  Ổ cắm: 1
  NUMA (các) nút: 1
  ID nhà cung cấp: AuthenticAMD
  Dòng CPU: 25
  Người mẫu: 33
  Tên model: Bộ xử lý 12 nhân AMD Ryzen 9 5900X
  bước: 0
  Tăng tần số: đã bật
  MHz CPU: 2200.000
  MHz tối đa của CPU: 6442.4800
  CPU tối thiểu MHz: 2200.0000

### Thông tin bảng cơ sở
  Nhà sản xuất: ASRock
  Tên sản phẩm: X570 Taichi

### Kỉ niệm:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

Các cách được đề xuất để tìm ra nguyên nhân gốc rễ là gì? Làm cách nào để kích hoạt thêm ghi nhật ký hoặc nếu nhật ký đã tồn tại thì tôi có thể tìm chúng ở đâu, v.v. Mọi hướng dẫn sẽ được đánh giá cao. Cảm ơn!

Điểm:2
lá cờ in

Đây không phải là kỹ thuật một câu trả lời, nhưng...

Các Lỗi ECC hoặc chất độc L2 được phát hiện trên bộ đệm dữ liệu được đọc bởi một tải thông báo chỉ ra một vấn đề về bộ nhớ, với chính RAM hoặc bộ đệm trên CPU. Cả hai đều không tuyệt vời, nhưng bạn có thể kiểm tra RAM hệ thống theo quy trình sau:

  1. Khởi động lại hệ thống của bạn
  2. Nhấn và giữ nút Sự thay đổi phím để hiển thị menu GRUB
  3. Chọn "Ubuntu, memtest86+" và nhấn đi vào
    Kiểm tra trí nhớ sẽ chạy cho đến khi hết thời gian hoặc cho đến khi bạn nhấn nút Thoát ra Chìa khóa. Hãy để máy hoàn thành ít nhất một bài kiểm tra trước khi thoát.

Dựa trên báo cáo xung quanh trên web, vấn đề này dường như chỉ xảy ra với bộ xử lý AMD Ryzen cao cấp hơn. đọc qua chủ đề dài này trên trang cộng đồng của AMD đã tiết lộ điều thú vị này:

Tôi đã thay thế bộ nhớ và máy tính đã hoạt động ổn định được vài ngày. Hy vọng rằng điều này sẽ giúp bạn như nó đã giúp tôi ra ngoài. Bộ nhớ trước đây là bộ nhớ Gskill 3600mhz... bộ nhớ mới là bộ nhớ 3200 từ Corsair.

Câu hỏi của bạn không nêu rõ bạn đã cài đặt loại bộ nhớ nào, nhưng nếu đó là bộ mô-đun tần số cao hơn, thì có thể có điều gì đó giữa RAM và CPU gây ra sự mất ổn định. Nếu kiểm tra bộ nhớ không thành công và tình cờ bạn có sẵn một số RAM 3200MHz tương thích (ngay cả khi đó chỉ là một DIMM), hãy cân nhắc đổi thanh RAM đó ra và thực hiện lại kiểm tra bộ nhớ.

dina avatar
lá cờ kz
Cảm ơn rất nhiều cho câu trả lời. RAM của tôi là G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2x16). Tôi đã chạy memtest86, mất khoảng bốn tiếng rưỡi và ĐẠT bài kiểm tra.
dina avatar
lá cờ kz
Thật không may, tôi không có bộ nhớ dự phòng, đây là một bản dựng hoàn toàn mới. Tôi hy vọng một số giải pháp xuất hiện cho vấn đề này trên lớp BIOS hoặc hệ điều hành thay vì phần cứng.
heynnema avatar
lá cờ ru
@dnafication Với memtest, bạn chỉ chạy 1 bài kiểm tra hay tất cả 4/4? Bộ xử lý AMD rất cầu kỳ về RAM. RAM của bạn có nằm trong danh sách tương thích không? Truy cập trang web hỗ trợ cho bo mạch chủ của bạn và xem qua. Ngoài ra, CPU hoặc RAM của bạn có được ép xung không?
heynnema avatar
lá cờ ru
@dnafication Đồng thời cho tôi xem `Sudo dmidecode -s bios-version`. Bạn đã bật ECC cho RAM của mình chưa... có thể trong BIOS?
dina avatar
lá cờ kz
cảm ơn @heynnema, tôi đã chạy tất cả các bài kiểm tra (tôi nghĩ rằng nó đã hiển thị khoảng 10 bài kiểm tra và chạy trong hơn 4 giờ). CPU hoặc RAM nên được đặt như cũ. Tôi không nhớ đã thực hiện bất kỳ thay đổi hoặc ép xung nào. Phiên bản BIOS là `P4.30`. Tôi sẽ xem xét về ECC trong quá trình khởi động.
dina avatar
lá cờ kz
@heynnema, tôi cũng đã chạy memtester: `sudo memtester 4000M 1`. không báo lỗi.
dina avatar
lá cờ kz
Phiên bản BIOS có vẻ là mới nhất. Đây là bo mạch chủ: https://www.asrock.com/mb/AMD/X570%20Taichi/#Specification
heynnema avatar
lá cờ ru
@dnafication Truy cập https://www.asrock.com/MB/AMD/X570%20Taichi/index.asp#Download và xem danh sách Hỗ trợ CPU để xác định tên CPU của bạn, sau đó xem danh sách QVL Bộ nhớ phù hợp để xác định nếu bộ nhớ của bạn được hỗ trợ. Nhận mô hình DIMM của bạn với `sudo lshw -C memory`.
dina avatar
lá cờ kz
Hãy để chúng tôi [tiếp tục cuộc thảo luận này trong cuộc trò chuyện](https://chat.stackexchange.com/rooms/126576/discussion-between-dnafication-and-heynnema).
lá cờ cn
Tôi có RAM ECC và Ryzen 5900X. Tôi đã xác minh qua `edac-util` và `dmesg` rằng ECC dường như đang hoạt động. Tôi chưa bao giờ thấy bất kỳ lỗi nào trong nhiều tháng. Tuy nhiên, cứ sau vài ngày, máy của tôi lại bị treo và khởi động lại. `/var/log/kern.log` cũng hiển thị MCE này (ngộ độc bộ đệm L2). Tôi sẽ chạy `memtest86+` nhưng tôi nghi ngờ nó sẽ tìm thấy bất kỳ vấn đề nào. Tôi đã thấy những người khác phàn nàn về điều này với 5900X nên tôi nghi ngờ vi mã CPU. Đang cố gắng thu thập thêm dữ liệu.
Điểm:1
lá cờ ru

BIOS

ASRock X570 Taichi

BIOS hiện tại là phiên bản P4.30.

KỈ NIỆM

G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB), sản phẩm: F4-3600C16-16GTZNC

Bộ xử lý 12 nhân AMD Ryzen 9 5900X

Bộ vi xử lý Ryzen rất cầu kỳ về RAM.

Các DIMM này không xuất hiện trong danh sách bộ nhớ được hỗ trợ, như đã thấy đây.

kiểm tra vượt qua tất cả các bài kiểm tra.

Khi chúng ta nhìn vào bộ nhớ sudo lshw -C chúng tôi thấy rằng các DIMM có thể được cài đặt vào các vị trí khe không chính xác. Khi sử dụng 2 DIMM có kích thước bằng nhau, chúng nên được lắp vào khe A2 và B2. Đây là hình ảnh về cách bố trí bo mạch và các khe cắm bộ nhớ... được lấy từ Hướng dẫn sử dụng tại đây... vì vậy chỉ cần xác minh điều này ...

nhập mô tả hình ảnh ở đây

dina avatar
lá cờ kz
Tôi sẽ thử điều này ngày hôm nay cảm ơn rất nhiều! :D
dina avatar
lá cờ kz
Tôi đã di chuyển RAM từ A1 -> A2 và B1 -> B2. Có vẻ như nó vẫn gặp sự cố sau một thời gian. :( Bạn có thể đề xuất bất cứ điều gì khác không? Có bất kỳ bài kiểm tra nào tôi có thể chạy, bất kỳ chẩn đoán nào để xem liệu đó có chắc chắn là lỗi phần cứng không? Tôi đã khởi động hệ thống trong Windows và giữ cho nó chạy đủ lâu mà không gặp sự cố nào.
heynnema avatar
lá cờ ru
@dnafication Tôi mới nhận thấy rằng bạn đang chạy kernel 5.11.0-051100-generic vào ngày 20.04. Tôi không tin đó là hạt nhân stock cho ngày 20.04. Bạn đã cài đặt nó theo cách thủ công hay Cập nhật phần mềm đã đặt nó ở đó? Chỉnh sửa câu hỏi của bạn và cho tôi xem `ls -al /boot`.
heynnema avatar
lá cờ ru
@dnafication Khởi động USB/DVD Ubuntu Live 21.04 và chạy hệ thống đủ lâu để xem có vấn đề gì không.
dina avatar
lá cờ kz
vâng, tôi đã cài đặt hạt nhân theo cách thủ công. Tôi sẽ thử 21.04 và cho bạn biết.
lá cờ cn
Tôi có cùng bo mạch và CPU với bạn, nhưng tôi có RAM ECC. Không có sự cố ECC nào được chỉ định với `edac-utils` và có vẻ như nó đang hoạt động tốt theo điều đó và `dmesg`. Tôi cũng đang gặp vấn đề này. Tôi đang cố xác định xem vấn đề là do bo mạch hay 5900X. Tôi có thể đổi một chiếc 3600 ở đây một chút. Cho rằng nó dường như đang ảnh hưởng đến một số người, tôi muốn tìm hiểu gốc rễ của vấn đề này.
heynnema avatar
lá cờ ru
@dnafication Tình trạng vui lòng...
dina avatar
lá cờ kz
Tôi đã dùng thử Ubuntu live 21.04 trong một thời gian ngắn nhưng nhanh chóng bỏ cuộc vì sự cố Trình điều khiển đồ họa và quá nhiều công việc phải cài đặt lại cái này nhiều lần. Tôi đã quay trở lại Windows. Không thấy bất kỳ sự cố cho đến nay. Một chút thất vọng vì tôi đã từ bỏ nhưng tôi đã mất rất nhiều thời gian để loay hoay với tất cả các cài đặt này.
heynnema avatar
lá cờ ru
@dnafication Bài kiểm tra 21.04 được cho là để xem bạn có còn lỗi bộ nhớ hay không. Tôi không thực sự ngạc nhiên khi các vấn đề về đồ họa có thể phát sinh, mặc dù bạn có thể đã cài đặt trình điều khiển video trong quá trình thử nghiệm. Rất tiếc khi thấy bạn đi sang phía "khác".
Điểm:0
lá cờ kz

Dựa trên gợi ý từ @heynnema, tôi có thể phát hiện ra rằng kiểu DIMM được cài đặt trên máy tính của tôi không được liệt kê trong danh sách tương thích của chúng. Đây là các bước tiếp theo:

  1. Truy cập danh sách CPU được hỗ trợ của Trang web ASRock x570 Taichi. Tìm ra loại lõi. Trong trường hợp của tôi đó là Vermeer
  2. Tìm hiểu mô hình của các DIMM được cài đặt trên hệ thống bằng cách chạy bộ nhớ sudo lshw -C (đó là F4-3600C16-16GTZNC)
  3. Điều hướng đến Danh sách hỗ trợ bộ nhớ cho Vermeer và xem nó có được hỗ trợ không. Thật không may, nó không có trong danh sách! có lẽ đó là nguyên nhân gây ra sự cố không nhất quán. Tôi sẽ dùng thử phiên bản DIMM được hỗ trợ để xem sự cố có xảy ra lần nữa hay không và cập nhật câu trả lời này cho phù hợp.
 *-chương trình cơ sở
       mô tả: BIOS
       nhà cung cấp: American Megatrends Inc.
       id vật lý: 0
       phiên bản: P4.30
       ngày: 14/04/2021
       kích thước: 64KiB
       dung lượng: 16MiB
       khả năng: nâng cấp pci tạo bóng cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecation uefi
  *-kỉ niệm
       mô tả: Bộ nhớ hệ thống
       id vật lý: e
       khe cắm: Bo mạch hệ thống hoặc bo mạch chủ
       kích thước: 32GiB
     *-ngân hàng:0
          mô tả: DIMM DDR4 Đồng bộ Không có bộ đệm (Chưa đăng ký) 2133 MHz (0,5 ns)
          sản phẩm: F4-3600C16-16GTZNC
          nhà cung cấp: Không xác định
          id vật lý: 0
          nối tiếp: 00000000
          khe cắm: DIMM 0
          kích thước: 16GiB
          chiều rộng: 64 bit
          xung nhịp: 2133MHz (0,5ns)
     *-ngân hàng:1
          mô tả: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected] >Ngôn ngữ-Nhóm: Tiếng Anh (Úc) <[email protected]>MIME-Phiên bản: 1.0Content-Type: text/plain; bộ ký tự=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (bản dựng 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Phiên bản: lshwReport-Msgid-Bugs: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Ngôn ngữ-Nhóm: English (Australia) <[email protected]> Phiên bản MIME: 1.0Loại nội dung: văn bản/đơn giản; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (bản dựng 2d1d5e352f0d063d660df2300e31f66bed027fa5) [trống]
          sản phẩm: Không xác định
          nhà cung cấp: Không xác định
          id vật lý: 1
          sê-ri: Không xác định
          khe cắm: DIMM 1
     *-ngân hàng:2
          mô tả: DIMM DDR4 Đồng bộ Không có bộ đệm (Chưa đăng ký) 2133 MHz (0,5 ns)
          sản phẩm: F4-3600C16-16GTZNC
          nhà cung cấp: Không xác định
          id vật lý: 2
          nối tiếp: 00000000
          khe cắm: DIMM 0
          kích thước: 16GiB
          chiều rộng: 64 bit
          xung nhịp: 2133MHz (0,5ns)
     *-ngân hàng:3
          mô tả: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected] >Ngôn ngữ-Nhóm: Tiếng Anh (Úc) <[email protected]>MIME-Phiên bản: 1.0Content-Type: text/plain; bộ ký tự=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (bản dựng 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Phiên bản: lshwReport-Msgid-Bugs: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Ngôn ngữ-Nhóm: English (Australia) <[email protected]> Phiên bản MIME: 1.0Loại nội dung: văn bản/đơn giản; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (bản dựng 2d1d5e352f0d063d660df2300e31f66bed027fa5) [trống]
          sản phẩm: Không xác định
          nhà cung cấp: Không xác định
          id vật lý: 3
          sê-ri: Không xác định
          khe cắm: DIMM 1
  *-cache:0
       mô tả: Bộ đệm L1
       id vật lý: 11
       khe cắm: L1 - Bộ đệm
       kích thước: 768KiB
       dung lượng: 768KiB
       xung nhịp: 1GHz (1.0ns)
       khả năng: thống nhất ghi lại nội bộ theo đường ống
       cấu hình: cấp = 1
  *-bộ đệm: 1
       mô tả: bộ đệm L2
       id vật lý: 12
       khe cắm: L2 - Bộ đệm
       kích thước: 6MiB
       dung lượng: 6MiB
       xung nhịp: 1GHz (1.0ns)
       khả năng: thống nhất ghi lại nội bộ theo đường ống
       cấu hình: cấp = 2
  *-cache:2
       mô tả: bộ đệm L3
       id vật lý: 13
       khe cắm: L3 - Bộ đệm
       kích thước: 64MiB
       dung lượng: 64MiB
       xung nhịp: 1GHz (1.0ns)
       khả năng: thống nhất ghi lại nội bộ theo đường ống
       cấu hình: cấp = 3
heynnema avatar
lá cờ ru
Cho tôi xem `Sudo lshw -C memory`. Tôi muốn kiểm tra xem DIMM đang ở trong những khe cắm nào. Lấy một DIMM 16G ra và xem tình trạng sự cố có cải thiện không.
dina avatar
lá cờ kz
@heynnema tôi đã thêm đầu ra của lệnh trong câu trả lời ở trên.
lá cờ cn
Bo mạch sẽ có thể hỗ trợ các DIMM không có trong danh sách tương thích. Tôi đã xây dựng nhiều hệ thống Ryzen bắt đầu từ 1800X. Trước đây, tôi đã theo đuổi lỗ thỏ "RAM tương thích" này mà không có kết quả khả quan nào. Số dặm của bạn có thể thay đổi. Bạn nên thử một bộ DIMM khác trong mọi trường hợp.
dina avatar
lá cờ kz
@MishaNasledov cảm ơn, thật không may, tôi không có tùy chọn thay thế DIMM và tôi đã quyết định quay lại Windows. Có Win10 pro và cho đến nay nó vẫn chạy ổn.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.