Điểm:1

Màn hình đen, lỗi PCIe với GPU AMD và bo mạch chủ máy chủ

lá cờ cn

Chúng tôi có một máy trạm trong nhóm có bo mạch chủ KNPA-U16 và GPU AMD RX560 hoạt động hầu hết thời gian. Hệ điều hành là Kubfox 20.04 và phiên bản kernel 5.8.0-59.

Bây giờ vấn đề xuất hiện khi chúng tôi không sử dụng máy trạm trong một thời gian và cố gắng truy cập nó trước mặt nó. Hành vi như sau: Màn hình xuất hiện trong một khoảng thời gian ngắn (thay đổi trong khoảng ~0-10 giây) rồi chuyển sang màu đen. Như đã nói, thời gian thay đổi, thậm chí có lần tôi có thể đăng nhập trước khi màn hình tối đen. Không còn khả năng đánh thức nó sau sự kiện đó nữa. Nó có thể truy cập thông qua ssh mặc dù.

Nhật ký hạt nhân hiển thị như sau:

09:27:51 Hạt nhân PC3: [165861.461855] {1}[Lỗi phần cứng]: Lỗi phần cứng từ Nguồn lỗi phần cứng chung APEI: 4  
09:27:51 Hạt nhân PC3: [165861.461858] {1}[Lỗi phần cứng]: mức độ nghiêm trọng của sự kiện: thông tin  
09:27:51 Hạt nhân PC3: [165861.461860] {1}[Lỗi phần cứng]: Lỗi 0, loại: gây tử vong  
09:27:51 Hạt nhân PC3: [165861.461861] {1}[Lỗi phần cứng]: fru_text: PcieError  
09:27:51 Hạt nhân PC3: [165861.461862] {1}[Lỗi phần cứng]: section_type: Lỗi PCIe  
09:27:51 Hạt nhân PC3: [165861.461863] {1}[Lỗi phần cứng]: port_type: 4, cổng gốc  
09:27:51 Hạt nhân PC3: [165861.461864] {1}[Lỗi phần cứng]: phiên bản: 0.2  
09:27:51 Hạt nhân PC3: [165861.461866] {1}[Lỗi phần cứng]: lệnh: 0x0407, trạng thái: 0x0010  
09:27:51 Hạt nhân PC3: [165861.461867] {1}[Lỗi phần cứng]: device_id: 0000:20:03.1  
09:27:51 Hạt nhân PC3: [165861.461868] {1}[Lỗi phần cứng]: khe cắm: 7  
09:27:51 Hạt nhân PC3: [165861.461868] {1}[Lỗi phần cứng]: secondary_bus: 0x23  
09:27:51 Hạt nhân PC3: [165861.461869] {1}[Lỗi phần cứng]: nhà cung cấp_id: 0x1022, device_id: 0x1453  
09:27:51 Hạt nhân PC3: [165861.461870] {1}[Lỗi phần cứng]: class_code: 060400  
09:27:51 Hạt nhân PC3: [165861.461871] {1}[Lỗi phần cứng]: bridge: secondary_status: 0x2000, điều khiển: 0x001a  
09:27:51 Hạt nhân PC3: [165861.461872] {1}[Lỗi phần cứng]: aer_uncor_status: 0x00000000, aer_uncor_mask: 0x04500000  
09:27:51 Hạt nhân PC3: [165861.461873] {1}[Lỗi phần cứng]: aer_uncor_severity: 0x004e2030  
09:27:51 Hạt nhân PC3: [165861.461874] {1}[Lỗi phần cứng]: Tiêu đề TLP: 00000000 00000000 00000000 00000000  
09:27:51 Hạt nhân PC3: [165861.461933] pcieport 0000:20:03.1: AER: aer_status: 0x00000000, aer_mask: 0x04500000  
09:27:51 Hạt nhân PC3: [165861.461939] pcieport 0000:20:03.1: AER: aer_layer=Lớp giao dịch, aer_agent=ID người nhận  
09:27:51 Hạt nhân PC3: [165861.461941] pcieport 0000:20:03.1: AER: aer_uncor_severity: 0x004e2030  
09:27:51 Hạt nhân PC3: [165861.461945] amdgpu 0000:23:00.0: AER: không thể khôi phục (không có cuộc gọi lại error_detected)  
09:27:51 Hạt nhân PC3: [165861.461947] snd_hda_intel 0000:23:00.1: AER: không thể khôi phục (không gọi lại error_detected)  
09:27:52 Hạt nhân PC3: [165862.485806] pcieport 0000:20:03.1: AER: Liên kết Cổng gốc đã được đặt lại  
09:27:52 Hạt nhân PC3: [165862.485854] pcieport 0000:20:03.1: AER: khôi phục thiết bị thành công   
09:28:02 Hạt nhân PC3: [165866.837702] [drm:amdgpu_dm_commit_planes.constprop.0 [amdgpu]] *ERROR* Hết thời gian chờ hàng rào!  
09:28:02 Hạt nhân PC3: [165872.219438] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* hết thời gian chờ đổ chuông gfx, báo hiệu seq=841906, phát ra seq=841908  
09:28:02 Hạt nhân PC3: [165872.219526] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Thông tin quy trình: quy trình sddm-greeter pid 88965 luồng sddm-greet:cs0 pid 88969  
09:28:02 Hạt nhân PC3: [165872.219534] amdgpu 0000:23:00.0: amdgpu: Bắt đầu thiết lập lại GPU!  
09:28:02 Hạt nhân PC3: [165872.219865] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219865] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219870] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219870] không gửi được tin nhắn 281 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219879] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219879] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219883] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219883] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219887] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219887] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219890] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219890] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219894] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219894] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219897] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219897] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219901] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219901] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219905] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219905] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219909] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219909] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219912] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219912] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219916] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219916] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219919] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219919] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219923] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219923] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219926] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219926] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219930] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219930] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219933] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219933] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219937] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219937] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219940] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219940] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219944] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219944] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219947] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219947] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219951] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219951] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219954] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219954] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219958] amdgpu: 
09:28:02 Hạt nhân PC3: [165872.219958] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219961] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219961] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219965] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219965] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219968] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219968] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219972] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219972] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219975] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219975] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219978] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219978] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219981] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219981] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219985] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219985] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219988] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219988] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.219992] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219992] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.219995] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.219995] không gửi được tin nhắn 261 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220169] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220169] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220173] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220173] không thể gửi tin nhắn 306 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220175] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220175] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220179] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220179] không thể gửi tin nhắn 5e ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220183] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220183] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220186] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220186] không thể gửi tin nhắn 145 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220190] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220190] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220195] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220195] không thể gửi tin nhắn 146 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220200] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220200] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220203] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220203] không thể gửi tin nhắn 148 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220207] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220207] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220210] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220210] không thể gửi tin nhắn 145 ret là 65535   
09:28:02 Hạt nhân PC3: [165872.220215] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220215] tin nhắn cuối cùng không thành công lại là 65535  
09:28:02 Hạt nhân PC3: [165872.220219] amdgpu:   
09:28:02 Hạt nhân PC3: [165872.220219] không thể gửi tin nhắn 146 ret là 65535   
09:28:22 Hạt nhân PC3: [165892.248439] [drm:atom_op_jump [amdgpu]] *ERROR* Atombios bị kẹt trong vòng lặp hơn 20 giây đang hủy bỏ  
09:28:22 Hạt nhân PC3: [165892.248505] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* Atombios bị kẹt khi thực thi D8DE (len 824, WS 0, PS 0) @ 0xDA5E  
09:28:22 Hạt nhân PC3: [165892.248569] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* Atombios bị kẹt khi thực thi D798 (len 326, WS 0, PS 0) @ 0xD888  
09:28:22 Nhân PC3: [165892.248664] [drm:dce110_link_encoder_disable_output [amdgpu]] *ERROR* dce110_link_encoder_disable_output: Thực thi bảng lệnh VBIOS không thành công!  

Chúng tôi đã gặp sự cố trong một thời gian dài (~ 1 năm, hiển thị trong nhật ký sự kiện SMBIOS) và đã thử một số cách:

  • Lấy Card đồ họa ra khỏi Khe cắm PCIe và cắm lại
  • Cài đặt kernel mới
  • Cài đặt trình điều khiển độc quyền amdgpu
  • Tắt tất cả các cài đặt ngủ trong Kubfox chúng tôi có thể tìm thấy
  • Sử dụng pcie_aspm=off
  • Sử dụng một màn hình khác (DVI / Cổng hiển thị)
  • Thay đổi một số Cài đặt BIOS liên quan đến PCIe

Tuy nhiên không có gì chúng tôi làm dường như thay đổi bất cứ điều gì. Điều khiến vấn đề này trở nên khó khắc phục là nó chỉ xuất hiện nếu PC không được sử dụng trong một thời gian. Vì vậy, nó thực sự là một nỗi đau để kiểm tra bất cứ điều gì.

Có ai biết lỗi có thể là gì hoặc chúng ta có thể bắt đầu tìm kiếm ở đâu dựa trên nhật ký không?


Cập nhật, chúng tôi đã thử nghiệm card đồ họa trên một PC khác chạy Windows và nó hoạt động tốt. Sau đó, chúng tôi đã cài đặt Win 10 trên cùng một PC và nó cũng hoạt động bình thường. Vì vậy, nó có vẻ là sự kết hợp giữa GPU + bo mạch chủ + KDE neon. Linux dường như cho phép một số trạng thái tiết kiệm năng lượng không phù hợp với bo mạch chính. Tuy nhiên, chúng tôi đã tìm kiếm rất nhiều và không tìm thấy bất kỳ tùy chọn ngủ đông nào mà chúng tôi không tắt.

nobody avatar
lá cờ gh
` lspci -nn | xin vui lòng grep 1453`.nó thực sự là một trong những card đồ họa của bạn? Vui lòng thử bootoption `mce=off` #Disable kiểm tra máy nhưng chỉ khi Máy tính đang chạy mà không có lỗi khi sử dụng. để kiểm tra an ninh ram của bạn.
amh23 avatar
lá cờ cn
cảm ơn, đây là đầu ra: `00:03.1 Cầu PCI [0604]: Advanced Micro Devices, Inc. [AMD] Dòng 17h (Mẫu 00h-0fh) Cầu PCIe GPP [1022:1453] Cầu PCI 20:01.2 [0604]: Advanced Micro Devices, Inc. [AMD] Dòng 17h (Mẫu 00h-0fh) Cầu PCIe GPP [1022:1453] Cầu PCI 20:03.1 [0604]: Advanced Micro Devices, Inc. [AMD] Dòng 17h (Mẫu 00h-0fh) Cầu PCIe GPP [1022:1453] Cầu PCI 60:01.1 [0604]: Advanced Micro Devices, Inc. [AMD] Dòng 17h (Mẫu 00h-0fh) Cầu PCIe GPP [1022:1453]` Tuy nhiên, theo như chúng tôi biết từ các ID khác có liên quan thì đây là Cầu nối PCIe của GPU
amh23 avatar
lá cờ cn
Chúng tôi có ECC-Ram và gần đây đã kiểm tra xem edac-util có ổn không. Tại sao bạn nghĩ `mce=off` có thể hữu ích? Theo như tôi hiểu thì đây là cài đặt liên quan đến cpu. Bạn có nghĩ rằng nó có thể có một cái gì đó để làm với nhiệt?

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.