Chúng tôi có một máy trạm trong nhóm có bo mạch chủ KNPA-U16 và GPU AMD RX560 hoạt động hầu hết thời gian. Hệ điều hành là Kubfox 20.04 và phiên bản kernel 5.8.0-59.
Bây giờ vấn đề xuất hiện khi chúng tôi không sử dụng máy trạm trong một thời gian và cố gắng truy cập nó trước mặt nó. Hành vi như sau:
Màn hình xuất hiện trong một khoảng thời gian ngắn (thay đổi trong khoảng ~0-10 giây) rồi chuyển sang màu đen. Như đã nói, thời gian thay đổi, thậm chí có lần tôi có thể đăng nhập trước khi màn hình tối đen. Không còn khả năng đánh thức nó sau sự kiện đó nữa. Nó có thể truy cập thông qua ssh mặc dù.
Nhật ký hạt nhân hiển thị như sau:
09:27:51 Hạt nhân PC3: [165861.461855] {1}[Lỗi phần cứng]: Lỗi phần cứng từ Nguồn lỗi phần cứng chung APEI: 4
09:27:51 Hạt nhân PC3: [165861.461858] {1}[Lỗi phần cứng]: mức độ nghiêm trọng của sự kiện: thông tin
09:27:51 Hạt nhân PC3: [165861.461860] {1}[Lỗi phần cứng]: Lỗi 0, loại: gây tử vong
09:27:51 Hạt nhân PC3: [165861.461861] {1}[Lỗi phần cứng]: fru_text: PcieError
09:27:51 Hạt nhân PC3: [165861.461862] {1}[Lỗi phần cứng]: section_type: Lỗi PCIe
09:27:51 Hạt nhân PC3: [165861.461863] {1}[Lỗi phần cứng]: port_type: 4, cổng gốc
09:27:51 Hạt nhân PC3: [165861.461864] {1}[Lỗi phần cứng]: phiên bản: 0.2
09:27:51 Hạt nhân PC3: [165861.461866] {1}[Lỗi phần cứng]: lệnh: 0x0407, trạng thái: 0x0010
09:27:51 Hạt nhân PC3: [165861.461867] {1}[Lỗi phần cứng]: device_id: 0000:20:03.1
09:27:51 Hạt nhân PC3: [165861.461868] {1}[Lỗi phần cứng]: khe cắm: 7
09:27:51 Hạt nhân PC3: [165861.461868] {1}[Lỗi phần cứng]: secondary_bus: 0x23
09:27:51 Hạt nhân PC3: [165861.461869] {1}[Lỗi phần cứng]: nhà cung cấp_id: 0x1022, device_id: 0x1453
09:27:51 Hạt nhân PC3: [165861.461870] {1}[Lỗi phần cứng]: class_code: 060400
09:27:51 Hạt nhân PC3: [165861.461871] {1}[Lỗi phần cứng]: bridge: secondary_status: 0x2000, điều khiển: 0x001a
09:27:51 Hạt nhân PC3: [165861.461872] {1}[Lỗi phần cứng]: aer_uncor_status: 0x00000000, aer_uncor_mask: 0x04500000
09:27:51 Hạt nhân PC3: [165861.461873] {1}[Lỗi phần cứng]: aer_uncor_severity: 0x004e2030
09:27:51 Hạt nhân PC3: [165861.461874] {1}[Lỗi phần cứng]: Tiêu đề TLP: 00000000 00000000 00000000 00000000
09:27:51 Hạt nhân PC3: [165861.461933] pcieport 0000:20:03.1: AER: aer_status: 0x00000000, aer_mask: 0x04500000
09:27:51 Hạt nhân PC3: [165861.461939] pcieport 0000:20:03.1: AER: aer_layer=Lớp giao dịch, aer_agent=ID người nhận
09:27:51 Hạt nhân PC3: [165861.461941] pcieport 0000:20:03.1: AER: aer_uncor_severity: 0x004e2030
09:27:51 Hạt nhân PC3: [165861.461945] amdgpu 0000:23:00.0: AER: không thể khôi phục (không có cuộc gọi lại error_detected)
09:27:51 Hạt nhân PC3: [165861.461947] snd_hda_intel 0000:23:00.1: AER: không thể khôi phục (không gọi lại error_detected)
09:27:52 Hạt nhân PC3: [165862.485806] pcieport 0000:20:03.1: AER: Liên kết Cổng gốc đã được đặt lại
09:27:52 Hạt nhân PC3: [165862.485854] pcieport 0000:20:03.1: AER: khôi phục thiết bị thành công
09:28:02 Hạt nhân PC3: [165866.837702] [drm:amdgpu_dm_commit_planes.constprop.0 [amdgpu]] *ERROR* Hết thời gian chờ hàng rào!
09:28:02 Hạt nhân PC3: [165872.219438] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* hết thời gian chờ đổ chuông gfx, báo hiệu seq=841906, phát ra seq=841908
09:28:02 Hạt nhân PC3: [165872.219526] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Thông tin quy trình: quy trình sddm-greeter pid 88965 luồng sddm-greet:cs0 pid 88969
09:28:02 Hạt nhân PC3: [165872.219534] amdgpu 0000:23:00.0: amdgpu: Bắt đầu thiết lập lại GPU!
09:28:02 Hạt nhân PC3: [165872.219865] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219865] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219870] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219870] không gửi được tin nhắn 281 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219879] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219879] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219883] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219883] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219887] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219887] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219890] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219890] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219894] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219894] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219897] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219897] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219901] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219901] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219905] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219905] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219909] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219909] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219912] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219912] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219916] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219916] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219919] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219919] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219923] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219923] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219926] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219926] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219930] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219930] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219933] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219933] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219937] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219937] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219940] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219940] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219944] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219944] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219947] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219947] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219951] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219951] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219954] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219954] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219958] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219958] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219961] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219961] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219965] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219965] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219968] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219968] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219972] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219972] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219975] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219975] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219978] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219978] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219981] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219981] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219985] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219985] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219988] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219988] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.219992] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219992] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.219995] amdgpu:
09:28:02 Hạt nhân PC3: [165872.219995] không gửi được tin nhắn 261 ret là 65535
09:28:02 Hạt nhân PC3: [165872.220169] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220169] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220173] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220173] không thể gửi tin nhắn 306 ret là 65535
09:28:02 Hạt nhân PC3: [165872.220175] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220175] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220179] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220179] không thể gửi tin nhắn 5e ret là 65535
09:28:02 Hạt nhân PC3: [165872.220183] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220183] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220186] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220186] không thể gửi tin nhắn 145 ret là 65535
09:28:02 Hạt nhân PC3: [165872.220190] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220190] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220195] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220195] không thể gửi tin nhắn 146 ret là 65535
09:28:02 Hạt nhân PC3: [165872.220200] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220200] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220203] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220203] không thể gửi tin nhắn 148 ret là 65535
09:28:02 Hạt nhân PC3: [165872.220207] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220207] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220210] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220210] không thể gửi tin nhắn 145 ret là 65535
09:28:02 Hạt nhân PC3: [165872.220215] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220215] tin nhắn cuối cùng không thành công lại là 65535
09:28:02 Hạt nhân PC3: [165872.220219] amdgpu:
09:28:02 Hạt nhân PC3: [165872.220219] không thể gửi tin nhắn 146 ret là 65535
09:28:22 Hạt nhân PC3: [165892.248439] [drm:atom_op_jump [amdgpu]] *ERROR* Atombios bị kẹt trong vòng lặp hơn 20 giây đang hủy bỏ
09:28:22 Hạt nhân PC3: [165892.248505] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* Atombios bị kẹt khi thực thi D8DE (len 824, WS 0, PS 0) @ 0xDA5E
09:28:22 Hạt nhân PC3: [165892.248569] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* Atombios bị kẹt khi thực thi D798 (len 326, WS 0, PS 0) @ 0xD888
09:28:22 Nhân PC3: [165892.248664] [drm:dce110_link_encoder_disable_output [amdgpu]] *ERROR* dce110_link_encoder_disable_output: Thực thi bảng lệnh VBIOS không thành công!
Chúng tôi đã gặp sự cố trong một thời gian dài (~ 1 năm, hiển thị trong nhật ký sự kiện SMBIOS) và đã thử một số cách:
- Lấy Card đồ họa ra khỏi Khe cắm PCIe và cắm lại
- Cài đặt kernel mới
- Cài đặt trình điều khiển độc quyền amdgpu
- Tắt tất cả các cài đặt ngủ trong Kubfox chúng tôi có thể tìm thấy
- Sử dụng pcie_aspm=off
- Sử dụng một màn hình khác (DVI / Cổng hiển thị)
- Thay đổi một số Cài đặt BIOS liên quan đến PCIe
Tuy nhiên không có gì chúng tôi làm dường như thay đổi bất cứ điều gì. Điều khiến vấn đề này trở nên khó khắc phục là nó chỉ xuất hiện nếu PC không được sử dụng trong một thời gian. Vì vậy, nó thực sự là một nỗi đau để kiểm tra bất cứ điều gì.
Có ai biết lỗi có thể là gì hoặc chúng ta có thể bắt đầu tìm kiếm ở đâu dựa trên nhật ký không?
Cập nhật, chúng tôi đã thử nghiệm card đồ họa trên một PC khác chạy Windows và nó hoạt động tốt. Sau đó, chúng tôi đã cài đặt Win 10 trên cùng một PC và nó cũng hoạt động bình thường. Vì vậy, nó có vẻ là sự kết hợp giữa GPU + bo mạch chủ + KDE neon. Linux dường như cho phép một số trạng thái tiết kiệm năng lượng không phù hợp với bo mạch chính. Tuy nhiên, chúng tôi đã tìm kiếm rất nhiều và không tìm thấy bất kỳ tùy chọn ngủ đông nào mà chúng tôi không tắt.