Tôi có một bộ máy giống hệt nhau về phần cứng và gần như giống hệt nhau về thiết lập phần mềm. Nhưng một trong số chúng đang lấp đầy /var/log/tin nhắn
với:
Ngày 16 tháng 6 09:41:37 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10082 mili giây trước)
Ngày 16 tháng 6 09:41:37 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10082 mili giây trước)
Ngày 16 tháng 6 09:41:47 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10080 mili giây trước)
Ngày 16 tháng 6 09:41:47 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10080 mili giây trước)
Ngày 16 tháng 6 09:41:57 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10076 mili giây trước)
Ngày 16 tháng 6 09:41:57 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (ban hành 10076 mili giây trước)
Ngày 16 tháng 6 09:42:07 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10082 mili giây trước)
Ngày 16 tháng 6 09:42:07 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10082 mili giây trước)
Ngày 16 tháng 6 09:42:17 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10081 mili giây trước)
Ngày 16 tháng 6 09:42:17 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10081 mili giây trước)
Ngày 16 tháng 6 09:42:28 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10074 mili giây trước)
Ngày 16 tháng 6 09:42:28 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10074 mili giây trước)
Ngày 16 tháng 6 09:42:38 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10083 mili giây trước)
Ngày 16 tháng 6 09:42:38 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10083 mili giây trước)
Ngày 16 tháng 6 09:42:48 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10082 mili giây trước)
Ngày 16 tháng 6 09:42:48 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10082 mili giây trước)
Ngày 16 tháng 6 09:42:58 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10081 mili giây trước)
Ngày 16 tháng 6 09:42:58 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10081 mili giây trước)
Ngày 16 tháng 6 09:43:08 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10069 mili giây trước)
Ngày 16 tháng 6 09:43:08 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10069 mili giây trước)
Ngày 16 tháng 6 09:43:18 h0stname kernel: pciehp 10000:00:00.0:pcie04: Hết thời gian chờ trên lệnh cắm nóng 0x13f8 (đã phát hành 10079 mili giây trước)
Ngày 16 tháng 6 09:43:18 h0stname kernel: pciehp 10000:00:01.0:pcie04: Hết thời gian chờ lệnh cắm nóng 0x13f8 (đã phát hành 10079 mili giây trước)
Có lẽ một phần cứng là không quá hạnh phúc.Làm cách nào để tôi tiến hành tìm ra phần cứng chính xác nào đang gây ra khiếu nại? Mọi thứ dường như đang hoạt động ngoại trừ một đĩa bị lỗi đã biết trong RAID. Thông thường, tôi sẽ bắt đầu ngắt kết nối mọi thứ để thu hẹp nó, nhưng hiện tại tôi chỉ có SSH và bảng phần cứng rất lớn.
Tất cả những gì tôi biết là nó liên quan đến cầu PCI, như lspci
liệt kê địa chỉ tương ứng:
10000:00:00.0 Cầu nối PCI: Intel Corporation Sky Lake-E Cổng gốc PCI Express A (rev 04)
Cầu PCI 10000:00:01.0: Intel Corporation Sky Lake-E Cổng gốc PCI Express B (rev 04)
Đang chạy Centos 7, kernel 3.10.0-693.21.1.el7.x86_64