Khi sao chép các tệp lớn (50+GB) từ đĩa NVMe sang đĩa HDD SATA 7200rpm, tôi thấy lỗi sau trong nhật ký trên Ubuntu 20.04 đã được vá đầy đủ:
08 tháng 8 00:45:59 kernel máy chủ: ata6.00: ngoại lệ Emask 0x20 SAct 0x0 SErr 0x0 hành động 0x6 bị đóng băng
08 tháng 8 00:45:59 kernel máy chủ: ata6.00: irq_stat 0x20000000, lỗi bus máy chủ
08 tháng 8 00:45:59 nhân máy chủ: ata6.00: lệnh không thành công: WRITE DMA EXT
08 tháng 8 00:45:59 nhân máy chủ: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 thẻ 23 dma 4096 out
res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (lỗi bus máy chủ)
Ngày 08 tháng 8 00:45:59 hạt nhân máy chủ: ata6.00: trạng thái: { DRDY }
ngày 08 tháng 8 00:45:59 nhân máy chủ: ata6: liên kết khôi phục cài đặt gốc
08 tháng 8 00:46:00 nhân máy chủ: ata6: Liên kết SATA lên tới 6,0 Gbps (SStatus 133 SControl 300)
08 tháng 8 00:46:00 nhân máy chủ: ata6.00: được định cấu hình cho UDMA/133
08 tháng 8 00:46:00 hạt nhân máy chủ: ata6: EH hoàn tất
ata6.00
là đĩa đang được ghi vào.
Vấn đề là không liên tục. Đôi khi không xuất hiện trong 24 giờ, đôi khi một vài lần mỗi giờ.
Thông thường, đĩa sẽ phục hồi, nhưng đôi khi hệ thống tệp bị hỏng, cần được ngắt kết nối, sửa chữa (nếu có thể) và kết nối lại.
Những gì tôi đã thử:
- Tôi đã thử 3 nhãn hiệu ổ cứng khác nhau. Tất cả đều có cùng một vấn đề.
- Tôi nghi ngờ vấn đề phần cứng. Tôi đã thay thế bo mạch chủ và cáp SATA. Không ai trong số này giúp được.
- Tôi có một máy chủ khác có cấu hình giống hệt nhau.Vấn đề không xảy ra ở đó. Cùng một khối lượng công việc.
- Tôi có một máy chủ khác có cấu hình hoàn toàn khác (Intel so với AMD). Vấn đề xảy ra ở đó. Cùng một khối lượng công việc.
- Tôi đã tắt NCQ qua
tiếng vang 1 > /sys/block/sda/device/queue_depth
. Đã không giúp được gì.
Tôi cạn kiệt ý tưởng...
Đây là tất cả các thành phần cấp trung tâm dữ liệu. Với các bước tôi đã thực hiện, tôi cho rằng đó không phải là lỗi sản xuất phần cứng.
Đây có thể là phần mềm/OS/BIOS liên quan?
Bất kỳ ý tưởng những gì khác tôi nên thử?