Điểm:0

Sự cố đĩa: irq_stat 0x20000000, lỗi bus máy chủ

lá cờ bd

Khi sao chép các tệp lớn (50+GB) từ đĩa NVMe sang đĩa HDD SATA 7200rpm, tôi thấy lỗi sau trong nhật ký trên Ubuntu 20.04 đã được vá đầy đủ:

08 tháng 8 00:45:59 kernel máy chủ: ata6.00: ngoại lệ Emask 0x20 SAct 0x0 SErr 0x0 hành động 0x6 bị đóng băng
08 tháng 8 00:45:59 kernel máy chủ: ata6.00: irq_stat 0x20000000, lỗi bus máy chủ
08 tháng 8 00:45:59 nhân máy chủ: ata6.00: lệnh không thành công: WRITE DMA EXT
08 tháng 8 00:45:59 nhân máy chủ: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 thẻ 23 dma 4096 out
                                    res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (lỗi bus máy chủ)
Ngày 08 tháng 8 00:45:59 hạt nhân máy chủ: ata6.00: trạng thái: { DRDY }
ngày 08 tháng 8 00:45:59 nhân máy chủ: ata6: liên kết khôi phục cài đặt gốc
08 tháng 8 00:46:00 nhân máy chủ: ata6: Liên kết SATA lên tới 6,0 Gbps (SStatus 133 SControl 300)
08 tháng 8 00:46:00 nhân máy chủ: ata6.00: được định cấu hình cho UDMA/133
08 tháng 8 00:46:00 hạt nhân máy chủ: ata6: EH hoàn tất

ata6.00 là đĩa đang được ghi vào.
Vấn đề là không liên tục. Đôi khi không xuất hiện trong 24 giờ, đôi khi một vài lần mỗi giờ. Thông thường, đĩa sẽ phục hồi, nhưng đôi khi hệ thống tệp bị hỏng, cần được ngắt kết nối, sửa chữa (nếu có thể) và kết nối lại.

Những gì tôi đã thử:

  1. Tôi đã thử 3 nhãn hiệu ổ cứng khác nhau. Tất cả đều có cùng một vấn đề.
  2. Tôi nghi ngờ vấn đề phần cứng. Tôi đã thay thế bo mạch chủ và cáp SATA. Không ai trong số này giúp được.
  3. Tôi có một máy chủ khác có cấu hình giống hệt nhau.Vấn đề không xảy ra ở đó. Cùng một khối lượng công việc.
  4. Tôi có một máy chủ khác có cấu hình hoàn toàn khác (Intel so với AMD). Vấn đề xảy ra ở đó. Cùng một khối lượng công việc.
  5. Tôi đã tắt NCQ qua tiếng vang 1 > /sys/block/sda/device/queue_depth. Đã không giúp được gì.

Tôi cạn kiệt ý tưởng...
Đây là tất cả các thành phần cấp trung tâm dữ liệu. Với các bước tôi đã thực hiện, tôi cho rằng đó không phải là lỗi sản xuất phần cứng.
Đây có thể là phần mềm/OS/BIOS liên quan?
Bất kỳ ý tưởng những gì khác tôi nên thử?

Michael Hampton avatar
lá cờ cz
Các thành phần cấp trung tâm dữ liệu là gì? HBA bạn đang sử dụng là gì? Bo mạch chủ là gì? RAM là gì?
mike avatar
lá cờ bd
Không có HBA. Các đĩa kết nối trực tiếp với các cổng SATA trên MB. Bo mạch chủ là Supermicro MBD-X11SPM-F-O. RAM là Samsung DDR4-3200, 8GB, ECC RDIMM, 1Rx8, 288pin.
Michael Hampton avatar
lá cờ cz
Điều này vẫn giống như sự cố về bộ điều khiển hoặc cáp, nhưng bạn có thể chạy `smartctl -a` trên đĩa để xem chúng có ghi lỗi hay không.
mike avatar
lá cờ bd
Nó hiển thị lỗi, nhưng chúng khó hiểu đối với tôi. Không chắc chắn nơi để đi từ đó. https://gist.github.com/ceecko/c74c2aafc7d0b7fa1f9ad9a71e7d4717. Tôi nghi ngờ bộ điều khiển hoặc cáp có vấn đề nhưng vì cả hai đều đã được thay thế nên tôi nghĩ khả năng cả hai đều bị hỏng là rất nhỏ...
Michael Hampton avatar
lá cờ cz
Bạn nói rằng bạn có nhiều đĩa, nhưng ý chính đó chỉ hiển thị kết quả cho một đĩa. Những người còn lại ở đâu?
mike avatar
lá cờ bd
Tôi vừa cập nhật ý chính với tất cả các đĩa, bao gồm cả đĩa nvme được sử dụng làm nguồn để sao chép.
Michael Hampton avatar
lá cờ cz
Chỉ _one_ trong số ba đĩa hiển thị các lỗi này. Bạn nên thử thay thế đĩa này.
mike avatar
lá cờ bd
Nó dường như không phải là đĩa mặc dù. `/dev/sdc` được kết nối qua `ata6` và được sử dụng làm đĩa khởi động. Đĩa này bị lỗi mặc dù không có gì trong nhật ký thông minh. Khi đó, đĩa bị lỗi đã được gắn nhưng không được sử dụng. Bạn có nghĩ rằng `/dev/sda` có thể khiến `/dev/sdc` bị lỗi theo cách như vậy không? Như đã đề cập trước đây, những đĩa này là loại đĩa thứ 3 mà tôi đã thử. Tôi đoán sẽ là một sự trùng hợp tuyệt vời khi có lô đĩa thứ 3 với cùng một vấn đề.
Điểm:1
lá cờ jo

Có lẽ đây là một vấn đề của nhiệt độ hoạt động? Khi đĩa được sử dụng liên tục, vị trí vật lý của nó và tỷ lệ tăng nhiệt trên tổn thất quá cao dẫn đến hành vi thất thường?

Trên các nhân mới hơn như nhiệt độ ổ đĩa của bạn có thể được đặt trong sysfs tại đường dẫn này:

/sys/lớp/hwmon/*

Hãy đảm bảo chắc chắn rằng drivetemp mô-đun được tải với modprobe drivetemp.

Bạn có thể xem xét theo dõi các tệp ở đây và bắt đầu sao chép lại tệp lớn, tài liệu kernel đây cung cấp một dấu hiệu về cách diễn giải các tệp này.

Chúng bao gồm các giá trị hữu ích như nhiệt độ tối thiểu/tối đa đang hoạt động, một số trình điều khiển cũng có thể cung cấp các chỉ báo cảnh báo, đây là các cảnh báo phụ thuộc vào chip được kích hoạt khi có lỗi.

Điểm:0
lá cờ bd

Có vẻ như được giải quyết bằng cách nâng cấp lên Ubuntu 21.04. Không có ý tưởng tại sao mặc dù. Máy chủ hiện đang chạy ổn định mà không có bất kỳ sự cố ATA nào.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.