Điểm:0

mdstat không khớp khối cnt không đồng bộ

lá cờ us

Cả hai máy chủ của chúng tôi đều bị

mdstat không khớp khối cnt không đồng bộ

Mỗi đầu tháng, chúng tôi gặp lỗi này và chúng tôi phải sửa chữa cuộc đột kích bằng cách sử dụng

tiếng vang 'sửa chữa' >/sys/block/<md id>/md/sync_action

Việc kiểm tra này là do mdcheck_start.timer.service nếu tôi không nhầm.
Mất khoảng 5 giờ để sửa chữa nó, sau thời gian đó nó sẽ tự sửa chữa, hoặc ít nhất là tôi nghĩ vậy.

Câu hỏi đặt ra là liệu đây có phải là cách chính xác để khắc phục các khối đột kích không đồng bộ không? Điều gì gây ra lỗi này và làm cách nào để biết đó có phải là lỗi phần cứng/đĩa không? Cảm ơn bạn!

CHỈNH SỬA:/etc/fstab chứa:

# /etc/fstab: thông tin hệ thống tập tin tĩnh.

# / đã bật /dev/md2p1 trong quá trình cài đặt curtin
/dev/disk/by-id/md-uuid-b0b68adb:353b70e8:fa806910:a78761e9-part1 / ext4 mặc định 0 0

# /vol/data đã bật /dev/md3p1 trong quá trình cài đặt curtin
/dev/disk/by-id/md-uuid-2360fc63:991922f4:33aae17f:12f23590-part1 /vol/data ext4 mặc định 0 0

# /boot đã bật /dev/md0p1 trong quá trình cài đặt curtin
/dev/disk/by-id/md-uuid-a76428ff:270597e7:70ed6c91:026d2441-part1 /boot ext4 mặc định 0 0

UUID="5c389b41-007d-4893-b81c-5560cb2d6ff9" /vol/backup ext4 mặc định 0 0

172.30.0.199:/vol/shared /vol/shared nfs mặc định 0 0

đầu ra của lsblk --discard:

TÊN ĐĨA-ALN ĐĨA-GRAN ĐĨA-MAX ĐĨA-ZERO
vòng lặp0 0 4K 4G 0
loop1 0 4K 4G 0
loop2 0 4K 4G 0
vòng3 0 4K 4G 0
loop4 0 4K 4G 0
loop5 0 4K 4G 0
loop6 0 4K 4G 0
loop7 0 4K 4G 0
loop8 0 4K 4G 0
sda 0 4K 2G 0
ââsda1 0 4K 2G 0
ââsda2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsda3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsda4 0 4K 2G 0
  ââmd2 0 4K 2G 0
    ââmd2p1 0 4K 2G 0
sdb 0 4K 2G 0
ââsdb1 0 4K 2G 0
ââsdb2 0 4K 2G 0
â ââmd0 0 4K 2G 0
â ââmd0p1 0 4K 2G 0
ââsdb3 0 4K 2G 0
â ââmd1 0 4K 2G 0
â ââmd1p1 0 4K 2G 0
ââsdb4 0 4K 2G 0
  ââmd2 0 4K 2G 0
    ââmd2p1 0 4K 2G 0
sdc 0 0B 0B 0
ââsdc1 0 0B 0B 0
nvme1n1 0 512B 2T 0
ââmd3 0 512B 2T 0
  ââmd3p1 0 512B 2T 0
nvme0n1 0 512B 2T 0
ââmd3 0 512B 2T 0
  ââmd3p1 0 512B 2T 0

đầu ra của smartctl -i /dev/sd[ab]:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-92-generic] (bản dựng cục bộ)
Bản quyền (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== PHẦN THÔNG TIN BẮT ĐẦU ===
Dòng sản phẩm: SSD chuỗi Intel S4510/S4610/S4500/S4600
Kiểu thiết bị: INTEL SSDSC2KG960G8
Số sê-ri: BTYG024601ZC960CGN
Id thiết bị LU WWN: 5 5cd2e4 152b3fddf
Phiên bản phần sụn: XCV10120
Dung lượng người dùng: 960.197.124.096 byte [960 GB]
Kích thước cung: 512 byte logic, 4096 byte vật lý
Tốc độ quay: Thiết bị trạng thái rắn
Yếu tố hình thức: 2,5 inch
Thiết bị là: Trong cơ sở dữ liệu smartctl [để biết chi tiết, hãy sử dụng: -P show]
Phiên bản ATA là: ACS-3 T13/2161-D bản sửa đổi 5
Phiên bản SATA là: SATA 3.2, 6.0 Gb/s (hiện tại: 6.0 Gb/s)
Giờ địa phương là: Wed Feb 2 07:43:15 2022 CET
Hỗ trợ SMART là: Có sẵn - thiết bị có khả năng SMART.
Hỗ trợ SMART là: Đã bật

đầu ra của mdadm --detail /dev/md2:

/dev/md2:
           Phiên bản : 1.2
     Thời gian tạo : Thứ ba 24 tháng 11 21:02:34 2020
        Cấp độ đột kích : đột kích1
        Kích thước mảng : 919731200 (877,12 GiB 941,80 GB)
     Kích thước Dev đã sử dụng: 919731200 (877,12 GiB 941,80 GB)
      Thiết bị đột kích : 2
     Tổng số thiết bị : 2
       Kiên trì : Superblock là bền bỉ

     Ý định Bitmap: Nội bộ

       Thời gian cập nhật : Thứ tư ngày 2 tháng 2 07:43:33 2022
             Trạng thái: đang hoạt động
    Thiết bị đang hoạt động : 2
   Thiết bị làm việc : 2
    Thiết bị bị lỗi: 0
     Thiết bị dự phòng : 0

Chính sách nhất quán : bitmap

              Tên: ubuntu-server:2
              UUID : b0b68adb:353b70e8:fa806910:a78761e9
            Sự kiện : 24281

    Số Chính Nhỏ Nhỏ RaidDevice State
       0 8 4 0 đồng bộ hóa đang hoạt động /dev/sda4
       1 8 20 1 đồng bộ hóa đang hoạt động /dev/sdb4

đầu ra của lỗi smartctl -A -l /dev/sda:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-92-generic] (bản dựng cục bộ)
Bản quyền (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
Thuộc tính SMART Số sửa đổi cấu trúc dữ liệu: 1
Thuộc tính SMART cụ thể của nhà cung cấp với ngưỡng:
ID# ATTRIBUTE_NAME GIÁ TRỊ CỜ LOẠI THRESH XẤU NHẤT ĐƯỢC CẬP NHẬT KHI_FAILED RAW_VALUE
  5 Được phân bổ lại_Sector_Ct 0x0032 100 100 000 Old_age Luôn luôn - 0
  9 Power_On_Hours 0x0032 100 100 000 Old_age Luôn luôn - 10469
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Luôn luôn - 8
170 Available_Reservd_Space 0x0033 100 100 010 Luôn luôn thất bại trước - 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Luôn luôn - 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 Luôn thất bại trước - 2591 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
184 End-to-End_Error_Count 0x0033 100 100 090 Pre-fail Luôn luôn - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Luôn luôn - 0
190 Drive_Temperature 0x0022 079 075 000 Old_age Luôn luôn - 21 (Tối thiểu/Tối đa 12/27)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Luôn luôn - 7
194 Nhiệt độ_Celsius 0x0022 100 100 000 Old_age Luôn luôn - 21
197 Pending_Sector_Count 0x0012 100 100 000 Old_age Luôn luôn - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Luôn luôn - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1006057
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Luôn luôn - 419
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Luôn luôn - 52
228 Workload_Minutes 0x0032 100 100 000 Old_age Luôn luôn - 628023
232 Available_Reservd_Space 0x0033 100 100 010 Luôn luôn thất bại trước - 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Luôn luôn - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Luôn luôn - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 Luôn thất bại trước - 2591 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1006057
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1112548
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1730576

Phiên bản nhật ký lỗi SMART: 1
Không có lỗi nào được ghi lại

đầu ra của lỗi smartctl -A -l /dev/sdb:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-92-generic] (bản dựng cục bộ)
Bản quyền (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
Thuộc tính SMART Số sửa đổi cấu trúc dữ liệu: 1
Thuộc tính SMART cụ thể của nhà cung cấp với ngưỡng:
ID# ATTRIBUTE_NAME GIÁ TRỊ CỜ LOẠI THRESH XẤU NHẤT ĐƯỢC CẬP NHẬT KHI_FAILED RAW_VALUE
  5 Được phân bổ lại_Sector_Ct 0x0032 100 100 000 Old_age Luôn luôn - 0
  9 Power_On_Hours 0x0032 100 100 000 Old_age Luôn luôn - 10469
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Luôn luôn - 8
170 Available_Reservd_Space 0x0033 100 100 010 Luôn luôn thất bại trước - 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Luôn luôn - 7
175 Power_Loss_Cap_Test 0x0033 100 100 010 Luôn thất bại trước - 2479 (8 65535)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
184 End-to-End_Error_Count 0x0033 100 100 090 Pre-fail Luôn luôn - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Luôn luôn - 0
190 Drive_Temperature 0x0022 078 073 000 Old_age Luôn luôn - 22 (Tối thiểu/Tối đa 12/29)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Luôn luôn - 7
194 Nhiệt độ_Celsius 0x0022 100 100 000 Old_age Luôn luôn - 22
197 Pending_Sector_Count 0x0012 100 100 000 Old_age Luôn luôn - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Luôn luôn - 0
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1064411
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Luôn luôn - 440
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Luôn luôn - 45
228 Workload_Minutes 0x0032 100 100 000 Old_age Luôn luôn - 628005
232 Available_Reservd_Space 0x0033 100 100 010 Luôn luôn thất bại trước - 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Luôn luôn - 0
234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Luôn luôn - 0/0
235 Power_Loss_Cap_Test 0x0033 100 100 010 Luôn thất bại trước - 2479 (8 65535)
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1064411
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 876800
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Luôn luôn - 1801020

Phiên bản nhật ký lỗi SMART: 1
Không có lỗi nào được ghi lại
David Pivoňka avatar
lá cờ us
Phiên bản hạt nhân @anx là 5.4.0-92 chung. Tôi không chắc liệu hệ thống tập tin có đang sử dụng tính năng loại bỏ hay không, làm cách nào để biết? Chúng tôi đã không đặt bất cứ thứ gì như vậy trong quá trình cài đặt. CHỈNH SỬA: Đã thêm nội dung/etc/fstab để đăng.
Nikita Kipriyanov avatar
lá cờ za
hiển thị `lsblk --discard`
David Pivoňka avatar
lá cờ us
@NikitaKipriyanov đã thêm vào bài đăng chính
Nikita Kipriyanov avatar
lá cờ za
vậy cái nào thể hiện hành vi này?
David Pivoňka avatar
lá cờ us
Chúng tôi đang sửa chữa nó bằng cách sử dụng `echo 'repair' >/sys/block/md2/md/sync_action`. Vì vậy, nó phải là `md2 : active raid1 sdb4[1] sda4[0]` theo `cat /proc/mdstat`
Nikita Kipriyanov avatar
lá cờ za
Thật không may, các chỉ số MD này không ổn định. Họ có thể chuyển đổi sau khi khởi động lại. Tuy nhiên, md2 hiện có trên sda và sdb - những thiết bị đó là gì? Vui lòng hiển thị `smartctl` cho họ. Ngoài ra, vui lòng hiển thị `mdadm --detail /dev/md2`.
David Pivoňka avatar
lá cờ us
Thêm.Tôi cũng nên đề cập rằng chúng tôi có một máy chủ phụ giống với máy chủ này và sự cố cũng xảy ra ở đó.
Nikita Kipriyanov avatar
lá cờ za
Rất vui được xem thông tin về SSD. Nhưng bạn đã đăng hai kết quả đầu ra giống hệt nhau, chỉ khác nhau về số sê-ri. Chỉ cần giữ lại một bản là đủ. Tôi muốn xem các thuộc tính và nhật ký lỗi, `smartctl -A -l error /dev/sd[ab]`. // Tôi sợ MD RAID không phải là công nghệ tốt nhất để sử dụng trên các ổ SSD này. Đây là trường hợp khi hệ thống tệp có quản lý âm lượng tích hợp có thể phù hợp hơn, chẳng hạn như zfs hoặc btrfs..
David Pivoňka avatar
lá cờ us
Đã thêm đầu ra của lỗi smartctl. Vì vậy, bạn đang nói rằng có thể giúp thay thế MD RAID bằng một số loại đột kích phần cứng?
Nikita Kipriyanov avatar
lá cờ za
Tôi thực sự đã nói rằng có thể tốt hơn nếu thay thế RAID cấp khối bằng RAID cấp hệ thống tệp. Tôi hy vọng HW RAID sẽ hiển thị các triệu chứng tương tự hoặc thậm chí lạ hơn. // Chúng tôi đã gặp sự cố như thế này hôm nay với các ổ SSD tương tự, dòng S4610. Vì vậy, bây giờ tôi thậm chí có vấn đề như của bạn. Nhưng trong trường hợp của tôi, Windows không có hệ thống tệp như vậy. vì vậy chúng tôi đang khám phá.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.