Điểm:2

Mảng RAID báo "lỗi nghiêm trọng" nhưng smartctl báo đĩa vẫn khỏe - phải làm gì tiếp theo?

lá cờ in

Tôi có một dãy ổ SSD RAID-1 (Samsung 970 EVO Plus) và các lỗi xuất hiện trong /var/log/syslog, nhưng thông minh báo cáo rằng ổ đĩa là khỏe mạnh. Tôi đã thực hiện một loạt chẩn đoán (bên dưới) và không biết liệu tôi có thể làm gì khác không. Có vấn đề nào đang xảy ra hay không, và nếu có thì cách hành động tốt nhất là gì? (Trên Kubfox 18.04.6 LTS.)

Đây là mảng:

$ mèo /proc/mdstat
md1 : kích hoạt đột kích1 nvme0n1p3[0] nvme1n1p3[2]
      1919724608 khối siêu 1,2 [2/2] [UU]
      bitmap: 5/15 trang [20KB], khối 65536KB

Nó có vẻ khỏe mạnh, theo mdadm:

$ sudo mdadm --detail /dev/md1
/dev/md1:
           Phiên bản : 1.2
     Thời gian sáng tác : Sat 29 Feb 12:33:09 2020
        Cấp độ đột kích : đột kích1
        Kích thước mảng : 1919724608 (1830,79 GiB 1965,80 GB)
     Kích thước Dev đã sử dụng: 1919724608 (1830,79 GiB 1965,80 GB)
      Thiết bị đột kích : 2
     Tổng số thiết bị : 2
       Kiên trì : Superblock là bền bỉ

     Ý định Bitmap: Nội bộ

       Thời gian cập nhật : Thứ sáu ngày 31 tháng 12 14:04:55 năm 2021
             Trạng thái: sạch sẽ 
    Thiết bị đang hoạt động : 2
   Thiết bị làm việc : 2
    Thiết bị bị lỗi: 0
     Thiết bị dự phòng : 0

Chính sách nhất quán : bitmap

              Tên: kubuntu:1
              UUID : 7c84adca:31e96bad:b1be03ae:d7d0349d
            Sự kiện : 41087

    Số Chính Nhỏ Nhỏ RaidDevice State
       0 259 3 0 đồng bộ hóa đang hoạt động /dev/nvme0n1p3
       2 259 7 1 đồng bộ hóa đang hoạt động /dev/nvme1n1p3

Tuy nhiên, một số lỗi đọc đã bắt đầu xuất hiện trong /var/log/syslog, gấp ba lần:

Ngày 31 tháng 12 12:32:56 kernel: [662973.969218] blk_update_request: lỗi phương tiện nghiêm trọng, dev nvme1n1, sector 2769948928 op 0x0:(READ) flags 0x0 phys_seg 9 lớp trước 0
Ngày 31 tháng 12 12:32:56 kernel: [662973.969222] md/raid1:md1: nvme1n1p3: sắp xếp lại khu vực 2702369024
Ngày 31 tháng 12 12:32:56 kernel: [662973.978792] md/raid1:md1: chuyển hướng sector 2702369024 sang mirror khác: nvme0n1p3

Ngày 31 tháng 12 12:43:11 kernel: [663588.474940] blk_update_request: lỗi phương tiện nghiêm trọng, dev nvme0n1, sector 1815443200 op 0x0:(READ) flags 0x0 phys_seg 33 lớp trước 0
Ngày 31 tháng 12 12:43:11 kernel: [663588.474943] md/raid1:md1: nvme0n1p3: sắp xếp lại khu vực 1747863296
Ngày 31 tháng 12 12:43:11 kernel: [663588.499466] md/raid1:md1: chuyển hướng sector 1747863296 sang mirror khác: nvme0n1p3

đôi khi theo sau:

kernel: [313519.337578] md/raid1:md1: đã sửa lỗi đọc (8 cung tại 1367197592 trên nvme1n1p3)

tôi đã chạy thông minh để tìm kiếm các vấn đề. Nó chỉ ra rằng lỗi đã xảy ra trong quá khứ, nhưng nó cũng cho biết "Kết quả kiểm tra tự đánh giá sức khỏe tổng thể SMART: ĐẠT."

Đối với /dev/nvme0n1:

$ Sudo smartctl -a /dev/nvme0n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-91-generic] (bản dựng cục bộ)
Bản quyền (C) 2002-2016, Bruce Allen, Christian Franke, www.smartmontools.org

=== PHẦN THÔNG TIN BẮT ĐẦU ===
Số kiểu: Samsung SSD 970 EVO 2TB
Số sê-ri: S464NB0M406242D
Phiên bản chương trình cơ sở: 2B2QEXE7
ID nhà cung cấp/hệ thống con PCI: 0x144d
Định danh IEEE OUI: 0x002538
Tổng dung lượng NVM: 2.000.398.934.016 [2,00 TB]
Dung lượng NVM chưa phân bổ: 0
ID bộ điều khiển: 4
Số lượng không gian tên: 1
Không gian tên 1 Kích thước/Dung lượng: 2.000.398.934.016 [2,00 TB]
Không gian tên 1 Sử dụng: 1.017.558.851.584 [1,01 TB]
Không gian tên 1 Kích thước LBA được định dạng: 512
Giờ địa phương là: Thứ Sáu, ngày 31 tháng 12 14:01:33 2021 EST
Cập nhật chương trình cơ sở (0x16): 3 vị trí, không cần thiết lập lại
Các lệnh quản trị viên tùy chọn (0x0017): Định dạng bảo mật Frmw_DL *Other*
Các lệnh NVM tùy chọn (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Other*
Kích thước truyền dữ liệu tối đa: 512 trang
Cảnh báo Comp. Nhiệt độ. Ngưỡng: 82 độ C
Phần mềm quan trọng Nhiệt độ. Ngưỡng: 82 độ C

Các quốc gia quyền lực được hỗ trợ
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20W - - 0 0 0 0 0
 1 + 4,30W - - 1 1 1 1 0 0
 2 + 2.10W - - 2 2 2 2 0 0
 3 - 0,0400W - - 3 3 3 3 210 1200
 4 - 0,0050W - - 4 4 4 4 2000 8000

Kích thước LBA được hỗ trợ (NSID 0x1)
Id Fmt Dữ liệu Metadt Rel_Perf
 0 + 512 0 0

=== BẮT ĐẦU PHẦN DỮ LIỆU THÔNG MINH ===
Kết quả kiểm tra tự đánh giá sức khỏe tổng thể SMART: ĐẠT

Thông tin SMART/Sức khỏe (Nhật ký NVMe 0x02, NSID 0x1)
Cảnh báo quan trọng: 0x00
Nhiệt độ: 46 độ C
Phụ tùng có sẵn: 73%
Ngưỡng dự phòng khả dụng: 10%
Tỷ lệ sử dụng: 0%
Đơn vị dữ liệu đã đọc: 232.548.547 [119 TB]
Đơn vị dữ liệu được ghi: 58.761.625 [30,0 TB]
Các lệnh đọc máy chủ: 1.144.416.417
Lưu trữ các lệnh ghi: 1.551.430.546
Thời gian bận của bộ điều khiển: 7.250
Chu kỳ điện: 114
Giờ bật nguồn: 6.365
Tắt máy không an toàn: 73
Lỗi toàn vẹn phương tiện và dữ liệu: 694
Mục nhật ký thông tin lỗi: 926
Cảnh báo Comp. Nhiệt độ Thời gian: 0
Phần mềm quan trọng Nhiệt độ Thời gian: 0
Cảm biến nhiệt độ 1: 46 độ C
Cảm biến nhiệt độ 2: 50 độ C

Thông tin Lỗi (Nhật ký NVMe 0x01, tối đa 64 mục nhập)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
  0 926 28 0x0370 0xc502 0x000 3738332404 1 -
  1 925 6 0x015b 0xc502 0x000 2503721366 1 -
  2 924 22 0x0000 0xc502 0x000 1963251598 1 -
  3 923 11 0x038a 0xc502 0x000 1862557082 1 -
  4 922 16 0x00d1 0xc502 0x000 1862557082 1 -
  5 921 6 0x0141 0xc502 0x000 1826459600 1 -
  6 920 20 0x03b5 0xc502 0x000 1815443442 1 -
  7 919 8 0x034d 0xc502 0x000 2588273810 1 -
  8 918 11 0x0315 0xc502 0x000 2583041964 1 -
  9 917 9 0x02e3 0xc502 0x000 2583041964 1 -
 10 916 11 0x030e 0xc502 0x000 2583023500 1 -
 11 915 11 0x0308 0xc502 0x000 2583023468 1 -
 12 914 11 0x033a 0xc502 0x000 2583023500 1 -
 13 913 9 0x02ec 0xc502 0x000 2583023468 1 -
 14 912 14 0x03d2 0xc502 0x000 2472005420 1 -
 15 911 23 0x00cd 0xc502 0x000 2444721868 1 -
... (32 mục không được hiển thị)

/dev/nvme1n1:

$ Sudo smartctl -a /dev/nvme1n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-91-generic] (bản dựng cục bộ)
Bản quyền (C) 2002-2016, Bruce Allen, Christian Franke, www.smartmontools.org

=== PHẦN THÔNG TIN BẮT ĐẦU ===
Số kiểu: Samsung SSD 970 EVO 2TB
Số sê-ri: S464NB0M403333H
Phiên bản chương trình cơ sở: 2B2QEXE7
ID nhà cung cấp/hệ thống con PCI: 0x144d
Định danh IEEE OUI: 0x002538
Tổng dung lượng NVM: 2.000.398.934.016 [2,00 TB]
Dung lượng NVM chưa phân bổ: 0
ID bộ điều khiển: 4
Số lượng không gian tên: 1
Không gian tên 1 Kích thước/Dung lượng: 2.000.398.934.016 [2,00 TB]
Không gian tên 1 Sử dụng: 1.044.938.612.736 [1,04 TB]
Không gian tên 1 Kích thước LBA được định dạng: 512
Giờ địa phương là: Thứ Sáu, ngày 31 tháng 12 14:03:07 2021 EST
Cập nhật chương trình cơ sở (0x16): 3 vị trí, không cần thiết lập lại
Các lệnh quản trị viên tùy chọn (0x0017): Định dạng bảo mật Frmw_DL *Other*
Các lệnh NVM tùy chọn (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Other*
Kích thước truyền dữ liệu tối đa: 512 trang
Cảnh báo Comp. Nhiệt độ. Ngưỡng: 82 độ C
Phần mềm quan trọng Nhiệt độ. Ngưỡng: 82 độ C

Các quốc gia quyền lực được hỗ trợ
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20W - - 0 0 0 0 0
 1 + 4,30W - - 1 1 1 1 0 0
 2 + 2.10W - - 2 2 2 2 0 0
 3 - 0,0400W - - 3 3 3 3 210 1200
 4 - 0,0050W - - 4 4 4 4 2000 8000

Kích thước LBA được hỗ trợ (NSID 0x1)
Id Fmt Dữ liệu Metadt Rel_Perf
 0 + 512 0 0

=== BẮT ĐẦU PHẦN DỮ LIỆU THÔNG MINH ===
Kết quả kiểm tra tự đánh giá sức khỏe tổng thể SMART: ĐẠT

Thông tin SMART/Sức khỏe (Nhật ký NVMe 0x02, NSID 0x1)
Cảnh báo quan trọng: 0x00
Nhiệt độ: 45 độ C
Phụ tùng có sẵn: 81%
Ngưỡng dự phòng khả dụng: 10%
Tỷ lệ sử dụng: 1%
Đơn vị dữ liệu đã đọc: 180.057.901 [92,1 TB]
Đơn vị dữ liệu được ghi: 77.700.415 [39,7 TB]
Các lệnh đọc máy chủ: 801.630.346
Lưu trữ các lệnh ghi: 1.566.190.001
Thời gian bận của bộ điều khiển: 6.925
Chu kỳ điện: 156
Giờ bật nguồn: 6.260
Tắt máy không an toàn: 86
Lỗi toàn vẹn phương tiện và dữ liệu: 721
Mục nhật ký thông tin lỗi: 1.015
Cảnh báo Comp. Nhiệt độ Thời gian: 0
Phần mềm quan trọng Nhiệt độ Thời gian: 0
Cảm biến nhiệt độ 1: 45 độ C
Cảm biến nhiệt độ 2: 52 độ C

Thông tin Lỗi (Nhật ký NVMe 0x01, tối đa 64 mục nhập)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
  0 1015 22 0x0178 0xc502 0x000 2395920012 1 -
  1 1014 31 0x02d6 0xc502 0x000 2065018576 1 -
  2 1013 10 0x004e 0xc502 0x000 1928508102 1 -
  3 1012 6 0x02aa 0xc502 0x000 2769949126 1 -
  4 1011 27 0x0204 0xc502 0x000 2180665946 1 -
  5 1010 27 0x023b 0xc502 0x000 2180598396 1 -
  6 1009 14 0x00ee 0xc502 0x000 2562333810 1 -
  7 1008 13 0x0075 0xc502 0x000 2423243572 1 -
  8 1007 30 0x03bb 0xc502 0x000 2326927278 1 -
  9 1006 24 0x03e6 0xc502 0x000 1775468746 1 -
 10 1005 16 0x0066 0xc502 0x000 1775468746 1 -
 11 1004 23 0x0148 0xc502 0x000 2813092280 1 -
 12 1003 26 0x02fa 0xc502 0x000 2452856518 1 -
 13 1002 5 0x03b1 0xc502 0x000 2119789206 1 -
 14 1001 27 0x009b 0xc502 0x000 3047371772 1 -
 15 1000 5 0x036c 0xc502 0x000 3047371772 1 -
... (5 mục không được hiển thị)

Hai ổ đĩa dường như không hỗ trợ tự kiểm tra (smartctl -c không liệt kê bất kỳ bài kiểm tra tự nào cả).

$ Sudo smartctl -c /dev/nvme0n1
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-91-generic] (bản dựng cục bộ)
Bản quyền (C) 2002-2016, Bruce Allen, Christian Franke, www.smartmontools.org

=== PHẦN THÔNG TIN BẮT ĐẦU ===
Cập nhật chương trình cơ sở (0x16): 3 vị trí, không cần thiết lập lại
Các lệnh quản trị viên tùy chọn (0x0017): Định dạng bảo mật Frmw_DL *Other*
Các lệnh NVM tùy chọn (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat *Other*
Kích thước truyền dữ liệu tối đa: 512 trang
Cảnh báo Comp. Nhiệt độ.Ngưỡng: 82 độ C
Phần mềm quan trọng Nhiệt độ. Ngưỡng: 82 độ C

Các quốc gia quyền lực được hỗ trợ
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
 0 + 6,20W - - 0 0 0 0 0
 1 + 4,30W - - 1 1 1 1 0 0
 2 + 2.10W - - 2 2 2 2 0 0
 3 - 0,0400W - - 3 3 3 3 210 1200
 4 - 0,0050W - - 4 4 4 4 2000 8000

Kích thước LBA được hỗ trợ (NSID 0x1)
Id Fmt Dữ liệu Metadt Rel_Perf
 0 + 512 0 0

Cập nhật câu hỏi của tôi:

Một số lỗi dường như là do kịch bản kiểm tra chạy mỗi tháng một lần, vì lỗi bắt đầu "vào Chủ nhật đầu tiên của mỗi tháng, lúc 01:06 sáng". "man md" cho biết thêm:

[Bật] RAID1, các sự cố phần mềm có thể gây ra sự không khớp được báo cáo [giữa hai đĩa]. Điều này không nhất thiết có nghĩa là dữ liệu trên mảng bị hỏng. Có thể đơn giản là hệ thống không quan tâm những gì được lưu trữ trên phần đó của mảng - đó là không gian chưa sử dụng. Nguyên nhân rất có thể gây ra sự không phù hợp không mong muốn trên RAID1 hoặc RAID10 xảy ra nếu phân vùng hoán đổi hoặc tệp hoán đổi được lưu trữ trên mảng.

Tôi nên làm gì tiếp theo? Cảm ơn rất nhiều.

Nmath avatar
lá cờ ng
Luôn tin tưởng vào báo cáo tồi tệ nhất. Đảm bảo rằng các bản sao lưu theo thứ tự. Hãy nhớ rằng [RAID không phải là bản sao lưu](https://www.raidisnotabackup.com/). Lập kế hoạch thay thế ổ đĩa bị lỗi, sớm hay muộn.
DanB avatar
lá cờ in
Cảm ơn. Điều đó có nghĩa là lỗi đột nhiên xuất hiện trên *cả hai* ổ SSD trong mảng? (Một số thông báo đặt lỗi trên `/dev/nvme0n1` và những thông báo khác trên `/dev/nvme1n1`.
Nmath avatar
lá cờ ng
Nếu chúng được nhân đôi thì có thể là sự không nhất quán giữa hai đĩa.
DanB avatar
lá cờ in
Họ được nhân đôi. Có lệnh nào để kiểm tra hoặc khắc phục tình trạng nếu các đĩa không nhất quán không? PS: Tôi mới phát hiện ra (bằng cách tìm kiếm các nhật ký cũ, được lưu trữ) rằng những lỗi này đã xảy ra trong nhiều tháng trên cả hai ổ đĩa, thường là vào cùng một thời điểm trong ngày, khi chúng được sao lưu bằng rsync (sang một ổ đĩa khác).
Nmath avatar
lá cờ ng
Các lỗi mà bạn đang thấy đang thông báo cho bạn về việc sửa chữa đang được thực hiện. Đó là ý nghĩa của việc "lên lịch lại" và "chuyển hướng".
DanB avatar
lá cờ in
Cảm ơn! Câu hỏi cuối cùng: điều đó có nghĩa là gì nếu lỗi *không* được theo sau bởi một thông báo lập lịch/sửa lỗi, chẳng hạn như chính thông báo này: "kernel: [905111.122813] blk_update_request: lỗi trung bình nghiêm trọng, dev nvme1n1, sector 34055424 op 0x0 :( ĐỌC) ..."?
DanB avatar
lá cờ in
À, vừa phát hiện ra điều gì đó trong `/usr/share/doc/mdadm/README.checkarray`! "checkarray sẽ chạy kiểm tra chẵn lẻ trên tất cả các mảng dư thừa của bạn. Theo mặc định, nó được định cấu hình để chạy vào Chủ nhật đầu tiên của mỗi tháng, lúc 01:06 sáng." Khoảng thời gian ngày và giờ đó tương ứng chính xác với hầu hết các thông báo lỗi trong nhật ký của tôi. (Tuy nhiên, không phải tất cả các thông báo lỗi.)
Nmath avatar
lá cờ ng
Không chắc chắn về các lỗi không được sửa chữa. Tôi hiểu rằng hầu hết các sửa chữa sẽ diễn ra khi hệ thống đang kiểm tra chúng

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.