Tôi có một nhóm ZFS ở trạng thái hiện tại:
[root@SERVER-abc ~]# trạng thái zpool -v DATAPOOL
hồ bơi: DATAPOOL
trạng thái: XUỐNG
trạng thái: Một hoặc nhiều thiết bị đã gặp lỗi dẫn đến dữ liệu
tham nhũng. Các ứng dụng có thể bị ảnh hưởng.
hành động: Khôi phục tệp được đề cập nếu có thể. Nếu không thì khôi phục lại
toàn bộ hồ bơi từ bản sao lưu.
xem: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: resilvered 18,5M vào 00:00:01 với 0 lỗi vào Thứ Tư ngày 5 tháng 1 19:10:50 năm 2022
cấu hình:`
TÊN BANG ĐỌC VIẾT CKSUM
DATAPOOL ĐÃ XUỐNG 0 0 0
radiz2-0 ĐÃ XUỐNG 0 0 0
gptid/14c707c6-f16c-11e8-b117-0cc47a2ba44e ĐÃ XUỐNG 0 0 17 quá nhiều lỗi
dự phòng-1 TRỰC TUYẾN 0 0 17
gptid/168342c5-f16c-11e8-b117-0cc47a2ba44e TRỰC TUYẾN 0 0 0
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e TRỰC TUYẾN 0 0 0
gptid/1875501a-f16c-11e8-b117-0cc47a2ba44e TRỰC TUYẾN 0 0 30
gptid/1a16d37c-f16c-11e8-b117-0cc47a2ba44e TRỰC TUYẾN 0 0 29
phụ tùng
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e INUSE hiện đang được sử dụng
lỗi: Các lỗi vĩnh viễn đã được phát hiện trong các tệp sau:
DATAPOOL/VMS/ubuntu_1804_LTS_ustrich-m6i87@auto-2022-01-04_11-41:<0x1>
<0x1080a>:<0x1>
<0x182a>:<0x1>
DATAPOOL/VMS/ubuntu_1804_LTS_ustrich-m6i87:<0x1>
<0x16fa>:<0x1>
Đây là zpool có 4+1 ổ dự phòng. Đã xảy ra sự cố và đột nhiên ổ đĩa dự phòng tự động ghép nối với ổ đĩa khác là ổ đĩa dự phòng-1.
Điều này thật bất ngờ với tôi, vì:
- Tại sao phụ tùng không thay thế ổ đĩa xuống cấp?
- Làm thế nào để tìm ra lý do tại sao phụ tùng nhảy sang phụ tùng-1?
- Có thể (hoặc thậm chí được khuyến nghị/có thể) lấy lại ổ đĩa dự phòng và sau đó thay thế ổ đĩa đã xuống cấp không?
Mục tiêu là giải cứu nhóm mà không cần phải lấy hàng tấn dữ liệu từ bản sao lưu, nhưng về cốt lõi, tôi muốn hiểu điều gì đã xảy ra và tại sao. Và làm thế nào để đối phó với những tình huống như trong 'thực tiễn tốt nhất'.
Xe tăng một bó! :)
Hệ thống là: SuperMicro, TrueNAS-12.0-U4.1, zfs-2.0.4-3
Chỉnh sửa: Đã thay đổi đầu ra từ trạng thái zpool -x thành trạng thái zpool -v DATAPOOL
Chỉnh sửa 2: Hiện tại tôi hiểu rằng 168342c5 đầu tiên dường như có lỗi và phụ tùng (1bfaa607) đã nhảy vào. Sau đó, 14c707c6 cũng xuống cấp.
Chỉnh sửa3, Câu hỏi bổ sung: vì tất cả các ổ đĩa (ngoại trừ ổ đĩa dự phòng-1) dường như có lỗi CKSUM - điều đó cho thấy điều gì? Cáp? HBA? Tất cả các ổ đĩa đang chết đồng thời?
Cập nhật mới nhất, sau zpool rõ ràng
và chà zpool DATAPOOL
có vẻ như rõ ràng, rất nhiều điều đã xảy ra và không có cách nào để giải cứu hồ bơi:
hồ bơi: DATAPOOL
trạng thái: XUỐNG
trạng thái: Một hoặc nhiều thiết bị hiện đang được khôi phục lại. hồ bơi sẽ
tiếp tục hoạt động, có thể ở trạng thái xuống cấp.
hành động: Đợi bộ giải mã hoàn tất.
quét: resilver đang được tiến hành kể từ Thứ Năm ngày 6 tháng 1 16:18:05 năm 2022
1,82T được quét với tốc độ 1,55G/s, 204G được phát hành với tốc độ 174M/s, tổng cộng 7,82T
Đã hoàn trả 40,8G, hoàn thành 2,55%, còn 12:44:33 nữa
cấu hình:
TÊN BANG ĐỌC VIẾT CKSUM
DATAPOOL ĐÃ XUỐNG 0 0 0
radiz2-0 ĐÃ XUỐNG 0 0 0
gptid/14c707c6-f16c-11e8-b117-0cc47a2ba44e ĐÃ XUỐNG 0 0 156 quá nhiều lỗi
dự phòng-1 ĐÃ XUỐNG 0 0 0
gptid/168342c5-f16c-11e8-b117-0cc47a2ba44e ĐÃ XUỐNG 0 0 236 quá nhiều lỗi
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e TRỰC TUYẾN 0 0 0 (phân giải)
gptid/1875501a-f16c-11e8-b117-0cc47a2ba44e ĐÃ XUỐNG 0 0 182 quá nhiều lỗi
gptid/1a16d37c-f16c-11e8-b117-0cc47a2ba44e ĐÃ XUỐNG 0 0 179 quá nhiều lỗi
phụ tùng
gptid/1bfaa607-f16c-11e8-b117-0cc47a2ba44e INUSE hiện đang được sử dụng
Tôi sẽ kiểm tra tất cả các số liệu thống kê thông minh ngay bây giờ.