Tôi cần theo dõi tình trạng của một số Ổ cứng Seagate ST16000NM002G SAS được lưu trữ trong một máy chủ đĩa chạy CentOS 7. Theo như tôi hiểu, các đĩa Seagate không hiển thị S.M.A.R.T. thuộc tính do một quyết định quản lý chính xác (xem trang này) và công ty đề nghị sử dụng phần mềm SeaTool của họ mà theo họ là đáng tin cậy hơn S.M.A.R.T. Đáng buồn thay, có vẻ như chỉ có phiên bản SSD của SeaTool dành cho Linux (xem trang này).
Vì tôi muốn nói rằng Segate+Linux phải là một trường hợp khá phổ biến trong các trung tâm dữ liệu hiện đại nên tôi khá chắc chắn rằng một số công cụ giám sát đáng tin cậy dành cho đĩa Seagate phải có sẵn cho Linux. Ai có thể cung cấp một số cái nhìn sâu sắc, xin vui lòng?
Chỉnh sửa: đây là những gì tôi nhận được với smartctl cho đĩa Seagate:
$ Sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (bản dựng cục bộ)
Bản quyền (C) 2002-2018, Bruce Allen, Christian Franke, www.smartmontools.org
=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
Nhiệt độ ổ đĩa hiện tại: 33 C
Nhiệt độ chuyến đi lái xe: 60 C
Sản xuất tuần 42 năm 2020
Số chu kỳ được chỉ định trong suốt thời gian tồn tại của thiết bị: 50000
Số chu kỳ start-stop tích lũy: 20
Số lần tải-không tải được chỉ định trong suốt thời gian tồn tại của thiết bị: 600000
Số chu kỳ tải-không tải tích lũy: 3324
Các yếu tố trong danh sách lỗi phát triển: 0
trong khi đối với ổ cứng Toshiba trên máy khác:
$ Sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (bản dựng cục bộ)
Bản quyền (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org
=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
Thuộc tính SMART Số sửa đổi cấu trúc dữ liệu: 16
Thuộc tính SMART cụ thể của nhà cung cấp với ngưỡng:
ID# ATTRIBUTE_NAME GIÁ TRỊ CỜ LOẠI THRESH XẤU NHẤT ĐƯỢC CẬP NHẬT KHI_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Luôn - 0
2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0
3 Spin_Up_Time 0x0027 100 100 001 Luôn thất bại trước - 7019
4 Start_Stop_Count 0x0032 100 100 000 Old_age Luôn luôn - 34
5 Được phân bổ lại_Sector_Ct 0x0033 100 100 050 Luôn thất bại trước - 0
7 Seek_Error_Rate 0x000b 100 100 050 Luôn thất bại trước - 0
8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 062 062 000 Old_age Luôn luôn - 15428
10 Spin_Retry_Count 0x0033 100 100 030 Luôn thất bại trước - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Luôn luôn - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Luôn luôn - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Luôn luôn - 32
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Luôn luôn - 39
194 Nhiệt độ_Celsius 0x0022 100 100 000 Old_age Luôn luôn - 31 (Tối thiểu/Tối đa 15/39)
196 Được phân bổ lại_Event_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Luôn luôn - 0
198 Ngoại tuyến_Không thể sửa được 0x0030 100 100 000 Old_age Ngoại tuyến - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Luôn luôn - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Luôn luôn - 0
222 Loaded_Hours 0x0032 062 062 000 Old_age Luôn luôn - 15427
223 Load_Retry_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
224 Load_Friction 0x0022 100 100 000 Old_age Luôn luôn - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Luôn luôn - 648
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Ngoại tuyến - 0
Tôi mong đợi một cái gì đó giống như cái sau để có thể thiết lập giám sát phù hợp (ngay cả khi không chính xác hoặc đáng tin cậy).