Điểm:0

Làm cách nào để theo dõi tình trạng ổ cứng Segate trong Linux?

lá cờ cn

Tôi cần theo dõi tình trạng của một số Ổ cứng Seagate ST16000NM002G SAS được lưu trữ trong một máy chủ đĩa chạy CentOS 7. Theo như tôi hiểu, các đĩa Seagate không hiển thị S.M.A.R.T. thuộc tính do một quyết định quản lý chính xác (xem trang này) và công ty đề nghị sử dụng phần mềm SeaTool của họ mà theo họ là đáng tin cậy hơn S.M.A.R.T. Đáng buồn thay, có vẻ như chỉ có phiên bản SSD của SeaTool dành cho Linux (xem trang này).

Vì tôi muốn nói rằng Segate+Linux phải là một trường hợp khá phổ biến trong các trung tâm dữ liệu hiện đại nên tôi khá chắc chắn rằng một số công cụ giám sát đáng tin cậy dành cho đĩa Seagate phải có sẵn cho Linux. Ai có thể cung cấp một số cái nhìn sâu sắc, xin vui lòng?

Chỉnh sửa: đây là những gì tôi nhận được với smartctl cho đĩa Seagate:

$ Sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (bản dựng cục bộ)
Bản quyền (C) 2002-2018, Bruce Allen, Christian Franke, www.smartmontools.org

=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
Nhiệt độ ổ đĩa hiện tại: 33 C
Nhiệt độ chuyến đi lái xe: 60 C

Sản xuất tuần 42 năm 2020
Số chu kỳ được chỉ định trong suốt thời gian tồn tại của thiết bị: 50000
Số chu kỳ start-stop tích lũy: 20
Số lần tải-không tải được chỉ định trong suốt thời gian tồn tại của thiết bị: 600000
Số chu kỳ tải-không tải tích lũy: 3324
Các yếu tố trong danh sách lỗi phát triển: 0

trong khi đối với ổ cứng Toshiba trên máy khác:

$ Sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (bản dựng cục bộ)
Bản quyền (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
Thuộc tính SMART Số sửa đổi cấu trúc dữ liệu: 16
Thuộc tính SMART cụ thể của nhà cung cấp với ngưỡng:
ID# ATTRIBUTE_NAME GIÁ TRỊ CỜ LOẠI THRESH XẤU NHẤT ĐƯỢC CẬP NHẬT KHI_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Luôn - 0
  2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0
  3 Spin_Up_Time 0x0027 100 100 001 Luôn thất bại trước - 7019
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Luôn luôn - 34
  5 Được phân bổ lại_Sector_Ct 0x0033 100 100 050 Luôn thất bại trước - 0
  7 Seek_Error_Rate 0x000b 100 100 050 Luôn thất bại trước - 0
  8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0
  9 Power_On_Hours 0x0032 062 062 000 Old_age Luôn luôn - 15428
 10 Spin_Retry_Count 0x0033 100 100 030 Luôn thất bại trước - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Luôn luôn - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Luôn luôn - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Luôn luôn - 32
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Luôn luôn - 39
194 Nhiệt độ_Celsius 0x0022 100 100 000 Old_age Luôn luôn - 31 (Tối thiểu/Tối đa 15/39)
196 Được phân bổ lại_Event_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Luôn luôn - 0
198 Ngoại tuyến_Không thể sửa được 0x0030 100 100 000 Old_age Ngoại tuyến - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Luôn luôn - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Luôn luôn - 0
222 Loaded_Hours 0x0032 062 062 000 Old_age Luôn luôn - 15427
223 Load_Retry_Count 0x0032 100 100 000 Old_age Luôn luôn - 0
224 Load_Friction 0x0022 100 100 000 Old_age Luôn luôn - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Luôn luôn - 648
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Ngoại tuyến - 0

Tôi mong đợi một cái gì đó giống như cái sau để có thể thiết lập giám sát phù hợp (ngay cả khi không chính xác hoặc đáng tin cậy).

Điểm:0
lá cờ br

Bài viết này nói rằng họ hiển thị các thuộc tính SMART một cách bình thường, nhưng vì những lý do khó hiểu, chỉ có SeaTool mới biết cách diễn giải chúng vượt qua mức đạt/không đạt.

Ở một mức độ nào đó, điều đó đúng với các thuộc tính SMART của bất kỳ đĩa nào vì chỉ có giá trị được tính toán là máy có thể đọc được và việc giải thích giá trị "thô" có phần không xác định. Nhiệt độ_Celsius là hiển nhiên, nhưng thời gian tích hợp cho các thuộc tính "tỷ lệ lỗi" khác nhau phụ thuộc vào nhà cung cấp và các ngưỡng cũng vậy. SeaTools biết cách diễn giải các giá trị thô, về cơ bản là vậy.

Tôi nghi ngờ rằng họ sẽ bán nhiều đĩa cứng nếu hỗ trợ SMART bị thiếu hoặc không chính xác, phần lớn các đĩa máy chủ đi vào mảng RAID trong đó SMART là tiêu chuẩn giám sát duy nhất có sẵn.

Họ có thể xếp chồng phần mềm phân tích của riêng mình lên trên bộ điều khiển RAID, nhưng nếu phần mềm này không tích hợp với nỗ lực tối thiểu vào các giải pháp giám sát hiện có cung cấp bảng điều khiển cho toàn bộ trung tâm dữ liệu, thì đó sẽ là một giải pháp thích hợp cho thị trường sở thích .

Đây là một trường hợp của loại sự cố mà tôi gọi là sự cố "top-of-the-foodchain", trong đó nhiều thành phần phần mềm được viết để trở thành giao diện người dùng chính, trong khi người dùng yêu cầu chúng được tích hợp vào một hệ thống lớn hơn.

lá cờ cn
Tôi hiểu, nhưng smartctl -A báo cáo không có thuộc tính cụ thể của nhà cung cấp nào có giá trị ngưỡng và kém nhất; nó chỉ báo cáo nhiệt độ hiện tại và nhiệt độ hành trình và một số số liệu như chu kỳ dừng khởi động tích lũy và chu kỳ tải-không tải tích lũy mà không có bất kỳ phạm vi tham chiếu nào. Vậy làm thế nào để S.M.A.R.T. suy luận điều gì đó (thậm chí không chính xác) về tình trạng sức khỏe của đĩa? Nói cách khác, tôi e rằng việc thiết lập hệ thống kiểm tra sức khỏe tự động dựa trên S.M.A.R.T. có thể vô ích vì đĩa không cung cấp đủ thông tin.
lá cờ br
@NicolaMori, SMART thể hiện phạm vi tham chiếu bằng cách chuẩn hóa các giá trị, vì vậy, để giám sát độc lập với nhà cung cấp, tất cả những gì bạn cần kiểm tra là liệu các giá trị hiện tại và giá trị tồi tệ nhất có vượt quá ngưỡng hay không và liệu chúng có đang tiến tới ngưỡng đó hay không và tốc độ như thế nào.
lá cờ br
FWIW, tôi không thực sự bận tâm với hầu hết việc giám sát đó ngoài việc vẽ các biểu đồ đẹp mắt. Tôi có một số đĩa đã bị đẩy ra khỏi RAID của mình do không giữ được dữ liệu, nhưng điều đó trông hoàn toàn ổn trong SMART.Đôi khi, tất cả những gì bạn nhận được từ SMART là một cảnh báo trước.
lá cờ cn
Vấn đề chỉ là với smartctl -A tôi không nhận được bất kỳ giá trị nào, chỉ là nhiệt độ, vì vậy không có gì để theo dõi. Xem phần chỉnh sửa trên bài đăng gốc của tôi. Đĩa S.M.A.R.T. hỗ trợ được quảng cáo là có sẵn và được kích hoạt.
lá cờ br
@NicolaMori, tôi đã nghiên cứu thêm một chút về vấn đề này -- kết xuất thuộc tính `-A` dành riêng cho ATA/SATA và sẽ không hoạt động đối với các ổ đĩa SAS. Kết xuất mở rộng `-x` sẽ hiển thị thêm một chút thông tin, nhưng nó hoạt động hơi khác ở đó. Trang hướng dẫn sử dụng `smartctl` có một vài nhận xét trong đó ghi `[ATA]` hoặc `[SCSI]` để làm nổi bật sự khác biệt.
lá cờ cn
Cảm ơn bạn rất nhiều vì đã giúp đỡ của bạn. Tôi đã thử với `-x` và cả với `-d scsi` nhưng cuối cùng không có thêm thông tin nào được in trong PHẦN DỮ LIỆU THÔNG MINH. Tôi đoán rằng thông minh chỉ hoạt động khác đối với các ổ đĩa SAS và các số liệu khả dụng duy nhất là chu kỳ bắt đầu dừng, chu kỳ tải-dỡ tải và các thành phần trong danh sách lỗi như đã báo cáo trong bài đăng đầu tiên của tôi. Tôi đoán tôi sẽ chỉ xem xét trạng thái sức khỏe tổng hợp (smartctl -H), có vẻ như kết quả không đáng để nỗ lực ở đây. Cảm ơn một lần nữa!

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.