Điểm:0

Đột kích 5 với dự phòng nóng (17+1) bằng cách nào đó trở thành Đột kích 5 không dự trữ nóng (18+0)? (Dell Poweredge T640)

lá cờ es

Vì vậy, gần đây chúng tôi đã gặp sự cố lạ về máy chủ lưu trữ RAID. Vấn đề gần đây nhất tôi không biết chuyện gì có thể xảy ra.

cấu hình là Raid 5; 17 + 1 (17 ổ đĩa + 1 dự phòng nóng chuyên dụng)

Đĩa tự gắn cờ là 'đã xóa'. Vì hiện tại chúng tôi đang có ngân sách eo hẹp, nên chúng tôi đang cố gắng sắp xếp lại tất cả các ổ đĩa trước khi thay thế chúng, miễn là chỉ có 1 ổ đĩa bị gắn cờ tại bất kỳ thời điểm nào (ý tưởng là chúng tôi có đủ khả năng chi trả cho ổ đĩa đó + một ổ đĩa khác không thành công do cấu hình 17+1). Các máy chủ hầu như không được sử dụng theo nhu cầu bảo vệ dữ liệu thực tế, không gian đang được sử dụng trong một loại chức năng xử lý bảng phác thảo tạm thời hơn là để lưu trữ những thứ quan trọng. Vì vậy, đây không phải là ngày tận thế, nhưng chúng tôi vẫn muốn có bộ đệm đột kích 5, cộng với bộ đệm bổ sung của phụ tùng chuyên dụng.

Tôi đã gắn lại đĩa và thay vì máy chủ trở về cấu hình 17+1, nó lại xuất hiện một cách kỳ lạ như bây giờ là một tập 18 đĩa đột kích 5. Trước đây, việc đặt lại đã đưa máy chủ trở lại 17+1 như mong đợi. Đôi khi, +1 trở lại dưới dạng nước ngoài hoặc không tự động được chỉ định làm phụ tùng chuyên dụng, nhưng nó luôn trở lại dưới dạng riêng biệt với 17 đĩa đang sử dụng. Đĩa dự phòng nóng là đĩa đã bị xóa hoặc một trong số 17 đĩa đã bị 'gỡ bỏ' và đĩa dự phòng nóng sẽ tự động thay thế đĩa thứ 17 trong tập đột kích 5, do đó đĩa được đặt lại là thặng dư cho 17 đĩa tạo nên bộ 17 mới.

Tôi làm gì? Có lẽ tôi không thể thu nhỏ âm lượng xuống 17 rồi chỉ định lại đĩa dưới dạng dự phòng nóng chuyên dụng, vì âm lượng đột kích hiện là 18 đĩa lớn. Nhưng nếu đúng như vậy, chúng tôi không còn cấu hình cung cấp cho chúng tôi khả năng khôi phục từ 2 ổ đĩa bị mất, vì không có khe cắm thứ 19 để cài đặt dự phòng nóng chuyên dụng.

Điểm:4
lá cờ ru

RAID5 18 đĩa là một sự cố tàu đang chờ xảy ra... Tôi hy vọng bạn có một bản sao lưu tốt.

Nghiêm túc mà nói, bạn cần sử dụng RAID6 cho mọi thứ vượt quá 5 đĩa tối đa hoặc các đĩa lớn hơn 1 TB.

Vì bạn không có tùy chọn thu nhỏ mảng, nên bạn cần thêm đĩa để có thể di chuyển sang RAID6, có hoặc không có dự phòng nóng. Với 18 đĩa, tôi thực sự khuyên bạn nên sử dụng RAID60 với các mảng con chín đĩa (thx @Nikita).

chúng tôi không còn cấu hình cung cấp cho chúng tôi khả năng khôi phục từ 2 ổ đĩa bị mất

Bạn chưa bao giờ có. RAID5 với máy chủ dự phòng có thể phục hồi từ một mất ổ đĩa và sau khi xây dựng lại có thể phục hồi từ nữa mất lái. Nếu bất cứ điều gì xảy ra trong quá trình xây dựng lại - điều này không phổ biến - mảng sẽ bị mất.

không có rãnh thứ 19 để lắp cục nóng dự phòng chuyên dụng.

Nếu bạn không thể thêm ổ đĩa, thì dù sao thì bạn cũng sắp hết dung lượng. Kiểm tra sơ đồ sao lưu và khôi phục của bạn, xóa và tạo một RAID6 hoặc tốt hơn - ĐỘT KÍCH60 mảng lần này hoặc xem xét chuyển sang một máy chủ mới.

Nếu không có ngân sách và không có cửa sổ bảo trì để tạo lại mảng, bạn sẽ không có nhiều lựa chọn. Hãy chắc chắn rằng có đáng tin cậy và kiểm tra tốt sao lưu (hai phiên bản sao lưu, trên các phương tiện khác nhau, thử nghiệm bao gồm khôi phục bằng kim loại trần), chạy kiểm tra thường xuyên (giảm đáng kể khả năng gặp phải lỗi dữ liệu cũ trong khi xây dựng lại), ngừng thực hành khôi phục lại (điều này có thể khiến bạn vướng vào rắc rối này trong vị trí đầu tiên), và giữ ngón tay cái của bạn. Bạn đang chạy trên khói.

Nhân tiện, bạn đã ước tính chi phí và kịch bản của mảng thất bại hoàn toàn chưa?

Nikita Kipriyanov avatar
lá cờ za
Một RAID6 trong số 18 thiết bị gần như tệ như RAID5. Tôi muốn đề xuất RAID60, hai nhóm 9 đĩa.
Zac67 avatar
lá cờ ru
@NikitaKipriyanov Điểm công bằng - một RAID5 lớn duy nhất còn tệ hơn nhiều so với một RAID6 lớn duy nhất.
lá cờ es
Cảm ơn! Đây là hệ thống lưu trữ lớn hiện đại đầu tiên của tôi. Tôi đang cố gắng tìm ra cách tốt nhất để quản lý nó. Nó được thiết kế bởi một comp. nhà khoa học 'oldschool'. Thông minh nhưng không tập trung vào kinh doanh/chi phí/hiệu suất. Chi phí tổn thất không phải bằng 0, nhưng nó không đặc biệt cao. Chúng tôi lấy đĩa và cố gắng trích xuất thông tin hữu ích từ chúng, dữ liệu tệp thực tế hoặc siêu dữ liệu/mối quan hệ. Dữ liệu thực tế được tạo ra gấp nhiều lần kích thước ổ đĩa nguồn, nhưng có thể 99,9% bị loại bỏ sau khi được báo cáo/đối chiếu. Điều chính mà tôi thấy kỳ lạ là tại sao tập đột kích 5 lại tự động thay đổi từ 17 đĩa thành 18 đĩa.
lá cờ es
WRT nhận xét về khả năng chịu lỗi: Tôi nghĩ rằng tôi hiểu những gì bạn có ý nghĩa. Có 2 khả năng MỘT) 0000h = 17 đã sử dụng | 0 xây dựng lại | 1 phụ tùng | 0 chết; 0100h = 16 đã sử dụng | 1 xây dựng lại | 0 phụ tùng | 1 người chết; 0300h = 15 đã sử dụng | 1 xây dựng lại | 0 phụ tùng | 2 người chết; 0400h = chết lần thứ hai trước khi xây dựng lại dự phòng, 15/17 không thể phục hồi. b) 0000h = 17 đã sử dụng | 0 xây dựng lại | 1 phụ tùng | 0 chết; 0100h = 16 đã sử dụng | 1 xây dựng lại | 0 phụ tùng | 1 người chết; 0300h = 17 đã sử dụng | 0 xây dựng lại | 0 phụ tùng | 1 người chết; bây giờ là cái chết thứ 2, nhưng cuộc đột kích đã được xây dựng lại; 0400h = 16 đã sử dụng | 0 xây dựng lại | 0 phụ tùng | 2 người chết |
Điểm:1
lá cờ co

Raid6 tốt hơn nhiều so với R5 + dự phòng nóng, vì gấp đôi số đĩa được phép hỏng cùng một lúc. Trên thực tế, dù sao thì đó cũng là một điều kinh dị với rất nhiều ổ đĩa nhưng sẽ ít kinh dị hơn R5;)

Bây giờ bạn có R5 trên 18 đĩa, vì vậy nếu bất cứ điều gì không thành công, bạn đang dựa vào việc đọc chính xác tất cả các cung từ 17 đĩa (do cách thức hoạt động của tổng CRC, bộ điều khiển cần đọc tất cả các cung trống và tất cả các cung đã sử dụng). Ngoài ra, một số đĩa này không ổn định và có thể đã bị lỗi.

Thông thường, ổ đĩa bị loại khỏi RAID vì nó cần nhiều thời gian hơn bình thường để đọc dữ liệu. Nhiều thời gian hơn bình thường thường là dấu hiệu cho thấy ổ đĩa của bạn sắp hỏng và nó có thể xuất hiện hoặc không xuất hiện trong SMART. Và đây có lẽ là "sự cố lạ" với các ổ đĩa bị lỗi mà sau này có thể được gắn lại vào mảng.

Gắn lại một ổ đĩa hoặc sử dụng nó có thể là một ý tưởng hay trên Raid 1/Raid10 chứ không phải trên một thiết lập mà bạn không có lợi nhuận. Trong trường hợp như của bạn, tôi cho rằng mảng đã chết, nếu không thì có lẽ nó sẽ xảy ra rất sớm.

Vì vậy, theo IMO, giải pháp sẽ là - sử dụng R10 với các ổ đĩa hỏng, hỏng này và hạn chế sử dụng tài nguyên bằng cách nào đó HOẶC sử dụng R6 với một ổ đĩa dự phòng để nó được xây dựng lại ngay lập tức sau khi một ổ đĩa bị mất. Sẽ tốt hơn nếu bạn có một số lưu giữ và xóa dữ liệu lịch sử nếu bạn có đủ ngân sách hơn là để mất mọi thứ.

Có lẽ bạn cần bắt đầu sửa nó càng sớm càng tốt. Nói chuyện với ông chủ và thông báo rằng bố cục đột kích này không phù hợp và có 3 lựa chọn:

  • Tiếp tục ở R5 và mất tất cả trong tương lai không xa
  • Xây dựng lại trong R10 và giới hạn dữ liệu được lưu trữ
  • R6 + dự phòng có lẽ là một ý tưởng rất tồi, nhưng có lẽ bạn có thể thực hiện R6 mà không có dự phòng cho quá trình xử lý tạm thời này và R1 cho tất cả nội dung quan trọng (theo cách này, bạn sẽ không phải hy sinh quá nhiều dung lượng lưu trữ)

Trên thực tế, bạn rất may mắn vì nó vẫn hoạt động ...

lá cờ es
Cảm ơn. Có, chúng tôi có thể may mắn được chạy trên tập dữ liệu này. Sẽ làm một số đọc về thiết kế khác. v.v. Khi tôi học chính thức về CNTT, công nghệ lưu trữ không tiên tiến như ngày nay (không phải thời kỳ đồ đá, mà là từ lâu lắm rồi) vì vậy tôi chắc chắn có nhiều thứ hơn để tìm hiểu. Người thiết kế hệ thống (sếp của tôi) cũng là một nhà nghiên cứu khoa học/nghiên cứu hơn là một chuyên gia lưu trữ dữ liệu.Anh ấy hoàn toàn cởi mở với những ý tưởng mới, nhưng hạn chế về ngân sách rất lớn và không sợ mất dữ liệu. Đó là những gì chúng ta học được từ quá trình xử lý hơn là xây dựng một di sản/kho lưu trữ.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.