RAID-6: ดีกว่าที่จะแทนที่สองไดรฟ์ที่ตายแล้วในเวลาเดียวกันหรือทีละอัน?


21

เรามี 16-drive RAID-6 ที่มีปัญหาไดรฟ์สามตัว สองคนนั้นตายแล้วและคนที่สามกำลังให้คำเตือนอย่างฉลาด (ไม่เป็นไรหรอกว่ามันจะอยู่ในสภาพที่แย่ขนาดนี้ได้อย่างไร)

เห็นได้ชัดว่าเราต้องการแทนที่ไดรฟ์ที่ตายแล้วก่อนที่จะยังคงใช้งานได้ดีกว่า:

  1. แทนที่หนึ่งไดรฟ์ที่ตายแล้วปล่อยให้สร้างใหม่ RAID จากนั้นแทนที่อื่น ๆ และปล่อยให้มันสร้างใหม่อีกครั้ง; หรือ

  2. แทนที่ทั้งสองไดรฟ์ในคราวเดียวและปล่อยให้มันสร้างทั้งสองแบบคู่ขนานกันหรือไม่

เพื่อนำไปใช้ในทางอื่นเราจะกลับสู่สภาวะการทำงานที่ซ้ำซ้อนได้เร็วขึ้นโดยการแนะนำหนึ่งหรือสองไดรฟ์ใหม่หรือไม่? การสร้างสองไดรฟ์พร้อมกันทำให้กระบวนการสร้างใหม่ช้าลงหรือไม่

ในกรณีที่มีปัญหาตัวควบคุมคือ 3ware 9650SE-16ML


10
ข้ามทุกสิ่งที่คุณมีซึ่งสามารถข้ามไปได้และส่งเงินบริจาคจำนวน $ เทพที่คุณชื่นชอบ!
user9517 รองรับ GoFundMonica

1
ฉันขอถามคำถามหนึ่งข้อเกี่ยวกับเรื่องนี้ได้ไหม คุณช่วยบอกให้เรารู้ได้ถึงยี่ห้อและรุ่นของ EXACT ที่ถูกต้องใน array นี้ - หากความสงสัยของฉันถูกต้องคุณอาจเห็นว่าคำถามนี้กลายเป็นจุดอ้างอิงที่มีประโยชน์สำหรับผู้ใช้ในอนาคตที่ถามคำถามบางอย่าง ขอขอบคุณ.
Chopper3

8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! พวกเขาปิดหรือไม่ แย่จังจูเพื่อนของฉัน! เวลานี้สายเกินไป แต่โดยทั่วไปแล้วการปิดไดรฟ์ (โดยเฉพาะถ้าเป็นไดรฟ์รุ่นเก่าที่เปิดใช้งานมานาน) ทำให้พวกเขามีโอกาสที่จะโยนข้อผิดพลาดใน spinup (และทำให้คอนโทรลเลอร์บอกว่า "ใช่ ไดรฟ์นั้นถูกทอดด้วยตอนนี้ ")
voretaq7

2
@ voretaq7: ฉันเคยส่งดิสก์ทั้งหมดจากกล่อง MSA-20 ไปยังนรกโดยปิดมันลงหลังจากใช้งานต่อเนื่องได้ ~ 3 ปีและใช้งานต่อเนื่อง จะไม่ทำอย่างนั้นอีกครั้ง :-)
karatedog

1
ตอนนี้อาร์เรย์และการสร้างใหม่แล้วดังนั้นฉันจึงสามารถหานางแบบที่แน่นอนสำหรับทุกคนที่ห่วงใย ฮาร์ดไดรฟ์ดั้งเดิมคือ ST31000340NS ซึ่งหมายความว่าพวกเขาเป็นเวอร์ชั่นที่ติดอันดับเซิร์ฟเวอร์ของหนึ่ง Chopper3 ที่ถูกถาม ดังนั้นสิ่งเหล่านี้มีชื่อเสียงสำหรับความล้มเหลวหรือบางอย่าง? (อันใหม่คือ ST31000524NS.)
Warren Young

คำตอบ:


27

!!!!! หนึ่ง !!!!!

ทำทีละครั้งเพื่อนจริงจังอย่าคิดทำอย่างอื่นโอเค

สิ่งอื่นใดจะทดสอบทักษะการฟื้นฟูระบบทั้งหมดของคุณ


3
สองรายการที่ฉันจะเพิ่มในคำตอบนี้คือ (1) การอธิษฐาน (สำหรับสิ่งที่คุณต้องการเทพ) และ (2) การตรวจสอบเมื่อคุณได้รับทุกอย่างกลับสู่สภาวะที่ปลอดภัย (ดังนั้นคุณจะรู้ว่าเมื่อไดรฟ์ล้มเหลวในอนาคต ปัญหาก่อนที่คุณจะมีความล้มเหลวสองครึ่งครึ่งหรือคุณยังสามารถกำหนดค่า hot spare ในอาร์เรย์สำหรับอนาคตได้ด้วย
voretaq7

3
หรือใช้ RAID 10 </stockanswer>
Chopper3

1
เรื่องการอธิษฐานไม่มีความคิดเห็น :) Re: การตรวจสอบฉันได้รับการสนับสนุนมานานหลายปี; บางทีนี่อาจเป็นการจุดไฟให้กับใครบางคน Re: RAID-10ข้อมูลมากเกินไปในตลาดประมูล เมื่อดิสก์ 3 TB ออกมาเราไม่ได้ทำซ้ำซ้อนกันสามครั้งเราลดจำนวนดิสก์ลง 1/3 ถอนหายใจ Re: hot sparesเราทำเช่นนั้นตอนนี้ไดรฟ์มีขนาดใหญ่พอที่จะอนุญาต แต่เซิร์ฟเวอร์เฉพาะนี้คือ 16 ไดรฟ์ในกล่องหุ้มไดรฟ์ 16 เมื่อไดรฟ์ 1 TB เป็นไดรฟ์ที่ใหญ่ที่สุดที่คุณจะได้รับ . การไปที่ระบบ 24- ไดรฟ์จะไม่ทำงาน ดูก่อนหน้า :)
Warren Young

2
หากไดรฟ์ล้มเหลวแล้วไม่มีเหตุผลที่จะเก็บมันไว้ - แต่ฉันคาดหวังว่าการสร้างใหม่สองครั้งติดต่อกันจะสร้างความตึงเครียดให้กับไดรฟ์อื่นมากกว่าหนึ่งครั้ง
Simon Richter

1
+1, นี่ ในขณะที่การสร้างใหม่สองครั้งติดต่อกันจะเพิ่มความตึงเครียดมากขึ้นและมีแนวโน้มที่จะทำให้ไดรฟ์ที่สามล้มเหลวก่อนที่คุณจะเสร็จสิ้นทั้งคู่ แต่ก็เป็นการสร้างใหม่ได้เร็วขึ้นและหากไดรฟ์ส่วนใหญ่ล้มเหลว ดังนั้นวิธีที่เร็วและปลอดภัยที่สุดในการทนต่อความผิดปกติคือหนึ่งครั้ง
Joel Coel

14

คุณมีข้อมูลสำรองที่ดีหรือไม่? ถ้าคุณไม่คิดว่าคุณจะได้รับพวกเขาในเวลาที่เหมาะสม?

ฉันจะให้ความสำคัญกับการเก็บไดรฟ์ที่ไม่ดีแบบออฟไลน์ในระหว่างการสร้างใหม่มากกว่าสิ่งอื่นใด - ถ้าคุณทิ้งข้อผิดพลาดของ SMART ไปมากกว่าครึ่งแล้ว

ข้อเสนอแนะของฉันคือการยืนยันการสำรองข้อมูลของคุณจากนั้นสร้างไดรฟ์หนึ่งครั้งเพื่อพยายามกู้คืนสู่สถานะที่คุณสามารถแทนที่ข้อผิดพลาด SMART หนึ่งอัน (ข้อผิดพลาดครั้งแรกและข้อผิดพลาดสุดท้าย)

หากคุณไม่มีการสำรองข้อมูลมันเป็นการถ่ายภาพไร้สาระ: การสำรองข้อมูลอาจสร้างข้อผิดพลาดนุ่มนวลพอที่จะทำเครื่องหมายว่าไดรฟ์ส่วนใหญ่ล้มเหลวเนื่องจากอาจพยายามทำการสร้างใหม่


2
ข้อมูลส่วนใหญ่หรือทั้งหมดในอาเรย์นี้เป็นแคชชนิดหนึ่งเพื่อหลีกเลี่ยงความจำเป็นในการดึงข้อมูลเทราไบต์ซ้ำ ๆ ผ่านลิงก์ช้า ข้อมูลแคชนี้สามารถเปลี่ยนได้ทั้งหมดโดยการดาวน์โหลดอีกครั้งในช่วงหลายเดือน (หนึ่งครั้ง) หรือโดยการจัดส่งไปยังไซต์ที่สามารถคัดลอกจากอาร์เรย์อื่น ดังนั้นการสำรองข้อมูลจึงไม่ใช่ปัญหา สิ่งที่เรากำลังพยายามป้องกันโดยการบันทึกอาเรย์คือวันที่สัปดาห์ของการหยุดทำงานในการจัดส่งเซิร์ฟเวอร์ไปยังคลังบริการ, การเติมอาเรย์อีกครั้งและส่งกลับ
Warren Young

ในกรณีนั้นสิ่งที่ @ chopper3 พูดนั้นค่อนข้างสวยมากกฎหมายของที่ดิน: สร้างไดรฟ์หนึ่งครั้งและสวดมนต์ได้อย่างแท้จริงจริงๆที่คุณไม่ได้เดินทางไปที่ไดรฟ์แบบออฟไลน์ด้วยการโหลดการอ่านเพิ่มเติม
voretaq7

วุ้ย - ดีใจที่ได้ยิน
Chopper3

0

ฉันไม่เห็นจุดเปลี่ยนเป็น "หนึ่งครั้งต่อดิสก์"

เห็นได้ชัดว่าถ้า RAID สามารถ "กู้คืน" ดิสก์ทั้งสองพร้อมกัน ( ที่ล้มเหลว ) คุณจะได้รับอนุญาตให้ RAID ทั้งหมดฟื้นความสามารถในการรักษาความล้มเหลวได้เร็วขึ้นถึง 2 ครั้ง


-1

0.02 ของฉัน

เนื่องจากเซิร์ฟเวอร์ออฟไลน์อยู่ให้รัน ddrescue บนไดรฟ์ที่กำลังจะล้มเหลวเพื่อโคลนไปยังไดรฟ์ที่มีสติ

จากนั้นใส่ไดรฟ์ใหม่ที่มีเหตุผลในอาร์เรย์แทน หากการโคลนสำเร็จคุณจะหลีกเลี่ยงความเสี่ยงที่จะเห็นไดรฟ์นั้นล้มเหลวระหว่างการสร้างใหม่ 2 ครั้ง


มันเป็นคอนโทรลเลอร์ RAID ของฮาร์ดแวร์แต่ละดิสก์นั้นไม่สามารถระบุตำแหน่งได้
Chopper3
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.