การตั้งค่าดิสก์ RAID 4 อาจล้มเหลวได้หรือไม่หากมีฮาร์ดดิสก์เพียง 1 ตัวเท่านั้นที่ล้มเหลว [ปิด]


9

ฉันเป็นนักพัฒนาเว็บ ฉันไม่ค่อยมีประสบการณ์ด้านฮาร์ดแวร์มากนัก ด้วยเหตุนี้ฉันจึงใช้เซิร์ฟเวอร์ที่มีการจัดการ

เช้านี้ไดรฟ์ตัวหนึ่งในการตั้งค่าของเราล้มเหลว อย่างไรก็ตามไซต์เต็มรูปแบบก็ลดลง ฉันถามโฮสต์เว็บของฉันว่าเกิดอะไรขึ้นและเขาตอบว่าฮาร์ดดิสก์ล้มเหลวในลักษณะที่คอนโทรลเลอร์ RAID ทำงานไม่ถูกต้อง อาร์เรย์ถูกตั้งค่าเป็น RAID 4

พวกคุณเคยเห็นแบบนั้นมาก่อนหรือไม่? เป็นไปได้ไหม?

ขอบคุณสำหรับความช่วยเหลือใด ๆ เกี่ยวกับพวกนี้ ฉันจำเป็นต้องรู้ถ้าเว็บโฮสต์ของฉันซื่อสัตย์กับฉัน


หากมีมากกว่าหนึ่งดิสก์ใน Array จะตาย RAID จะล้มเหลว (แม้ว่าจะขึ้นอยู่กับการตั้งค่า RAID)
ริสอีแวนส์

เรื่องสั้นคือผู้ให้บริการของคุณเป็น ****** และทำงานในด้านราคาถูก นั่นอาจเป็นที่ยอมรับได้อย่างสมบูรณ์แบบตราบใดที่คุณในฐานะลูกค้าได้รับการเตือนว่าโครงสร้างพื้นฐานของเขาไม่ได้รับการยอมรับผิด
Luke404

โปรดอัปเดตคำถามด้วยประเภทการโจมตี (เช่นการจู่โจม 0,1,4,5,6 เป็นต้น)
เทรเวอร์บอยด์สมิ ธ

คำตอบ:


22

มีแนวโน้มมากกว่าผู้ให้บริการของคุณที่กำลังใช้ฮาร์ดไดรฟ์ที่ไม่ได้มีไว้สำหรับใช้ใน RAID ไดร์ฟ SATA สำหรับผู้ใช้ทั่วไปตกอยู่ในหมวดหมู่นี้

ปัญหาที่อาจเกิดขึ้นคือไดรฟ์เริ่มพบข้อผิดพลาดในการอ่านที่ไม่สามารถแก้ไขได้ (UREs) เมื่อสิ่งนี้เกิดขึ้นในไดรฟ์สำหรับผู้บริโภคไดรฟ์จะอยู่ที่นั่นและลองดำเนินการอ่านใหม่ (ปกติประมาณ 30-60 วินาที) จนกว่าจะหยุดทำงาน RAID จะรอให้ไดรฟ์รายงานข้อผิดพลาด (30-60) วินาที ดังนั้นการร้องของ่ายๆสำหรับเซกเตอร์สองสามตัวสามารถทำให้เซิร์ฟเวอร์หยุดทำงานได้อย่างง่ายดายในขณะที่ไดรฟ์ที่ล้มเหลวจะทำการกรอข้อมูลผ่านการดำเนินการลองอ่านซ้ำอีกครั้ง

ไดรฟ์ที่มีไว้สำหรับ RAID Arrays มีการกู้คืนข้อผิดพลาดแบบ จำกัด เวลา (สำหรับไดรฟ์ SATA) TLER รายงานความล้มเหลวกลับไปยังตัวควบคุมอย่างรวดเร็วเพื่อให้ตัวควบคุมสามารถตอบสนองต่อความล้มเหลวดังกล่าวได้อย่างชาญฉลาด SCSI (SAS ด้วย) ทำงานแตกต่างกันบ้าง ชุดคำสั่ง SCSI ช่วยให้ผู้ควบคุมสามารถระบุข้อ จำกัด ในการกู้คืนข้อมูลต่าง ๆ บนไดรฟ์ (MODE SELECT: RW ERR RECOVERY) ตัวควบคุม RAID ควรตั้งค่าไดรฟ์ให้ล้มเหลวอย่างรวดเร็วตัวควบคุมสามารถทดสอบได้ว่าไดรฟ์คิดว่าทำงานอย่างถูกต้องกับคำสั่ง TUR หรือไม่หากไดรฟ์ออกจากอาเรย์ให้ตรวจสอบว่าไดรฟ์ทำงานผิดปกติหรือไม่


คำอธิบายที่ดี
sbrattla

11

ใช่มันเป็นไปได้แม้ในสถานการณ์ที่คุณคิดว่าอาร์เรย์ควรจะรอดจากความล้มเหลว

ความเป็นไปได้บางประการว่าทำไมอาร์เรย์จึงล้มเหลว:

  • ไดรฟ์ล้มเหลวมากกว่าที่จะสามารถอยู่ได้ในโหมด RAID ตัวอย่างเช่น:
    • RAID 0 (การสตริป) ไม่สามารถอยู่รอดได้จากความล้มเหลวของไดรฟ์
    • RAID 1 สามารถอยู่รอดได้ความล้มเหลวของทั้งหมดยกเว้น 1 ไดรฟ์
    • RAID 4/5 สามารถอยู่รอดได้ 1 ไดรฟ์ที่ล้มเหลว
    • RAID 6 สามารถอยู่รอดได้ 2 ไดรฟ์ล้มเหลว
    • RAID 10 สามารถอยู่รอดได้ถึงความล้มเหลวสูงสุดถึง 50% ของไดรฟ์ขึ้นอยู่กับว่าไดรฟ์ใดล้มเหลว
  • ข้อบกพร่องในซอฟต์แวร์ RAID หรือเฟิร์มแวร์ตัวควบคุม
  • ข้อผิดพลาดของผู้ใช้
    • มีคนดึงไดรฟ์มากเกินไป
    • มีคนดึงไดรฟ์และไม่เคยแทนที่และอีกไดรฟ์หนึ่งล้มเหลวในภายหลัง
    • อาเรย์ไม่ได้ถูกตรวจสอบเพื่อให้ไดรฟ์ล้มเหลวมากกว่าที่จะรอดชีวิตมาได้
  • ตัวควบคุมราคาถูกที่มีไดรฟ์ระดับผู้บริโภคเป็นที่รู้กันทั่วไปว่าล้มเหลวแม้ในสถานการณ์ที่รอดชีวิตมาได้
    • ไดรฟ์ระดับผู้บริโภคจะพยายามอ่านเซกเตอร์ที่ไม่ดีจนกว่าจะอ่านได้ดี ตัวควบคุมราคาถูกจะรออย่างไม่มีกำหนดเพื่อให้ไดรฟ์ดังกล่าวส่งคืนผลลัพธ์ การรอคอยอาจยาวนานจนระบบปฏิบัติการยอมแพ้ จากนั้นเมื่อรีบูตไดรฟ์จะไม่ตอบสนองอย่างรวดเร็วเพียงพอต่อคอนโทรลเลอร์และอาร์เรย์จะถือว่าล้มเหลว
    • ในทางตรงกันข้ามไดรฟ์ระดับองค์กรจะยอมแพ้อย่างรวดเร็วทำให้ตัวควบคุมสามารถดึงข้อมูลจากไดรฟ์อื่น นอกจากนี้ตัวควบคุมที่ดีจะทำเครื่องหมายไดรฟ์ที่ใช้เวลานานเกินไปในการตอบสนองเมื่อล้มเหลวและดำเนินการต่อ

1
RAID 1 ควรจะรอดจากการตายของทุกคนยกเว้นหนึ่งในไดรฟ์ในอาเรย์ จริงอยู่คนส่วนใหญ่อาจเรียกใช้การตั้งค่า RAID 1 แบบสองไดรฟ์ซึ่งหมายความว่าจะสามารถอยู่รอดได้ถึงความตายของไดรฟ์เดียว แต่ก็ไม่ได้
มีอยู่จริง

สิ่งที่น่าสนใจถ้าดิสก์ 1 แผ่นใน RAID 10 ล้มเหลวคุณควรแยกดิสก์อื่นเพราะมันจะไม่สามารถอยู่รอดได้หากมีเพียงดิสก์เดียวที่เสีย :-) ฉันคิดว่าคุณควรแก้ไขโพสต์ของคุณ
FLY

@ MichaelKjörlingเป็นจุดที่ดี ฉันแก้ไขโพสต์ของฉัน
longneck

@ FLY คุณพูดถูกฉันก็คัดค้านในจุดนั้น แก้ไข
longneck

RAID4 ควรเป็น RAID3 RAID3 เป็นสตริปไบต์ที่มีพาริตี้ RAID4 เป็นการนำ ECC ไปใช้ซึ่งต้องการไดรฟ์จำนวนมากที่ไม่เคยใช้งาน AFAIK
Dan Is Fiddling โดย Firelight

8

หากเป็นการใช้งาน RAID 0 แน่นอนว่าเมื่อไดรฟ์หนึ่งล้มเหลวคุณจะสูญเสียอาเรย์และข้อมูลทั้งหมดด้วย


มันเป็นการนำ RAID 4 มาใช้
Steve Rodrigue

11
ฮ่าฮ่าฮ่า - คุณมีฉันอยู่ที่นั่นจริงเหรอ?
Chopper3

3
@ Chopper3 NetApp ใช้ RAID4 ดังนั้นมันก็ไม่เคยได้ยินมาก่อนแม้ว่ามันจะทำให้ฉันหัวเราะด้วย อาจเป็นวิธีที่โฮสต์บอกว่าพวกเขามี NetApp Filer หรืออะไรบางอย่าง
HopelessN00b

1
@SteveRodrigue คุณแน่ใจหรือไม่ว่าเป็น RAID 4
MDMarra

1
หากเป็น RAID4 จริงและมีเพียง 1 ไดรฟ์ที่ล้มเหลวก็ควรจะติดตั้งไดรฟ์ใหม่และสร้างอาเรย์ใหม่ตามหลักการอย่างน้อยที่สุด บางทีเว็บโฮสต์หมายความว่าหนึ่งในไดรฟ์ที่เหลือล้มเหลวในขณะที่เขาพยายามทำสิ่งนี้
3490

2

ฉันได้เห็นข้อผิดพลาดของเฟิร์มแวร์นำออก RAID ทั้งหมดเมื่อดิสก์ไม่ดีหรือเมื่อมันเริ่มรายงานความล้มเหลวใกล้เข้ามา ขออภัยฉันไม่มีอะไรเฉพาะเจาะจงที่จะชี้ให้คุณ แต่ใช่มันอาจเกิดขึ้นได้ ไม่ได้เป็นส่วนหนึ่งของข้อมูลจำเพาะของ RAID แน่นอนมันเป็นข้อบกพร่องอย่างแน่นอน


1

ใช่มันเป็นไปได้ มันไม่ควรจะเกิดขึ้น แต่มันสามารถทำได้อย่างแน่นอน ป้อน UREs (ข้อผิดพลาดการอ่านที่ไม่สามารถกู้คืนได้) และข้อผิดพลาดของตัวควบคุมและข้อบกพร่องของเฟิร์มแวร์และสิ่งที่คล้ายกัน

หากไม่มีข้อมูลเพิ่มเติม (ที่โฮสต์ของคุณอาจไม่ให้คุณ) ก็เป็นไปไม่ได้ที่จะพูดอย่างใดอย่างหนึ่ง แต่อย่างใด แต่ใครก็ตามที่ทำงานกับอาร์เรย์ RAID จำนวนมากได้รับประสบการณ์ที่อาเรย์ทั้งหมดหายไปหรือล้มเหลวเมื่อมัน ไม่ควรมี

(และตามวิธีRAID4 ไม่ได้เป็นระดับ RAID ที่ใช้กันมาก แต่ควรทนต่อการสูญเสียไดรฟ์ใด ๆไม่ได้หมายความว่ามันจะเสมอไป)


1

ฉันมีความล้มเหลวของ HDD จำนวนมากโดยที่กลไกไม่ได้ล้มเหลว แต่อุปกรณ์อิเล็กทรอนิกส์เป็นส่วนต่อประสานการสื่อสาร เนื่องจากอุปกรณ์อิเล็กทรอนิกส์ขนาดเล็กหลายชิ้นมีความอ่อนไหวต่อความผิดปกติทางไฟฟ้าเล็กน้อย (อาจเกิดขึ้นได้เมื่อมอเตอร์ A / C ขนาดใหญ่อยู่ใกล้เปิด / ปิด ฯลฯ และแหล่งจ่ายไฟค่อนข้างเล็ก)

เมื่อตัวแปลงพลังงานภายในของไดรฟ์หรือตัวเก็บประจุ (บัฟเฟอร์ที่เก็บพลังงาน) ไหม้สัญญาณไฟฟ้าที่สร้างขึ้นที่ตัวเชื่อมต่อภายนอกของ HDD สามารถและจะย้ายออกจากสเปค เนื่องจากไดรฟ์เชื่อมต่อกับตัวควบคุมผ่านสายทองแดงและบ่อยครั้งในเซิร์ฟเวอร์หลายไดรฟ์ใช้การเชื่อมต่อสายเคเบิลเพื่อความสะดวกในการติดตั้งและลดความยุ่งเหยิงสิ่งนี้สามารถทำลายหรือทำลายส่วนประกอบที่อยู่ติดกันได้อย่างถาวร

สิ่งนี้มีส่วนเกี่ยวข้องกับการกำหนดราคาเพียงเล็กน้อย มันเป็นความจริงที่คอนโทรลเลอร์และไดรฟ์ราคาแพงอาจใช้ชิ้นส่วนที่ทนต่อสภาพผิดปกติหรือมีการป้องกันที่ดีกว่าและด้วยส่วนประกอบงบประมาณที่คุณมีแนวโน้มที่จะได้รับชิ้นส่วนมาตรฐานต่ำกว่า แต่ฉันพบตัวเก็บประจุที่เหมือนกันเป็นประจำในไดรฟ์ $ 50 และไดรฟ์ $ 500 และหาก HDD ที่ล้มเหลวจัดเส้นทาง 12 โวลต์จากแหล่งจ่ายไฟไปยังตัวเชื่อมต่อ SATA โดยตรงเพราะมีบางสิ่งที่สั้นตัวควบคุม RAID ของคุณจะถูกทอดไม่ว่าจะมีแท็กราคาเท่าใดก็ตาม

มันไม่ใช่สิ่งที่มักจะเกิดขึ้น แต่แน่นอนว่าฉันไม่เคยได้ยินมาก่อน


"บ่อยครั้งในเซิร์ฟเวอร์หลาย ๆ ไดรฟ์ใช้การเชื่อมต่อสายเคเบิลร่วมกัน" ไม่ใช่ในสภาพแวดล้อม SAS หรือ SATA ที่ทันสมัย มันไม่น่าเป็นไปได้ทางดาราศาสตร์เลยที่สถานการณ์ของคุณจะเกิดขึ้นที่นี่ ฉันไม่คิดว่าฉันเคยได้ยินเกี่ยวกับอุปกรณ์อิเล็กทรอนิกส์ของไดรฟ์ที่กำลังจะตายและนำส่วนประกอบอื่น ๆ มาด้วย ในขณะที่ 12v จะทอดคอนโทรลเลอร์ SATA หรือ SAS อย่างแน่นอนส่วนประกอบตรรกะนั้นไม่ค่อยเชื่อมต่อกับ 12v แต่อย่างใดเนื่องจากการลดแรงดันไฟฟ้าลงจาก 12 เป็น 3.3 หรือน้อยกว่านั้นซับซ้อนมากเมื่อเทียบกับแหล่ง 5v หรือ 3.3v ฉันอยากรู้ว่าคุณน่าจะทำสิ่งนี้เกิดขึ้นที่ใด ถ้าคุณยินดีที่จะแบ่งปัน?
Chris S

1

ใช่ฉันคิดว่าการโจมตีทั้งหมดอาจล้มเหลวหลังจากความล้มเหลวของไดรฟ์เดียว ไดรฟ์ที่ล้มเหลวครั้งแรกจะถูกควบคุมโดยออฟไลน์และการจู่โจมจะยังคงทำงานได้ดี แต่เมื่อแทนที่ไดรฟ์ที่ล้มเหลวคอนโทรลเลอร์จะเริ่มสร้างการจู่โจมใหม่ หากมีปัญหาการอ่านที่ไม่ได้ค้นพบที่แฝงอยู่ในไดรฟ์อื่นที่เหลืออยู่การสร้างไดรฟ์ที่ล้มเหลวอาจทำให้ไดรฟ์จำนวนมากขึ้นออฟไลน์ (เมื่อพบปัญหาการอ่านในขณะที่สร้างการจู่โจมอีกครั้ง) ล้มเหลว.


นี่คือเหตุผลที่ RAID อาร์เรย์ต้องถูกขัดอย่างสม่ำเสมอเพื่อค้นหาปัญหาการอ่านหรือเขียน
Chris S
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.