ชุดวอลุ่ม Areca 1280ml RAID6 ล้มเหลว


10

วันนี้เราเจอสถานการณ์กรณีเลวร้ายที่สุดและเปิดรับความคิดที่ดี

นี่คือปัญหาของเรา:

เราใช้เซิร์ฟเวอร์จัดเก็บข้อมูลเฉพาะหลายเครื่องเพื่อโฮสต์เครื่องเสมือนของเรา ก่อนที่ฉันจะดำเนินการต่อไปนี้เป็นรายละเอียด:

  • เครื่องเซิร์ฟเวอร์เฉพาะ
  • ตัวควบคุม RAID Areca 1280ml, เฟิร์มแวร์ 1.49
  • 12x Samsung 1TB HDDs

เรากำหนดค่าหนึ่งชุด RAID6 ด้วย 10 แผ่นที่มีหนึ่งปริมาณตรรกะ เรามีสองอะไหล่ร้อนในระบบ

วันนี้ HDD หนึ่งตัวล้มเหลว สิ่งนี้เกิดขึ้นเป็นครั้งคราวดังนั้นเราจึงแทนที่มัน เมื่อสร้างดิสก์ที่สองขึ้นใหม่ล้มเหลว ปกติแล้วมันจะไม่สนุก เราหยุดการทำงานของ IO อย่างหนักเพื่อให้แน่ใจว่าการสร้าง RAID ที่เสถียร

น่าเศร้าที่แผ่นดิสก์สำรองร้อนล้มเหลวในขณะที่สร้างใหม่และทุกสิ่งหยุดทำงาน

ตอนนี้เรามีสถานการณ์ต่อไปนี้:

  • คอนโทรลเลอร์บอกว่าชุดจู่โจมกำลังสร้างใหม่
  • คอนโทรลเลอร์บอกว่าเสียงไม่ดัง

มันเป็นระบบ RAID 6 และดิสก์สองแผ่นล้มเหลวดังนั้นข้อมูลจะต้องไม่เปลี่ยนแปลง แต่เราไม่สามารถทำให้ไดรฟ์ข้อมูลออนไลน์อีกครั้งเพื่อเข้าถึงข้อมูล

ในขณะที่ค้นหาเราพบโอกาสในการขายต่อไปนี้ ฉันไม่รู้ว่าดีหรือไม่ดี:

  1. การทำสำเนาดิสก์ทั้งหมดไปยังไดรฟ์ชุดที่สอง ดังนั้นเราจะมีความเป็นไปได้ที่จะลองสิ่งที่แตกต่างโดยไม่สูญเสียมากกว่าที่เรามีอยู่แล้ว

  2. กำลังพยายามสร้างอาร์เรย์ใน R-Studio อีกครั้ง แต่เราไม่มีประสบการณ์จริงกับซอฟต์แวร์

  3. ดึงไดรฟ์ทั้งหมดรีบูตระบบเปลี่ยนเป็นไบโอคอนโทรลเลอร์ของ areca และใส่ HDD ใหม่ทีละตัว บางคนกำลังพูดว่าระบบออนไลน์นี้นำมาโดย บางคนบอกว่าผลเป็นศูนย์ บางคนบอกว่าพวกเขาพัดทุกสิ่ง

  4. การใช้คำสั่ง areca ที่ไม่มีเอกสารเช่น "rescue" หรือ "LeVel2ReScUe"

  5. การติดต่อบริการนิติคอมพิวเตอร์ แต่เดี๋ยวก่อน ... การประมาณการเบื้องต้นทางโทรศัพท์เกิน 20,000 € นั่นเป็นเหตุผลที่เราจะขอความช่วยเหลือ บางทีเราอาจหายไปอย่างชัดเจน?

และแน่นอนเรามีข้อมูลสำรอง แต่บางระบบสูญเสียข้อมูลไปหนึ่งสัปดาห์นั่นคือสาเหตุที่เราต้องการให้ระบบกลับมาทำงานอีกครั้ง

ความช่วยเหลือข้อเสนอแนะและคำถามมีมากกว่ายินดีต้อนรับ


3
ฉันจะยืนยันว่าสิ่งที่คุณทำขั้นตอนแรกของคุณควรเป็นddกระจกของดิสก์ทั้งหมดเพียงเพื่อป้องกันความเสียหายเพิ่มเติมและมีแผนสำรองเมื่อทำงานกับโซลูชันจริง
สเวน

เราจะทำเช่นนี้ ...
ริชาร์ด

1
สิ่งที่เกี่ยวกับฮอตสปอต?
Cawflands

1
คุณสามารถติดต่อผู้ขายเพื่อขอการสนับสนุนได้หรือไม่? สมมติว่าคุณไม่สามารถ (และคุณได้ใช้ dd เพื่อสะท้อนทุกอย่างตามคำแนะนำที่ยอดเยี่ยมของ @ SvenW) ทำไมไม่เปลี่ยนไดรฟ์ที่ล้มเหลวรีบูตและดูว่าเกิดอะไรขึ้น ฉันไม่จำเป็นต้องดึงไดรฟ์ทั้งหมดเฉพาะที่ล้มเหลวเท่านั้น แต่จริงๆแล้วเดิมพันแรกของคุณคือผู้ขายพวกเขาเข้าใจซอฟต์แวร์ของพวกเขา
Jeremy

คุณคิดทางออกหรือไม่? ถ้าเป็นเช่นนั้นให้เรารู้ว่ามันคืออะไรสำหรับการอ้างอิงในอนาคตโปรด!
แกรนท์

คำตอบ:


2

ฉันคิดว่าตัวเลือกที่ 1 คือสิ่งที่ดีที่สุดของคุณ

นำ HDD ใหม่ 12x, 1x คอนโทรลเลอร์ RAID ใหม่ลองทำมิเรอร์ (dd if = of =) ดิสก์เก่าให้เป็นดิสก์ใหม่ 1: 1 โดยใช้กล่องลินุกซ์ สร้างเซิร์ฟเวอร์ใหม่โดยใช้คอนโทรลเลอร์ RAID ใหม่ 1x รวมทั้ง HDD ใหม่ 12x

ลองสร้างอาร์เรย์ในเซิร์ฟเวอร์ใหม่ ความสำเร็จ? ยิ่งใหญ่ หยุด.
การสร้างใหม่ล้มเหลว จำลองดิสก์เก่าเป็นดิสก์ใหม่อีกครั้งลองใช้ตัวเลือก i + 1


0

นี่เป็นสถานการณ์ทั่วไปที่น่าเสียดายมาก มีการศึกษาของ Google ที่ดีเมื่อหลายปีก่อนและปรากฎว่าการสูญเสียข้อมูลด้วย RAID สามารถเกิดขึ้นได้ในระหว่างการสร้างอาร์เรย์ขึ้นใหม่ สิ่งนี้สามารถส่งผลกระทบต่อระบบ RAID ที่แตกต่างกันซึ่งมีความรุนแรงต่างกัน นี่คือสถานการณ์จำลอง RAID6:

  • อาเรย์ของคุณมี 3 ข้อมูลและ 2 พาริตี้ดิสก์
  • หากคุณทำดิสก์หายหนึ่งแผ่นจะแน่ใจได้ว่าข้อมูลทั้งหมดสามารถกู้คืนได้
  • หากคุณทำ 2 แผ่นคุณสูญเสียข้อมูล

ทำไมถึงเป็นอย่างนั้น?

ลองนึกถึงสิ่งต่อไปนี้: ให้มีข้อมูลสมมติว่า 3 บล็อกแรกของไฟล์คุณมีบล็อคข้อมูลต่อไปนี้: A1 + A2 + A3 และพาริตี้ต่อไปนี้: Ap + Ap นั่งอยู่บน hdd1 ... hdd5

หากคุณสูญเสียดิสก์สองตัวระหว่าง 1 ถึง 3 คุณสูญเสียข้อมูลเนื่องจากข้อมูลไม่สามารถกู้คืนได้คุณจะมี 2 parity และ 1 data block

ตอนนี้สถานการณ์เดียวกันกับ 10 ดิสก์อาจแตกต่างกัน แต่ฉันเดาว่ามันจัดการแบบเดียวกับที่คุณแบ่งข้อมูลออกเป็น 8 บล็อกและบันทึกพาริตีเป็น 2 ไดรฟ์อื่นและมี 2 ฮอตสปอต คุณรู้รายละเอียดการกำหนดค่าตัวควบคุม RAID ของคุณหรือไม่

ฉันจะเริ่มกู้คืนจากการสำรองนอกสถานที่ (ฉันเดาว่าคุณมี) และบริการกลับพยายามกู้คืนข้อมูลให้มากที่สุดโดยใช้ Unix และ dd ไดรฟ์ไปยังรูปภาพและใช้เป็นอุปกรณ์วนรอบ

http://wiki.edseek.com/guide:mount_loopback

คุณต้องรู้ว่าตัวควบคุม RAID ประเภทใดที่ใช้และถ้าคุณโชคดีมันได้รับการสนับสนุนในเครื่องมือบางอย่างเช่น dmraid

แต่นี่ไม่ได้หมายความว่าคุณสามารถกู้คืนข้อมูลได้เลยเนื่องจากไฟล์มักจะถูกแจกจ่ายในบล็อคจำนวนมากโดยปกติการกู้คืนอาจล้มเหลวในการนำข้อมูลของคุณกลับมา

เพิ่มเติมเกี่ยวกับ RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.