กู้คืนจากอาร์เรย์ RAID ที่เจาะทะลุ


10

นี่คือสถานการณ์ของฉัน

ฉันมีเซิร์ฟเวอร์ Dell ที่มีคอนโทรลเลอร์ Dell Perc 7i, (คอนโทรลเลอร์ LSI)

ฉันมีไดรฟ์ให้ฉันเตือนความล้มเหลวที่คาดการณ์ไว้ดังนั้นฉันจึงเรียกการสนับสนุนของพวกเขาและพวกเขาออกมาและแทนที่ไดรฟ์และอาร์เรย์สร้างขึ้นมาใหม่เองมาตรฐานที่ค่อนข้างดี

สองสัปดาห์ต่อมาฉันมีอีกไดรฟ์ให้ฉันเตือนความล้มเหลวที่คาดการณ์ไว้ ฉันคิดว่าอาจเป็นชุดไดรฟ์หรือความบังเอิญที่ไม่ดีเป็นต้นดังนั้นฉันจึงติดต่อฝ่ายสนับสนุนและมองในเชิงลึกมากขึ้น ฉันรู้ว่ามีบล็อกที่ไม่ดีในไดรฟ์อื่นที่ไม่ได้ล้มเหลวและบล็อกที่ไม่ดีเหล่านั้นถูกคัดลอกไปในระหว่างการสร้างใหม่ ดังนั้นตอนนี้ฉันมีบล็อกที่ไม่ดีอยู่ทั่วสถานที่และพวกเขากำลังฆ่าอาเรย์ของฉันอย่างช้าๆ ฉันมาพบว่าสิ่งนี้เรียกว่า Punctured Array

ดังนั้นคำแนะนำของพวกเขาคือการแทนที่ไดรฟ์ทั้งหมดสร้างอาร์เรย์ขึ้นใหม่และกู้คืนจากการสำรองข้อมูล ยกเว้นฉันได้รับปัญหานี้มาสองสามสัปดาห์ซึ่งหมายความว่าการสำรองข้อมูลของฉันไม่ดี ... และถ้าฉันกู้คืนจากการสำรองข้อมูลจากก่อนหน้า (เดือนที่ผ่านมา) แล้วฉันจะหายไปประมาณ 4 สัปดาห์มูลค่าข้อมูลจากฐานข้อมูลของฉัน เป็นที่ยอมรับโดยสิ้นเชิงสำหรับสำนักงานของเรา

คำถามของฉันคือ ... มีใครเคยกู้คืนจากสิ่งนี้โดยไม่ต้องสูญเสียข้อมูลหรือไม่มีทั้งหมด (โยนมันออกไปนอกหน้าต่างและเริ่มต้นใหม่) วิธีการ?

ฉันพบลิงค์หนึ่งที่ครอบคลุมสถานการณ์ของฉันไม่แน่ใจว่ามันหายไปกับสถานการณ์ใด ๆ หรือไม่: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

ความช่วยเหลือหรือทิศทางจะได้รับการชื่นชม! พวกคุณคิดอย่างไร

คำตอบ:


15

ระบบของคุณฉันคิดว่ายังคงอยู่ดังนั้นสิ่งที่ดีที่สุดที่ควรทำคือทำการสำรองข้อมูลทันทีถ่ายโอนข้อมูลดิสก์ / อาร์เรย์สร้างใหม่และกู้คืนจากข้อมูลสำรอง

บล็อกที่ไม่ดีไม่ได้หมายความว่าการสำรองข้อมูลของคุณจะไม่ดีเช่นกัน หากคุณยังไม่ประสบปัญหาประสิทธิภาพการทำงานหรือไฟล์เสียหายการสำรองข้อมูลของคุณควรจะยังสมบูรณ์เพียงพอที่จะทำการกู้คืนให้เสร็จสิ้น

ในการทดสอบให้สำรองข้อมูลล่าสุดและตรวจสอบข้อมูลที่สำคัญที่สุดของคุณ หากยังคงไม่บุบสลายคุณอาจมีการสำรองข้อมูลที่ดี

ณ จุดนี้มีความเสี่ยงเนื่องจากคุณไม่สามารถมั่นใจได้ 100% ว่าการสำรองข้อมูลของคุณดีหรือการสำรองข้อมูลในตอนนี้จะไม่ทำให้ไฟล์สูญหาย อย่างไรก็ตามอาเรย์ของคุณจะล้มเหลวและบังคับให้กู้คืนในที่สุดดังนั้นนี่คือตัวเลือกที่แท้จริงของคุณ


ฉันเห็นแล้วตอนนี้ทุกอย่างดูเหมือนจะทำงานได้ดี ดังนั้นหากฉันสามารถสำรองข้อมูลระบบของฉันได้อย่างสมบูรณ์ในขณะนี้และฉันแทนที่ไดรฟ์ให้สร้างอาร์เรย์ใหม่และกู้คืนข้อมูลสำรองที่สมบูรณ์แล้ว ... ฉันจะเสี่ยงต่อความล้มเหลวนี้หรือไม่ หรือฉันควรติดตั้งระบบปฏิบัติการและซอฟต์แวร์ใหม่และกู้คืนฐานข้อมูลเพื่อลดความเสี่ยงเท่านั้น
user72593

บล็อกที่ไม่ดีมักจะไม่เกิดขึ้นในระดับไฟล์ ฉันจะทำเช่นนี้ก็ต่อเมื่อคุณพบไฟล์ที่เสียหาย
นาธาน C

@NathanC คุณไม่ได้รับ "บล็อกที่ไม่ดี" คุณได้รับข้อมูลที่เสียหาย
JamesRyan

@ user72593 เพียงเพราะคุณสามารถสำรองไฟล์วันนี้ไม่ได้หมายความว่าพวกเขาจะไม่หายไปส่วน วิธีเดียวที่จะเห็นสิ่งที่ดีหรือไม่คือการเปรียบเทียบกับข้อมูลสำรอง
JamesRyan

1
@JamesRyan "bad block" สามารถอยู่ที่ใดก็ได้ในดิสก์รวมถึง swap, ไฟล์ temp หรือที่ใช้ก่อนหน้านี้ แต่ตอนนี้ไม่ได้ใช้พื้นที่ เมื่อไดรฟ์มีบล็อกเสียก็ไม่ได้เสมอข้อมูลเฉลี่ยก็หายไป
นาธาน C

8

ให้ทำสิ่งต่อไปนี้ทันที:

  • หยุดการสำรองข้อมูลหมุนหรือลบข้อมูลเก่าสำหรับระบบนี้ คุณต้องการเก็บสำรองข้อมูลทั้งหมดที่คุณมีอยู่ในปัจจุบัน
  • ทำการสำรองข้อมูลเต็มรูปแบบของเซิร์ฟเวอร์

หวังว่าดิสก์จะยังคงดีพอที่ข้อมูลของคุณจะยังคงอยู่และคุณจะไม่พบปัญหาใด ๆ ในการสำรองข้อมูลเต็มรูปแบบใหม่

จากนั้นคัดลอกดิสก์เหล่านั้นและสร้างอาร์เรย์ RAID ใหม่ เมื่อพร้อมแล้วให้ลองกู้คืนจากข้อมูลสำรองที่คุณเพิ่งทำในตอนนี้ ด้วยโชคใด ๆ นั่นคือทั้งหมดที่คุณต้องทำ

หากล้มเหลวให้ลองใช้รุ่นเก่าที่สุดถัดไปและรุ่นเก่าที่สุดเป็นต้นให้แน่ใจว่าได้ทดสอบการทำงานของระบบ - เพียงเพราะมันบู๊ตไม่ได้หมายความว่ามันทำงานได้อย่างสมบูรณ์ โดยเฉพาะอย่างยิ่งทดสอบฐานข้อมูลสำหรับความเสียหาย

หากคุณต้องกู้คืนระบบทั้งหมดจากการสำรองข้อมูลเก่านั่นก็โอเค ใช้การสำรองข้อมูลใหม่ล่าสุดและกู้คืนเฉพาะไฟล์ฐานข้อมูลและไฟล์สำคัญอื่น ๆ ทดสอบพวกเขาเพื่อให้แน่ใจว่าพวกเขาทำงานอย่างถูกต้อง อีกครั้งหากล้มเหลวให้ลองรุ่นเก่าที่สุดถัดไป

การใช้กระบวนการนี้ลดการสูญหายของข้อมูล


ฉันเห็นแล้วว่าตอบคำถามของฉัน ดังนั้นตราบใดที่การสำรองข้อมูลของฉันยังคงเหมือนเดิมฉันก็ดีถ้าไม่เช่นนั้น ... ฉันต้องจัดการกับมัน ขอบคุณ
user72593

4

คำตอบที่ให้โดย Grant และ Nathan C นั้นยอดเยี่ยมเกี่ยวกับวิธีดำเนินการสำรองข้อมูล / เรียกคืนและจัดการกับความถูกต้องของข้อมูล

ต่อไปนี้เป็นรายละเอียดที่ชัดเจนยิ่งขึ้นเกี่ยวกับวิธีจัดการกับชุด RAID เมื่อถึงเวลาสร้างดิสก์เสมือนและเรียกคืนจากการสำรองข้อมูล:

  • ตรวจสอบว่าคุณมีการสำรองข้อมูลที่ดี
  • ลบดิสก์เสมือนที่มีอยู่ ดิสก์ทั้งหมดควรแสดงในสถานะ "พร้อม" หลังจากนั้น
  • สร้างดิสก์เสมือนใหม่ การตั้งค่าที่แนะนำ: การปรับการอ่านล่วงหน้าเขียนกลับและปิดใช้งานการแคชดิสก์
  • คุณควรมีดิสก์เสมือนออนไลน์ที่มีการเริ่มต้นพื้นหลัง
  • ดำเนินการคืนค่าจากการสำรองข้อมูล โดยทั่วไปแล้วการเริ่มต้นพื้นหลังจะทำงานประมาณ 600GB / ชม. สำหรับแกนหมุน 7.2K ดังนั้นให้ init เริ่มต้นถ้าการสำรองข้อมูลของคุณสามารถทำงานได้เร็วกว่านั้นมิฉะนั้นซอฟต์แวร์สำรองข้อมูลของคุณอาจมีปัญหาบางอย่างกับเวลาแฝงการเขียนเมื่อไม่มีพื้นที่ว่างใหม่ทันที ฟื้นฟู

หมายเหตุ : หากคุณใช้ RAID5 คุณควรพิจารณาใช้ RAID6 อย่างจริงจังในครั้งนี้ RAID5 ไม่น่าเชื่อถือสำหรับข้อมูลสำคัญทางธุรกิจตามแนวทางปฏิบัติที่เป็นมาตรฐานอุตสาหกรรมในปัจจุบันเกี่ยวกับขนาดนี้ ดิสก์ SATA / NL-SAS ความจุขนาดใหญ่ยังมีความเสี่ยงสูงกว่าในการเผชิญหน้ากับ URE ในระหว่างการสร้างใหม่ซึ่งส่งผลให้เกิดการเจาะเหมือนที่คุณกำลังเผชิญอยู่ RAID6 ช่วยลดความเสี่ยงนี้ได้อย่างมากมายและเป็นที่ยอมรับโดยทั่วไปสำหรับข้อมูลสำคัญด้วยความจุของไดรฟ์ที่มีอยู่ในปัจจุบัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.