การทำงานของ MD ที่ซับซ้อน RAID10 จะทำเครื่องหมายว่าไดรฟ์ทั้งหมดเป็นอะไหล่ทันที


1

เช้าวันนี้ในระหว่างการอ่านที่มีความยาว ~ 1.5TB ส่งข้อมูลไปยังไคลเอนต์ NFS อาร์เรย์ md complex-RAID10 ของฉันหยุดทำงานทันทีจากนั้นส่งสมาชิกสี่คนที่เป็น "ไม่สด" และไม่สามารถเริ่มต้นใหม่ได้ การตรวจสอบ mdstat จะแสดงไดรฟ์ทั้งหมดที่พิจารณาว่าเป็น "อะไหล่"

ทำงานบนเดเบียน 7. 6x HGST Deskstar NAS, สี่รันบนการ์ดเสริม Marvell 88SE9230 PCIe และอีกสองอันบน ICH7 SATA ภายใน ไดรฟ์ทั้งหมดผ่าน SMART โดยไม่มีการจัดสรรใหม่ ไดรฟ์สี่ตัวที่ถูกทิ้งทั้งหมดอยู่ในการ์ด Marvell แต่ก็มี sda, sdb, sdc และ sdd และฉันรู้สึกว่ามันไม่จำเป็นต้องเป็นคอนโทรลเลอร์ซึ่งฉันได้ทดสอบและทำงานได้ดีต่อไป

ฉันเชื่อว่าข้อมูลทั้งหมดในอาร์เรย์นี้ควรสำรองไว้ แต่ฉันไม่แน่ใจและข้อมูลทั้งหมดที่จะจัดการนั้นมีความสำคัญอย่างยิ่ง เวิร์กโฟลว์การจัดเก็บของฉันอยู่ในช่วงการเปลี่ยนภาพในขณะนี้และการสำรองข้อมูลนี้อยู่ทั่ว

ฉันจะเริ่มต้นสิ่งนี้อีกครั้งได้อย่างไร บางคนแนะนำว่าล้มเหลวและลบแต่ละไดรฟ์และเพิ่มเข้าไปใหม่บางคนแนะนำให้เริ่มต้นอาร์เรย์ด้วย - บังคับและอื่น ๆ ยังคงบอกว่าจะสร้างอาร์เรย์ใหม่ด้วย - สมมติว่าทำความสะอาด แต่ทั้งหมดมีประสบการณ์เฉพาะกับระดับ RAID อื่น ๆ . พวกเขาและฉันไม่รู้ว่าสิ่งเหล่านั้นจะทำงานกับ RAID10 ที่ซับซ้อนได้อย่างไรและดูเหมือนจะไม่ดี

[อัพเดต] ฉันค้นพบว่าชื่ออุปกรณ์มีการเปลี่ยนแปลง นั่นเป็นสาเหตุว่าทำไมไดรฟ์ระบบปฏิบัติการเป็น sdg ใน mdstat (หลังจากรีบูต) และเป็น sdc ใน syslog (ดังนั้นข้อความเมาท์ EXT4) ตอนนี้ฉันไม่เชื่อว่าสี่ที่ถูกเตะออกทั้งหมดอยู่ในตัวควบคุม Marvell

ฉันหยุดอาร์เรย์ที่ประกอบ 1/3 และ - ประกอบ - สแกนแสดงสี่ไดรฟ์ "(อาจล้าสมัย)" และมันไม่สามารถสร้างจากสองที่เหลือได้ ฉันลองอีกครั้งด้วยตนเองโดยใช้ - ประกอบ - บังคับและมันล้างค่าสถานะ FAULTY ที่ประกอบจากไดรฟ์ 6 ตัว แต่ก็ยังไม่สามารถเริ่มต้นอาร์เรย์ได้เพราะพวกเขาทั้งหมดยังคงทำเครื่องหมายว่าเป็น SPARE ดังนั้นสิ่งนี้ทำให้ฉันทราบถึงขั้นตอนในการทำให้ไดรฟ์เหล่านี้ได้รับการยอมรับอีกครั้งในฐานะสมาชิกการทำงานของ RAID10 นี้ถ้าเป็นไปได้ ...

mdstat:

md0: ไม่ได้ใช้งาน sdf [0] (S) sdd [5] (S) sdc [4] (S) sdb [3] (S) sda [2] (S) sde [1] (S)
      23441325072 บล็อกซุปเปอร์ 1.2


syslog:

    ธ.ค. 13 02:30:02 mWproduction rpc.mountd [2790]: ขอเมาท์รับรองความถูกต้องจาก 10.10.1.124:993 สำหรับ / media / MainStore (/ media / MainStore)
    ธ.ค. 13 02:33:22 mW เคอร์เนลการผลิต: [2238.437611] md: md0 หยุดทำงาน
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.437628] md: unbind
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.456050] md: export_rdev (sdf)
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.456131] md: unbind
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.472043] md: export_rdev (sdd)
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.472130] md: unbind
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.472183] md: export_rdev (sdc)
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.472233] md: unbind
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.476282] md: export_rdev (sdb)
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.476329] md: unbind
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.476369] md: export_rdev (sda)
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.476421] md: unbind
    13 ธันวาคม 02:33:22 mW เคอร์เนลการผลิต: [2238.480171] md: export_rdev (sde)
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.889311] md: md0 หยุดทำงาน
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.890748] md: ผูก
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.890902] md: ผูก
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.891047] md: ผูก
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.891190] md: ผูก
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.891327] md: ผูก
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.891503] md: ผูก
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.891528] md: เตะ sdd ที่ไม่สดจากอาร์เรย์!
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.891534] md: unbind
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.904065] md: export_rdev (sdd)
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.904079] md: เตะ sdc ที่ไม่สดจากอาร์เรย์!
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.904090] md: unbind
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.916138] md: export_rdev (sdc)
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.916155] md: เตะ sdb ที่ไม่สดจากอาร์เรย์!
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.916173] md: unbind
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.928029] md: export_rdev (sdb)
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.928039] md: เตะ sda ที่ไม่สดจากอาร์เรย์!
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.928046] md: unbind
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.944040] md: export_rdev (sda)
    13 ธันวาคม 02:33:27 mW เคอร์เนลการผลิต: [2243.962667] md: raid10 บุคลิกภาพที่ลงทะเบียนสำหรับระดับ 10
    ธ.ค. 13 02:33:27 mW การผลิตเคอร์เนล: [2243.963132] ชีวภาพ: สร้างพื้นที่ 1
    13 ธ.ค. 02:33:27 mW เคอร์เนลการผลิต: [2243.967055] md / raid10: md0: มิเรอร์ปฏิบัติงานไม่เพียงพอ
    ธ.ค. 13 02:33:27 mW เคอร์เนลการผลิต: [2243.967264] md: pers-> run () ล้มเหลว ...
    13 ธันวาคม 02:33:35 mW เคอร์เนลการผลิต: [2251.460454] md: md0 หยุดทำงาน
    13 ธันวาคม 02:33:35 mW เคอร์เนลการผลิต: [2251.460465] md: unbind
    13 ธันวาคม 02:33:35 mW เคอร์เนลการผลิต: [2251.480313] md: export_rdev (sdf)
    13 ธันวาคม 02:33:35 mW เคอร์เนลการผลิต: [2251.480476] md: unbind
    13 ธันวาคม 02:33:35 mW เคอร์เนลการผลิต: [2251.498418] md: export_rdev (sde)
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.905447] md: md0 หยุดทำงาน
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.911283] md: ผูก
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.911576] md: ผูก
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.911844] md: ผูก
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.912306] md: ผูก
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.912475] md: ผูก
    ธ.ค. 13 02:33:44 mW เคอร์เนลการผลิต: [2260.912650] md: ผูก
    ธ.ค. 13 02:42:48 mW ปิดการผลิต [4245]: ปิดระบบเพื่อรีบูทระบบ

คำตอบ:


1

ปัญหาได้รับการแก้ไขแล้ว ฉันได้รับคำแนะนำให้ทำการ mdadm -E บนไดรฟ์ทั้งหมด มันเปิดเผยว่าตอนนี้อาเรย์นั้นถูกประกอบขึ้นใหม่ทั้งหมด แต่ไดรฟ์ตัวใดตัวหนึ่งมีสถานะอาเรย์ของ AAAAAA /dev/sdeสถานะของมันติดอยู่ที่ AA .... (มีสถานะสองสถานะที่ไม่ทำงานสี่สถานะ) และนั่นบ่งบอกถึงความผิดปกติบางอย่าง

ฉันประกอบชิ้นส่วนไดรฟ์ใหม่อีกครั้งโดย--forceไม่ข้าม/dev/sdeและมันระบุว่าจำเป็น--runเพราะมันต้องการให้สมาชิกทุกคนนำเสนอ ด้วย - วิ่งอาร์เรย์เริ่มต้นอย่างถูกต้องลดระดับลง ตอนนี้ฉันกำลังทดสอบดิสก์ที่เหลืออยู่ตรวจสอบอีกครั้งว่าทุกอย่างได้รับการสำรองข้อมูลและเพิ่มลงในอาร์เรย์อีกครั้ง

ใหญ่ขอบคุณมากสำหรับผู้ใช้ spreeuw และ mumixam ของ irc.freenode.net #linux และ #mdadm ตามลำดับสำหรับการป้อนข้อมูลที่มีค่าของพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.