ฉันมีอาเรย์ RAID ที่น่าเศร้าในการ์ด 3ware 9650SE-16ML สิ่งที่ฉันไม่สามารถบอกได้คือถ้าฉันเพิ่งประสบกับความล้มเหลวของดิสก์สองครั้ง (คนเกียจคร้าน!) หรือถ้าฉันอ่านผิด ผลลัพธ์ของ relavent /c0 show all
คือ:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
และความล้มเหลวคือ (จากshow alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
ฉันคิดว่าสิ่งที่เกิดขึ้นคือ p0 ล้มเหลวจากนั้น p1 มีข้อผิดพลาด ECC (อาคาข้อมูลของฉันหายไป) แต่ ... อาจจะไม่ มันยังคงอยู่ที่การสร้างใหม่ 97% แต่ไม่สามารถผ่านข้อผิดพลาดนี้ได้
เท่าที่ฉันสามารถบอกได้ผู้ดูแลระบบคนก่อนหน้าปิดการตรวจสอบเป็นระยะซึ่งเป็นสิ่งที่ทำให้เราเข้าสู่สถานะนี้ นี่ไม่ใช่สิ่งที่คนส่วนใหญ่ควรกังวลกับ 3Ware RAID ของพวกเขา!
ปรับปรุง
หลังจากตีมันไปสองสามวันฉันก็ทำ IgnoreECC บิตและมันก็สร้างขึ้นมาใหม่ แต่ข้อมูลของฉันถูกปิด คนเกียจคร้าน