tw_cli ของ 3Ware หมายถึงอะไรโดยดิสก์“ DEGRADED” เทียบกับ“ ECC-ERROR”


10

ฉันมีอาเรย์ RAID ที่น่าเศร้าในการ์ด 3ware 9650SE-16ML สิ่งที่ฉันไม่สามารถบอกได้คือถ้าฉันเพิ่งประสบกับความล้มเหลวของดิสก์สองครั้ง (คนเกียจคร้าน!) หรือถ้าฉันอ่านผิด ผลลัพธ์ของ relavent /c0 show allคือ:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

และความล้มเหลวคือ (จากshow alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

ฉันคิดว่าสิ่งที่เกิดขึ้นคือ p0 ล้มเหลวจากนั้น p1 มีข้อผิดพลาด ECC (อาคาข้อมูลของฉันหายไป) แต่ ... อาจจะไม่ มันยังคงอยู่ที่การสร้างใหม่ 97% แต่ไม่สามารถผ่านข้อผิดพลาดนี้ได้

เท่าที่ฉันสามารถบอกได้ผู้ดูแลระบบคนก่อนหน้าปิดการตรวจสอบเป็นระยะซึ่งเป็นสิ่งที่ทำให้เราเข้าสู่สถานะนี้ นี่ไม่ใช่สิ่งที่คนส่วนใหญ่ควรกังวลกับ 3Ware RAID ของพวกเขา!

ปรับปรุง

หลังจากตีมันไปสองสามวันฉันก็ทำ IgnoreECC บิตและมันก็สร้างขึ้นมาใหม่ แต่ข้อมูลของฉันถูกปิด คนเกียจคร้าน


ลองใช้วิธีการกู้คืนตู้แช่แข็งหากมีข้อมูลสำคัญอยู่
Chris S

ฉันไม่ได้ต่อต้านเคล็ดลับช่องแช่แข็ง แต่ไม่ใช่สำหรับโหมดความล้มเหลวเฉพาะไม่ใช่แค่ "ไดรฟ์ของฉันเสียชีวิต"
Bill Weiss

ดิสก์ที่ชื่อ DEGRADED เป็นดิสก์เป้าหมายของการดำเนินการ REBUILD
wazoox

คำตอบ:


7

ข้อผิดพลาด ECC หมายความว่ามีอย่างน้อยหนึ่งเซกเตอร์ที่อ่านไม่ได้บนไดรฟ์ อย่างไรก็ตามหากคุณโชคดีระบบไฟล์อาจไม่ได้ใช้เซกเตอร์นั้นในโวลุ่มนั้นดังนั้นคุณอาจยังสามารถคัดลอกข้อมูลจากอาร์เรย์ในสถานะนี้ได้

นอกจากนี้ยังมีตัวเลือกเพื่อละเว้นข้อผิดพลาด ECC ระหว่างการสร้างใหม่:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

อย่างไรก็ตามการใช้ตัวเลือกเหล่านี้หมายความว่าแถบ RAID ที่ได้รับผลกระทบจากเซกเตอร์เสียจะเสียหาย (ไม่แน่ใจว่าการ์ดจะทำอะไรในกรณีนี้ - มันอาจแทนที่ทั้งแถบด้วยศูนย์หรือด้วยข้อมูลแบบสุ่ม) ดังนั้น " กู้คืน” อาร์เรย์จริงอาจมีความเสียหายที่ตรวจไม่พบ (ถ้าแถบที่ได้รับผลกระทบอยู่ตรงกลางของไฟล์ข้อมูลบางส่วน) การคัดลอกข้อมูลจากอาร์เรย์ไปยังที่อื่นก่อนที่จะพยายามสร้างใหม่อาจปลอดภัยกว่า (อย่างน้อยคุณควรได้รับข้อผิดพลาดเมื่อพยายามอ่านพื้นที่ที่ไม่ดี)

คุณควรตั้งค่าการตรวจสอบความถูกต้องที่กำหนดไว้ของอาร์เรย์เพื่อตรวจจับเซกเตอร์ที่อ่านไม่ได้ก่อนหน้านี้เพื่อให้คุณสามารถแทนที่ไดรฟ์ที่เพิ่งเริ่มแย่


ตอนนี้ฉันกำลังทำการเพิกเฉยต่อ ECC ไม่ได้ดูดีสำหรับข้อมูลของฉัน
Bill Weiss

1
และใช่เราควรให้อาร์เรย์ตรวจสอบเป็นครั้งคราว ฉันจะคาดเดาว่าคนที่ตั้งค่านี้ถูกปิดใช้งานด้วยเหตุผลด้านประสิทธิภาพ: (
Bill Weiss

นั่นมันผ่านการสร้างใหม่ แต่ nommed บนข้อมูลของฉัน คนเกียจคร้าน นั่นจะสอนให้เราปิดการตรวจสอบ ...
Bill Weiss

4

ฉันไม่เคยพบกับฟิสิคัลไดรฟ์ (p0) เพื่อเข้าสู่สถานะ DEGRADED อย่างไรก็ตามคุณอาจสามารถเรียกคืนไดรฟ์ ECC-ERROR หรือแม้แต่ไดรฟ์ DEGRADED โดยการลบผ่าน

/c0 p1 remove

และจากนั้นออก rescan

/c0 rescan

นำพวกเขากลับเข้าไปในหน่วยจู่โจมผ่าน

maint rebuild c0 u0 p1

ไดรฟ์ SATA ที่ทำให้ฉันล้มเหลวด้วย ECC-ERROR ฉันสามารถฟื้นคืนชีพได้แม้เพียงไม่กี่ชั่วโมงก่อนที่จะล้มเหลวอีกครั้ง


3
การถอดไดรฟ์ p1 ในสถานะปัจจุบันน่าจะทำให้เกิดอาเรย์อย่างสมบูรณ์
Sergey Vlasov

ฉันทำสิ่งนี้กับไดรฟ์ p0 (โดยสันนิษฐานว่ามันแย่มาก) และมันพยายามที่จะสร้างใหม่ แต่มันทำเครื่องหมายว่าไดรฟ์เป็น DEGRADED เกือบจะในทันที คนเกียจคร้าน
Bill Weiss

1
AFAIR ที่ไดรฟ์จะถูกเก็บไว้ทำเครื่องหมายเป็นเสื่อมโทรมในระหว่างการสร้าง - ดู e กรัมที่นี่ สถานะอาร์เรย์สำคัญอย่างไร (การสร้างใหม่หรืออย่างอื่น)
Sergey Vlasov

ฮึ่ม ในความเป็นจริงแล้วการสร้างใหม่ ... ไดรฟ์ทั้งสี่ตัวกำลังกะพริบเป็นจำนวนมากนั่นเป็นสัญญาณที่ดีใช่ไหม
Bill Weiss

Stiiiiiil สร้างใหม่ ... มันอยู่ที่ 37% หลังจาก 4 ชั่วโมง คนเกียจคร้าน
Bill Weiss

2

เป็นไปได้มากว่าข้อมูลของคุณจะหายไป ข้อผิดพลาด ECC หมายถึงข้อผิดพลาดที่ไม่สามารถกู้คืนได้ในขณะที่อ่านจากดิสก์นี้

หากคุณยังไม่ได้สำรองข้อมูลคุณสามารถลองถ่ายโอนข้อมูลสถานะปัจจุบันของอาร์เรย์ได้ อาจเป็นไปได้เนื่องจากคอนโทรลเลอร์ไม่ทราบว่าข้อมูลสูญหายหรือเป็นเพียงแค่พื้นที่ว่างเปล่า (ไม่มีข้อมูลเชิงลึกใด ๆ ในระบบไฟล์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.