3 อาร์เรย์ RAID6 บางครั้งค้างอยู่ ตรวจไม่พบดิสก์ที่เสียหาย?


13

เรามีเซิร์ฟเวอร์ Debian ที่มีคอนโทรลเลอร์ RAID 3Ware 9650SE 8 ไดรฟ์พร้อมอาร์เรย์ RAID 5 ดิสก์ 5 ซึ่งทำหน้าที่เป็นโฮสต์เครื่องเสมือน Linux ทั้งหมด ปัญหายังคงเกิดขึ้นและฉันสงสัยว่าดิสก์ที่ใช้งานไม่ได้ตรวจพบ

เราพบข้อขัดข้องหลายครั้งในขณะนี้ที่ทั้งโฮสต์และแขกทุกคนกำลังบอกว่าระบบ IO ถูกบล็อกเป็นเวลา 120 วินาทีหรือมากกว่า เราสงสัยว่าคอนโทรลเลอร์ RAID มีข้อผิดพลาด แต่เราแทนที่มันด้วยอันที่เหมือนกันด้วยเฟิร์มแวร์ที่เหมือนกันซึ่งไม่ได้แก้ไข ฉันไม่คิดว่าจะเป็นเช่นนั้นเพราะอาร์เรย์ RAID1 ตัวที่สองทำงานได้อย่างถูกต้อง

เกือบหนึ่งสัปดาห์ที่ผ่านมา (วันอาทิตย์) เมื่อสิ่งนี้เกิดขึ้นการยืนยันอัตโนมัติอยู่ที่ 66% เมื่อคืนนี้ (เช้าวันศุกร์) อยู่ที่ 67% ทั้งก่อนและหลังการบูทและทั้งคู่ในขณะที่ประสบปัญหา เมื่อฉันปิดการตรวจสอบด้วยtw_cli /c0/u0 stop verifyสิ่งต่างๆก็ตอบสนองอีกครั้ง

ฉันสงสัยว่ามันติดอยู่กับความผิดพลาดของดิสก์ที่ประมาณ 66% การยืนยันอัตโนมัติเริ่มในวันเสาร์:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

และโดยปกติจะใช้เวลานานในวันศุกร์ เมื่อดูว่าวันอาทิตย์เป็นอย่างไร 66% และวันศุกร์เป็น 67% ก็ไม่น่าจะเป็นเรื่องบังเอิญ

'smartctl -a -d 3ware, 0 / dev / twa0' และ 'smartctl -t long' (การทดสอบตัวเองของ SMART แบบยาว) ในทุกไดรฟ์ไม่ได้เปิดเผยข้อผิดพลาดใด ๆ ไม่tw_cli /c0 show alarmsเช่นนั้น

ฉันสงสัยว่าดิสก์แตกในวิธีที่ยากต่อการตรวจจับ แต่ฉันนำแต่ละไดรฟ์ออกจากอาร์เรย์ทีละตัวสร้างอาร์เรย์ 'เดี่ยว' จากนั้นและสร้างศูนย์เต็ม ไม่มีดิสก์แสดงข้อผิดพลาด

หรือคำแนะนำอื่น ๆ ?

แก้ไข:

นี่คือเค้าโครง:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

หน่วยที่สงสัยคือ u0

edit2:

tw_cli / c0 show diag แสดงสิ่งที่น่าสนใจ (แก้ไข 3: มันไม่เป็นอันตรายฉันพบว่ามันเกิดจากการเรียกsmartctl -a -d 3ware,X /dev/twa0ที่ X เป็นพอร์ตที่ไม่ถูกต้อง):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

ฉันได้รับสิ่งเหล่านี้มากมาย ฉันไม่รู้ว่ามันหมายความว่าอย่างไร ฉันไม่สามารถระบุได้ว่าเป็นหน่วยหรือพอร์ตใด (แก้ไข 3: ฉันรู้แล้วตอนนี้มันไม่เป็นอันตราย)

ได้รับการแก้ไขของฉัน 3 ฉันกลับไปที่ตารางหนึ่ง ไม่มีสิ่งใดบ่งชี้ว่าดิสก์เสียหายยกเว้นว่าการตรวจสอบแฮงค์ที่ 66% และทำให้อาร์เรย์หยุดทำงานซึ่งบางครั้งก็เกิดขึ้นแบบสุ่มด้วย ฉันหวังว่าการตรวจสอบจะพบข้อผิดพลาด ...


HDDs อะไร พวกเขาสนับสนุนอย่างเป็นทางการหรือไม่
grs

ฉันเพิ่มเลย์เอาต์ ดิสก์คือ ST32000542AS ได้รับการสนับสนุน แต่ยิ่งกว่านั้นเซิร์ฟเวอร์ทำงานได้ดีเป็นเวลา 3 ปี
Halfgaar

ฉันมีปัญหากับไดรฟ์ WD บางตัวกลายเป็น verrryyyy ช้าในบางจุด เฉพาะ hdparm (ไม่สามารถทำได้ที่นี่อย่างน่าเศร้า) แสดงให้ฉันเห็นถึงกำลังการผลิตที่ ~ 300KB / s (ใช่ K!) แทนที่จะเป็น 80 ~ 100MB / s ตามปกติ
Benjamin Sonntag

1
ความแตกต่างระหว่างองค์กรและดิสก์ของเดสก์ท็อปไดรฟ์คือพวกเขาจัดการข้อบกพร่อง หากไดรฟ์ขององค์กรพบข้อผิดพลาดใด ๆ แผ่นดิสก์ก็จะหลุดออกจากการโจมตี (เช่นเดียวกับใน บริษัท ที่มีความอ่อนไหวต่อความเสี่ยงของการจัดเก็บข้อมูลและเต็มใจที่จะจ่ายเงิน) หากเดสก์ท็อปไดรฟ์ตรงกับความผิดพลาดมันจะพยายามดำเนินการต่อไปจนกว่าจะหมดเวลาทั้งหมด (ในฐานะผู้ใช้หนึ่งไดรฟ์และข้อมูลที่พวกเขาต้องการเข้าถึงและหากพวกเขาหลุดออกจากแผ่นดิสก์ในครั้งเดียวผู้ผลิตจะเจ็บปวดมาก) เห็นได้ชัดว่า ST32000542AS เป็นแผ่นดิสก์รุ่นเดสก์ท็อปที่เงียบและประหยัด ตัวอย่างเช่นgoo.gl/rWb5lj
Rainbow-

ที่จริงแล้วเมื่อเร็ว ๆ นี้เซิร์ฟเวอร์นี้หยุดทำงานกะทันหันแตกต่างและรุนแรงกว่าปัญหาเดิมและบันทึกแสดงการหมดเวลาบนพอร์ต RAID การหมดเวลาใช้งานหนึ่งในไดรฟ์ระดับองค์กร (ซึ่งเซิร์ฟเวอร์นี้มีมากกว่าตอนนี้)
Halfgaar

คำตอบ:


1

2 สิ่งที่ไม่ได้นำขึ้นมา:

  1. นี่คือคอนโทรลเลอร์ SATA RAID หรือไม่ ถ้าเป็นเช่นนั้นสายเคเบิล SATA มีแนวโน้มที่จะอายุมากขึ้นและการแทนที่อาจช่วยแก้ปัญหาดังกล่าวได้อย่างง่ายดาย ส่วนใหญ่เวลานี้สามารถลองเมื่อเกิดข้อผิดพลาดดิสก์ล่าช้าหมดเวลาเกิดขึ้น แต่ค่าสมาร์ทจะ ok ทั้งหมดและไดรฟ์ผ่านการทดสอบด้วยตนเองทั้งหมด น่าเสียดายที่การค้นหาผู้จำหน่ายสายเคเบิล SATA ที่ดีนั้นทำได้ยาก
  2. 3 ตัวควบคุม RAID แบบเก่าและไม่รองรับในปัจจุบัน คุณจะไม่ได้รับการอัพเกรดเฟิร์มแวร์หรืออะไหล่ ในกรณีที่คอนโทรลเลอร์ของคุณตาย RAID อาจไม่สามารถกู้คืนได้หากไม่มีคอนโทรลเลอร์และเฟิร์มแวร์ที่ตรงกัน จำเป็นต้องกู้คืนข้อมูลที่มีราคาแพง

0

ปัญหานี้อาจเกิดจากหนึ่งในดิสก์ที่พบข้อผิดพลาดในการอ่านและการบล็อกอาเรย์ทั้งหมดจนกว่าจะจัดการจัดสรรภาคใหม่หรือตัวควบคุม RAID จะถือว่าไดรฟ์นั้นเสียชีวิตและบู๊ตออกจากอาร์เรย์โดยทำเครื่องหมายว่า (นี่ขึ้นอยู่กับผู้ควบคุมที่มีปัญหาอย่างสมบูรณ์) สิ่งนี้อาจเกิดขึ้นบ่อยครั้งหากดิสก์เริ่มตาย แต่ยังผ่าน SMART ดิสก์สำหรับผู้บริโภคส่วนใหญ่จะพยายามอ่านต่อไปเรื่อย ๆ

ปัญหานี้จะแก้ไขได้ในไดรฟ์บาง destined สำหรับ RAID โดยใช้สิ่งที่เรียกว่าการควบคุมการกู้คืนข้อผิดพลาด WD เรียก TLER นี้ จากเว็บไซต์:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

โดยพื้นฐานแล้วมันจะบอกดิสก์ว่าถ้าไม่สามารถอ่านเซกเตอร์ได้จะยอมแพ้หลังจาก x วินาที สิ่งนี้ดีมากใน RAID เนื่องจากข้อมูลอาจถูกกู้คืนจากดิสก์อื่น

จากสิ่งที่ฉันได้อ่าน ST32000542AS ไม่ได้ใช้รูปแบบใด ๆ ของ ERC เพื่อให้พวกมันสามารถบล็อกอาเรย์ทั้งหมดได้ ในความเป็นจริง WD2002FYPS ใช้ TLER ของ WD ดังนั้นพวกเขาจะไม่ทำให้เกิดปัญหานี้


0

เพียงเพื่อให้แน่ใจว่าเวอร์ชั่นเฟิร์มแวร์ของคุณคืออะไร?

มีปัญหาที่ฉันประสบ - ซึ่งฟังดูเหมือนกับสิ่งที่คุณกำลังอธิบาย - เมื่อปฏิบัติตามข้อกำหนดต่อไปนี้:

  • 3ware ชุดควบคุม 96xx
  • RAID 6
  • ขนาดลาย 256k
  • เวอร์ชั่นของเฟิร์มแวร์ <v4.10.00.021 *

ในตอนนั้นไม่มีการแก้ไขเฟิร์มแวร์ดังนั้นฉันจึงย้ายจากขนาดแถบ 256k ไปเป็น 64k ซึ่งแก้ไขปัญหาได้เช่นกัน คุณสามารถลองใช้วิธีการแก้ปัญหาได้แม้ว่าจะใช้เวลาหลายวัน

ต่อมาฉันลองใช้เฟิร์มแวร์ตัวใหม่ (* 4.10.00.021 ฉันคิดว่าได้แก้ไข) ด้วย 256k และทำงานได้อย่างมีเสน่ห์ 4.10.00.027 เป็นเวอร์ชันล่าสุด


เราไม่มีปัญหาอีกต่อไป การยืนยันสำเร็จเสมอ อย่างไรก็ตามเราได้รับเซิร์ฟเวอร์ที่สมบูรณ์เมื่อไม่กี่เดือนที่ผ่านมา (หลังจากไม่มีปัญหามานาน) Dmesg กล่าวว่าดิสก์ x หมดเวลา ฉันไม่รู้ว่าทำไมคอนโทรลเลอร์ไม่เตะ แต่ถึงแม้ว่ามันจะไม่ได้ถูกทำเครื่องหมายอย่างชัดเจนว่าลดระดับลง แต่ฉันก็แทนที่มัน และดิสก์อื่น ๆ ได้ถูกแทนที่ตั้งแต่นั้นเช่นกัน ดังนั้นจึงน่าจะเป็นปัญหาของดิสก์
Halfgaar

0

ฉันเคยมีปัญหากับตัวควบคุม 3ware และไดรฟ์ Seagate มีความไม่เข้ากันของเฟิร์มแวร์เล็กน้อย ฉันเปลี่ยนมาใช้ไดรฟ์ Samsung แก้ไขปัญหาแล้ว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.