เรามีเซิร์ฟเวอร์ Debian ที่มีคอนโทรลเลอร์ RAID 3Ware 9650SE 8 ไดรฟ์พร้อมอาร์เรย์ RAID 5 ดิสก์ 5 ซึ่งทำหน้าที่เป็นโฮสต์เครื่องเสมือน Linux ทั้งหมด ปัญหายังคงเกิดขึ้นและฉันสงสัยว่าดิสก์ที่ใช้งานไม่ได้ตรวจพบ
เราพบข้อขัดข้องหลายครั้งในขณะนี้ที่ทั้งโฮสต์และแขกทุกคนกำลังบอกว่าระบบ IO ถูกบล็อกเป็นเวลา 120 วินาทีหรือมากกว่า เราสงสัยว่าคอนโทรลเลอร์ RAID มีข้อผิดพลาด แต่เราแทนที่มันด้วยอันที่เหมือนกันด้วยเฟิร์มแวร์ที่เหมือนกันซึ่งไม่ได้แก้ไข ฉันไม่คิดว่าจะเป็นเช่นนั้นเพราะอาร์เรย์ RAID1 ตัวที่สองทำงานได้อย่างถูกต้อง
เกือบหนึ่งสัปดาห์ที่ผ่านมา (วันอาทิตย์) เมื่อสิ่งนี้เกิดขึ้นการยืนยันอัตโนมัติอยู่ที่ 66% เมื่อคืนนี้ (เช้าวันศุกร์) อยู่ที่ 67% ทั้งก่อนและหลังการบูทและทั้งคู่ในขณะที่ประสบปัญหา เมื่อฉันปิดการตรวจสอบด้วยtw_cli /c0/u0 stop verify
สิ่งต่างๆก็ตอบสนองอีกครั้ง
ฉันสงสัยว่ามันติดอยู่กับความผิดพลาดของดิสก์ที่ประมาณ 66% การยืนยันอัตโนมัติเริ่มในวันเสาร์:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
และโดยปกติจะใช้เวลานานในวันศุกร์ เมื่อดูว่าวันอาทิตย์เป็นอย่างไร 66% และวันศุกร์เป็น 67% ก็ไม่น่าจะเป็นเรื่องบังเอิญ
'smartctl -a -d 3ware, 0 / dev / twa0' และ 'smartctl -t long' (การทดสอบตัวเองของ SMART แบบยาว) ในทุกไดรฟ์ไม่ได้เปิดเผยข้อผิดพลาดใด ๆ ไม่tw_cli /c0 show alarms
เช่นนั้น
ฉันสงสัยว่าดิสก์แตกในวิธีที่ยากต่อการตรวจจับ แต่ฉันนำแต่ละไดรฟ์ออกจากอาร์เรย์ทีละตัวสร้างอาร์เรย์ 'เดี่ยว' จากนั้นและสร้างศูนย์เต็ม ไม่มีดิสก์แสดงข้อผิดพลาด
หรือคำแนะนำอื่น ๆ ?
แก้ไข:
นี่คือเค้าโครง:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
หน่วยที่สงสัยคือ u0
edit2:
tw_cli / c0 show diag แสดงสิ่งที่น่าสนใจ (แก้ไข 3: มันไม่เป็นอันตรายฉันพบว่ามันเกิดจากการเรียกsmartctl -a -d 3ware,X /dev/twa0
ที่ X เป็นพอร์ตที่ไม่ถูกต้อง):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
ฉันได้รับสิ่งเหล่านี้มากมาย ฉันไม่รู้ว่ามันหมายความว่าอย่างไร ฉันไม่สามารถระบุได้ว่าเป็นหน่วยหรือพอร์ตใด (แก้ไข 3: ฉันรู้แล้วตอนนี้มันไม่เป็นอันตราย)
ได้รับการแก้ไขของฉัน 3 ฉันกลับไปที่ตารางหนึ่ง ไม่มีสิ่งใดบ่งชี้ว่าดิสก์เสียหายยกเว้นว่าการตรวจสอบแฮงค์ที่ 66% และทำให้อาร์เรย์หยุดทำงานซึ่งบางครั้งก็เกิดขึ้นแบบสุ่มด้วย ฉันหวังว่าการตรวจสอบจะพบข้อผิดพลาด ...