เรามีเซิร์ฟเวอร์ linux ที่ใช้งานหนักเป็นเวลา 3 ปี เรากำลังเรียกใช้เซิร์ฟเวอร์เสมือนจริงจำนวนหนึ่งบนเซิร์ฟเวอร์บางตัวที่ไม่ได้ทำงานได้ดีและในช่วงเวลาหนึ่งความจุของเซิร์ฟเวอร์ io นั้นสูงเกินกว่าที่จะนำไปสู่ iowait ที่ไม่ดี มีไดรฟ์ SATA แบบ Barracuda ขนาด 4 500GB เชื่อมต่อกับคอนโทรลเลอร์การโจมตี 3com 1 Drive มีระบบปฏิบัติการและอีก 3 ตัวติดตั้ง raid-5
ตอนนี้เรามีการถกเถียงเกี่ยวกับสภาพของไดรฟ์และไม่ว่าพวกเขาจะล้มเหลวอย่างแข็งขัน
นี่คือส่วนหนึ่งของเอาต์พุตสำหรับ 1 ใน 4 ดิสก์ พวกเขาทั้งหมดมีสถิติที่ค่อนข้างคล้ายกัน:
คุณสมบัติการแก้ไขโครงสร้างข้อมูล SMART จำนวน: 10 แอตทริบิวต์ SMART เฉพาะของผู้ขายพร้อมเกณฑ์: ID # ATTRIBUTE_NAME กำหนดค่าเป็น FLAG ที่เลวร้ายที่สุด THRESH ประเภทปรับปรุง WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-Fail เสมอ - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pre-Fail เสมอ - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age เสมอ - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-ล้มเหลวเสมอ - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pre-Fail เสมอ - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age เสมอ - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Pre-Fail เสมอ - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age เสมอ - 26 184 ไม่รู้จัก _ แอตทริบิวต์ 0x0032 100 100 099 Old_age เสมอ - 0 187 Reported_ แก้ไขข้อผิดพลาด 0x0032 100 100 000 Old_age เสมอ - 0 188 Unknown_Attribute 0x0032 100 100 000 Old_age เสมอ - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age เสมอ - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age เสมอ - 29 (อายุการใช้งานต่ำสุด / สูงสุด 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age เสมอ - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age เสมอ - 169074425 197 ปัจจุบัน_Pending_Sector 0x0012 100 100 000 Old_age เสมอ - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age ออฟไลน์ - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age เสมอ - 0 รุ่น SMART Error Log: 1 ไม่มีข้อผิดพลาดเข้าสู่ระบบ
การตีความของฉันเกี่ยวกับเรื่องนี้คือเราไม่ได้มีเซ็กเตอร์ที่ไม่ดีหรือสิ่งบ่งชี้อื่น ๆ ว่าไดรฟ์ใด ๆ ล้มเหลวอย่างแข็งขัน
อย่างไรก็ตาม Raw_Read_Error_Rate และ Seek_Error_Rate ที่สูงนั้นกำลังถูกชี้ไปเพื่อบ่งชี้ว่าไดรฟ์กำลังจะตาย