ฉันควรกังวลเกี่ยวกับค่า SMART Hardware_ECC_ ที่ได้รับการบันทึกใหม่ที่สูงหรือไม่


16

ฉันได้รับข้อความดังกล่าวใน/var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

หมายความว่าดิสก์ล้มเหลวและฉันต้องแทนที่หรือไม่ ฉันจะอ่านเกี่ยวกับการแปลผลการทดสอบ SMART ได้ที่ไหน

คำตอบ:


13

ตามที่สตีฟกิบสันชื่อเสียงSpinrite , ค่าสมาร์ทจะต้องดำเนินการในช่วงเวลาที่ไม่ได้อ่านทันที ซึ่งหมายความว่าค่า 47 ไม่จำเป็นต้องเลวร้ายหากค่านั้นเป็น 47 สำหรับเดือน อย่างไรก็ตามหากค่าเป็น 42 ชั่วโมงที่ผ่านมาและการปีนเขาอย่างรวดเร็วนั่นหมายความว่าไดรฟ์กำลังประสบปัญหาในการเข้าถึงส่วนของข้อมูลและอาจไม่สามารถอ่านเซกเตอร์ได้ในไม่ช้า ขึ้นอยู่กับมูลค่าของข้อมูลในไดรฟ์นั้นคุณอาจต้องการแทนที่


+1 สำหรับคำตอบที่ดีและเพื่อเพิ่ม หากคุณเป็นกังวล Lexsys ฉันจะซื้อสำเนาของ Spinrite และเรียกใช้ คุณจะต้องให้ระบบของคุณสามารถบูทจากซีดีได้ แต่ระบบปฏิบัติการไม่เกี่ยวข้อง (Althought สร้างซีดีบูตที่คุณจะต้อง Windows หรือโคลน Windows)
แมตต์

SpinRite มาพร้อมกับบูต (FreeDOS) .iso ภาพซึ่งคุณสามารถเผาไหม้ได้กับระบบปฏิบัติการใด ๆ ในปัจจุบัน
เดฟเชนีย์

grc.com/sr/spinrite.htmจะเป็นสถานที่ที่ดีที่จะเชื่อมโยงไปยัง
แบรดกิลเบิร์

2
ตัวอย่างผิด! ดูคำตอบของ @ CesarB - สำหรับค่านิยมส่วนใหญ่การเพิ่มขึ้นนั้นดี! ดังนั้นถ้ามันเป็น 42 ชั่วโมงที่ผ่านมาและตอนนี้มันเป็น 47 - ดี แต่ไม่ใช่วิธีอื่น ๆ
Volker Siegel

6

ค่าสูงสำหรับแอตทริบิวต์นี้ค่อนข้างดีจริง ๆ :

พารามิเตอร์ SMART ที่ได้รับการกู้คืนของฮาร์ดแวร์ ECC ระบุเวลาระหว่างข้อผิดพลาดที่แก้ไขโดย ECC

https://kb.acronis.com/content/9131


2
เพิ่มสิ่งที่ฉันเชื่อว่าเป็นคำพูดที่สำคัญ
Robert Klemme

ตอนนี้เหมาะสมแล้วแม้ว่าทรัพยากรที่เชื่อมโยงจะหายไป ขอบคุณโรเบิร์ต
ลูกไก่

4

ก่อนอื่นค่าที่ต่ำกว่านั้นแย่กว่าสำหรับ SMART ไม่ใช่ค่าที่สูงกว่า (สังเกตว่าคอลัมน์เกณฑ์ต่ำกว่าค่าปัจจุบันเสมอ) ดังนั้นการเพิ่มมูลค่าจึงไม่ต้องกังวล (กฎนี้ใช้ไม่ได้กับค่าวัตถุดิบ)

ค่าสมาร์ทมีแนวโน้มที่จะแกว่งไปมาเล็กน้อย (ตัวอย่างเช่นคุณอาจอยู่ในขอบระหว่าง 46 และ 47 เป็นต้นดังนั้นแม้การเปลี่ยนแปลงเล็กน้อยอาจทำให้พลิกไปเป็นค่าอื่นได้)

smartctl -aผลลัพธ์ของคุณแสดงว่าค่านี้เลวร้ายที่สุดคือ 45 ดังนั้นจึงแกว่งไปมาเหนือปกติเล็กน้อย

สำหรับข้อมูลเพิ่มเติมโปรดดูที่วิกิพีเดีย: แอตทริบิวต์ ATA สมาร์ท


3

โปรดทราบว่าแม้การศึกษาอย่างกว้างขวางที่ Google ดำเนินการพบว่ามีความล้มเหลวของไดรฟ์จำนวนมากที่ไม่สามารถคาดการณ์ได้จากข้อผิดพลาด SMART อาจเป็นไปได้ว่าสิ่งที่คุณเห็นเป็นเรื่องปกติอย่างสมบูรณ์แบบ แต่เนื่องจากผู้ผลิตแต่ละรายมีตัวชี้วัดที่แตกต่างกันสำหรับการแปลงค่าดิบเป็นค่าที่รายงานจึงเป็นการยากที่จะบอกว่าแน่นอนว่าไดรฟ์ของคุณ อย่างไรก็ตามจำนวนดิบที่มีขนาดใหญ่ทำให้ฉันแปลก

ฉันอยากจะแนะนำให้อ่านไดรฟ์ทั้งหมด (dd หรือ rsync'ing ไปยังไดรฟ์ใหม่) และตรวจสอบค่า SMART ตามที่ไปพร้อมกัน หากคุณเห็นหมายเลขดิบหรือค่าที่รายงานเปลี่ยนจำนวนมากฉันจะเริ่มมองหาเพื่อแทนที่ไดรฟ์


ฮะ. มันค่อนข้างเจ๋งที่จะให้ ZFS ติดตามคุณสมบัติ SMART กับรูปแบบการใช้งานของมันเอง
i336_

1

ไม่มีอะไรผิดปกติกับมัน

คุณสามารถเรียกใช้

smartctl -t long /dev/yourdrive

หลังจากนั้นสองสามชั่วโมงก็สอบถามผลลัพธ์

smartctl -a /dev/yourdrive

เพียงเพื่อให้แน่ใจ


1

IIRC Hardware ECC ที่กู้คืนมาคือการแก้ไขข้อผิดพลาดในการอ่านดิสก์ซึ่งไม่ใช่เรื่องแปลกสำหรับดิสก์และพวกเขาเข้ารหัสข้อมูลด้วยกลไกการแก้ไขข้อผิดพลาดด้วยเหตุผลนี้ คอนโทรลเลอร์บางตัวยังสนับสนุนข้อมูลที่ซ้ำซ้อนในเซ็กเตอร์ดิสก์และเพิ่มเลเยอร์การแก้ไขข้อผิดพลาดอีกชั้นหนึ่ง

ในฐานะที่เป็นเดฟเชนีย์ส์รัฐควรตรวจสอบตัวเลขเมื่อเวลาผ่านไป การเปลี่ยนแปลงที่รุนแรงในสถิติเหล่านี้บ่งชี้ถึงความล้มเหลวของไดรฟ์ นอกจากนี้จับตาดูรายการข้อบกพร่องที่โตขึ้น - หากรายการข้อบกพร่องที่เริ่มเติบโตขึ้นหรือสถิติของ SMART เริ่มเปลี่ยนไปอย่างมีนัยสำคัญคุณควรป้องกันการเปลี่ยนไดรฟ์


1
lol, ป้องกันล่วงหน้า
Dave Cheney
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.