สมาร์ทตัวนี้บ่งชี้ว่าไดรฟ์ที่ล้มเหลวหรือไม่?


10

ฉันสงสัยว่าผลลัพธ์ของตัวสมาร์ทตัวนี้บ่งชี้ว่าไดรฟ์ที่ล้มเหลวนี่เป็นไดรฟ์ตัวเดียวที่มาพร้อมกับ 'เสร็จสมบูรณ์: อ่านความล้มเหลว' ในผลลัพธ์

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

ไดรฟ์ยังไม่แสดงสัญญาณของความล้มเหลวนอกเหนือจากผลลัพธ์จากสมาร์ทที่ selftest นั้น นี่คือผลลัพธ์จากไดรฟ์ที่แตกต่างกันในระบบเดียวกันซึ่งกำลังเรียกใช้สมาร์ท selftest

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2

4
มันจะมีประโยชน์มากขึ้นถ้าคุณวิ่งsmartctl -a /dev/sdeและโพสต์หัวข้อSMART Attributes Data Structureที่มีเคาน์เตอร์ดิบ โดยเฉพาะอย่างยิ่งตัวแรกที่มีRaw_Read_Error_Rateซึ่งเป็นตัวบ่งชี้ "ไดรฟ์ที่ไม่ดี" ที่ดีที่สุด (และอาจจะเป็น! 0 ในกรณีของคุณ)
Chris S

1
ที่เพิ่ม . . . . . . . . .
Jeff Welling

1
ข้อมูลที่คุณเพิ่มดูดีพอ หากไดรฟ์เป็นส่วนหนึ่งของอาร์เรย์ RAID ฉันจะไม่ต้องกังวลกับมัน คุณควรสำรองไฟล์สำคัญของคุณตั้งแต่แรก ตอนนี้เป็นเวลาที่ดีที่จะเริ่มถ้าคุณไม่
Chris S

4
@ เจฟฟ์เวลลิ่ง: ไม่ใช่คนอวดรู้เกี่ยวกับเรื่องนี้ แต่ถ้า "การสำรองข้อมูล" ของคุณอยู่ในอาเรย์ RAID ก็ไม่ใช่ "การสำรองข้อมูล" มันเป็น "สำเนา" โดยส่วนตัวถ้าเป็นฉันฉันจะแทนที่ไดรฟ์ที่สัญญาณของความล้มเหลวของไดรฟ์ สำหรับค่าใช้จ่ายเล็ก ๆ น้อย ๆ ที่มีแม้กระทั่งการขับที่ดีในทุกวันนี้การประกันภัยก็คุ้มค่า นอกจากนี้ฉันเพิ่งพบกับความล้มเหลวของไดรฟ์สองตัวในอาร์เรย์เดียวกัน (RAID10) ในวันเดียวกัน ออกมาจาก 6 ที่อยู่ในอาร์เรย์ FWIW
เคนดัลล์

1
@ เคนดัลล์ฉันคิดว่าเขาหมายถึงอาร์เรย์ที่ใช้สำหรับการสำรองข้อมูลและต้นฉบับอยู่ที่อื่น หากเป็นเช่นนั้นฉันจะมีโอกาสเพราะมันไม่น่าเป็นไปได้ที่ไดรฟ์สองตัวจะล้มเหลว (เว้นแต่เป็นไดรฟ์ใหม่การตายของทารกเป็นปัญหาที่พบบ่อยและการเบิร์นอินเป็นวิธีปฏิบัติทั่วไปในอาร์เรย์ขนาดใหญ่)
Chris S

คำตอบ:


8

หวังว่าคุณจะใช้เวลานานในการเปลี่ยนไดร์ฟ แต่เนื่องจากยังไม่มีใครตอบคำถามโดยตรง ...

คุณรันการทดสอบสองครั้งซึ่งทั้งสองอย่างไม่สามารถอ่านเซกเตอร์ตรรกะเดียวกันของดิสก์ได้ตามที่ระบุโดยCompleted: read failureและ LBA เดียวกันในการทดสอบทั้งสอง นี่เป็นการระบุว่าดิสก์มีข้อบกพร่องและคุณควรจะเปลี่ยนได้ภายใต้การรับประกัน ความพยายามในการจัดเก็บข้อมูลในส่วนนี้อาจหรือไม่อาจทำให้ไดรฟ์สังเกตเห็นว่ามีข้อบกพร่องในระหว่างกระบวนการเขียนและทำการแมปเซกเตอร์ใหม่ แต่ถ้าไดรฟ์ไม่สังเกตเห็นและไม่สามารถอ่านข้อมูลในภายหลังได้ มัน.


4

ข้อมูลของคุณมีค่าที่จะเสี่ยงต่อไดร์ฟที่ต้องสงสัยหรือไม่

ถ้าเป็นฉันฉันจะเปลี่ยนไดรฟ์และขอบคุณที่สมาร์ทช่วยฉันปวดหัวใหญ่


นอกจากนี้ฉันอย่างน้อยที่สุดการติดตั้งสคริปต์ cron เพื่อเรียกใช้สมาร์ทสัปดาห์ละครั้งในไดรฟ์ของคุณแล้วให้มันส่งผลลัพธ์ในรายงานหรืออีเมลถึงคุณในแต่ละสัปดาห์เพื่อให้คุณสามารถระบุได้ล่วงหน้า ไดรฟ์ใดที่อาจอยู่บนขาสุดท้ายของพวกเขาเพื่อหลีกเลี่ยงการกู้คืนจากความล้มเหลวและต้องกู้คืนจากการสำรองข้อมูล ง่ายกว่าถ้าคุณมีหลายเครื่องกำลังใช้เครื่องมือตรวจสอบเช่น Nagios หรือ Munin
Wilshire

5
ง่ายกว่าที่จะทำเมื่อคุณรู้ว่าสมาร์ทเอาท์พุทบ่งชี้ถึงไดรฟ์ที่ล้มเหลวมันยากที่จะบอกว่าทำอะไรและไม่ได้ระบุว่าเป็นไดรฟ์ที่ล้มเหลว
Jeff Welling

4

ฉันต้องการที่จะเพิ่มความคิดเห็นในคำตอบอื่น ๆ แต่ฉันไม่สามารถเนื่องจากการขาดตัวแทนไปคิด

คุณไม่จำเป็นต้องสร้างสคริปต์ cron มีsmartd daemonในแพ็คเกจ smartmontools ที่จัดการสิ่งที่คุณต้องการ: ตรวจสอบสถานะ SMART เป็นประจำ สิ่งที่คุณต้องทำก็คือสร้างการกำหนดค่าและเริ่มบริการ แพ็คเกจ smartmontools ยังมีสคริปต์ตัวอย่างบางส่วนที่ smartd สามารถเรียกใช้เมื่อมีบางอย่างเริ่มต้นล้มเหลว


ฉันไม่ได้ใช้สคริปต์ cron ฉันใช้ smartd daemon มันแยกบันทึกในบันทึกของระบบฉันสังเกตเห็นบางบรรทัดที่ปกติฉันไม่เห็นในไดรฟ์อื่นและลองใช้ตัวเองซึ่งเมื่อฉันตรวจสอบว่าล้มเหลว ฉันไม่เคยเห็นความล้มเหลวแบบนี้มาก่อนดังนั้นฉันคิดว่าคนที่นี่อาจมี เอาต์พุต syslog ของ smartd นั้นค่อนข้างคลุมเครือถ้าคุณไม่มีประสบการณ์มากมายมันไม่ได้บอกคุณอย่างแน่นอนว่า "Drive X กำลังจะตายและจำเป็นต้องเปลี่ยน" แม้ว่ามันจะดีถ้ามันทำ :)
Jeff Welling

2

ฉันจะทำอย่างไรในสถานการณ์ของคุณ?

ก่อนอื่นฉันพบไฟล์ที่ได้รับผลกระทบ มีคำแนะนำวิธีการทำ http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 นี้ ในกรณีของคุณมันยากกว่าเพราะคุณมีอาร์เรย์ แต่มันเป็นไปได้ กว่าให้แน่ใจว่าไฟล์นี้ถูกสำรองข้อมูลมากกว่าเขียนเลขศูนย์ลงในเซกเตอร์ที่ล้มเหลว สองสิ่งสามารถเกิดขึ้นได้ 1. ไดรฟ์เขียนเลขศูนย์ไปยังเซกเตอร์นี้เรียบร้อยแล้ว Current_Pending_Sector, Reallocated_Sector_Ct ควรเป็นศูนย์หลังจากนั้น 2. ไดรฟ์ไม่สามารถเขียนไปยังเซกเตอร์นี้ได้ กว่าที่จะทำการแมปภาคนี้ไปยังพื้นที่ "ว่าง"

ไม่ว่าในกรณีใด ๆ คุณจะต้องใช้ไดรฟ์แบบตายตัว คุณควรกู้คืนไฟล์ของคุณจากการสำรองข้อมูล (เพราะคุณเขียนทับหนึ่งภาคของมัน) นอกจากนี้คุณควรรันการทดสอบตัวเองอีกครั้งเพื่อให้แน่ใจว่าไม่มีข้อผิดพลาดอีกต่อไป

รักษาสุขภาพให้แข็งแรง!

ป.ล. ฉันรู้ว่าโพสต์นี้เก่า แต่ฉัน goolged มัน และฉันคิดว่ามันเป็นความคิดที่ดีที่จะให้คำตอบที่ดีอีก


1
ข้อมูลที่มีประโยชน์! จะลองตอนนี้
kerridge0

0

ไดรฟ์มีแนวโน้มที่จะออกไป การไม่สามารถอ่านจากส่วนหนึ่งของไดรฟ์เป็นเงื่อนไขความล้มเหลวได้อย่างแน่นอนและเป็นไปได้ที่จะเกิดขึ้นได้โดยไม่ต้องมีอาการดิสก์อื่น ๆ สิ่งประเภทนี้ไม่ปกติชั่วคราว ไม่มีสัญญาณอื่นใดที่แสดงว่ามันอาจเป็นหัวที่อ่อนแอปัญหาการจัดตำแหน่งเล็กน้อยมากหรือพื้นที่ที่มีข้อบกพร่องบนแผ่นเสียง (รูปทรงกระบอก?)

อีกทางเลือกหนึ่งคือมีข้อผิดพลาด SMART; คุณไม่ต้องการเรียกใช้ไดรฟ์ที่มีเฟิร์มแวร์ buggy จริงๆ

เมื่อใดก็ตามที่คุณเห็นข้อผิดพลาดจาก SMART มันเป็นสัญญาณที่ดีว่าคุณควรได้รับไดรฟ์ใหม่เพื่อหลีกเลี่ยงการสูญเสียข้อมูล มันมีวัตถุประสงค์เพื่อเป็นระบบเตือนภัยล่วงหน้าบางส่วน


0
  • สำรองข้อมูลโดยเร็วที่สุด!

  • หากไดร์ฟนี้ยังอยู่ในการรับประกัน

    • เรียกใช้ utitity ตรวจสอบของผู้ขาย (โดยปกติคุณจะได้รับ boot cd)
    • ถ้านี่กลับข้อผิดพลาดแล้วบิงโกส่งมันกลับมาและรอการเปลี่ยน
    • เรียกคืนจากการสำรองข้อมูล
    • การแก้ไขปัญหา - สิ้นสุด

  • หากไดรฟ์นี้ไม่มีการรับประกันคุณจะถูกเมา
    • ยังมีความหวังอยู่ ...
    • เนื่องจากนี่เป็นข้อผิดพลาดในการอ่านเท่านั้นไม่ได้หมายความว่าคุณไม่สามารถเขียนได้
    • หลังจากทำการสำรองข้อมูลคุณสามารถลองกู้คืนการสำรองข้อมูลได้เพราะมันจะเขียนทับส่วนที่ไม่สามารถอ่านได้ด้วยข้อมูลใหม่ซึ่งคุณสามารถอ่านได้จริง )
    • badblocks ยังสามารถใช้เครื่องมือนี้ได้ (คุณมีการสำรองข้อมูลใช่ไหม)
      • คุณไม่ได้ใช้สิ่งนี้ในการทดสอบดิสก์ (ไม่สมเหตุสมผลกับดิสก์ใด ๆ เลย) แต่เพื่อเขียนไปยังเซกเตอร์เหล่านี้หลาย ๆ ครั้ง
    • คุณสามารถเรียกใช้การทดสอบอัจฉริยะอีกครั้งและมีโอกาสที่ภาคที่อ่านไม่ได้เหล่านี้ "แก้ไขตัวเอง"
    • ปัญหาไม่ได้รับการแก้ไขคุณทำเพียงไดรฟ์นานกว่านั้นอาจจะล้มเหลวเร็วกว่าปกติในหนึ่งปีขึ้นอยู่กับการใช้งาน แต่ดิสก์เฮ้มีราคาถูกรับใหม่ถ้าข้อมูลของคุณสำคัญสำหรับคุณ - END

1
ฮาร์ดไดรฟ์สมัยใหม่ (เช่นตั้งแต่ช่วงเปลี่ยนศตวรรษ) ไม่ทำงานตามที่คุณอธิบายไว้ในส่วน "ไม่มีการรับประกัน"
Chris S

3
เริ่มต้นด้วยBad Sector วิกิพีเดียบทความ ฮาร์ดไดรฟ์นามธรรมที่อยู่เซกเตอร์ตรรกะและแมปไปยังเซกเตอร์ที่เชื่อว่าดี ยูทิลิตีของผู้จำหน่ายบางราย (บางครั้งเป็นสมาร์ทขึ้นอยู่กับไดรฟ์ที่เปิดเผย) สามารถรายงานเกี่ยวกับเซกเมนต์ที่แมปใหม่ ตรวจพบส่วนที่ไม่ดีในการดำเนินการเขียนตามปกติ โดยปกติเมื่อเขียนแล้วจะสามารถอ่านได้อีกครั้ง เป็นการดำเนินการเขียนเริ่มต้นที่มักล้มเหลวในเซกเตอร์เสีย เมื่อเซกเตอร์ไม่ดีมันไม่ดีตลอดไปไม่มี "แก้ไข" มัน
Chris S

1
ฉันคิดว่าฉันไม่ได้พูดอะไรที่ขัดกับสิ่งที่คุณพูด แต่ฉันชี้แจงเล็กน้อยเพื่อให้ "ถูกต้องทางเทคนิค" มากขึ้น
cstamas

2
ไม่แน่ใจว่าทำไมคนโหวตคำตอบของคุณลงมาก ฉันคิดว่าคุณเป็นจุด ผู้คนอาจเข้าใจผิดว่าคุณกำลังผลักดันให้เกิดการขับเคลื่อนที่ไม่สม่ำเสมอ แต่เมื่อพิจารณาจาก OP เป็นผู้ใช้ตามบ้านค่าใช้จ่ายสำหรับไดรฟ์ใหม่อาจเป็นปัญหาได้แม้ในราคาปัจจุบัน ฉันรู้ว่านี่เป็นคำถามที่ค่อนข้างเก่า แต่อย่างน้อยคุณจะได้รับ +1 ;)
Markus A.

2
@cstamas: สามารถยอมรับได้ว่าคำตอบของคุณนั้นตรงจุด - หากไดรฟ์ยังมีชีวิตอยู่badblocks -w(การเขียน 3x, การอ่าน 3x) โดยไม่ต้องสร้างเซกเตอร์เสียใหม่ฉันจะเก็บมันไว้ มิฉะนั้นจะใช้งานไม่ได้
mt_
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.