ฮาร์ดไดรฟ์ของฉันล้มเหลวหรือไม่


41

ฉันพยายามทดสอบ hdd ของฉันและไม่ต้องการทำการทดสอบด้วยตนเอง นี่คือผลลัพธ์:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

ดังนั้นดิสก์นี้จึงล้มเหลว


เมื่อฉันใช้เครื่องมือกราฟิกมันบอกว่าการทดสอบตัวเองล้มเหลว
Michel

3
read failureข้อความที่เกิดซ้ำมักจะระบุดิสก์ที่ล้มเหลวดังนั้นใช่ ...
HBruijn

23
Michel ยินดีต้อนรับสู่ SF และขอบคุณสำหรับคำถามแรกที่ดี ดังที่คุณอาจเห็นว่าคุณตัดสินใจที่จะอยู่รอบ ๆ ส่วนเหล่านี้ (ซึ่งฉันหวังว่าคุณจะ) คำถามแรกที่ดีคือสิ่งที่หายากและมีค่า คุณมีสมมติฐานที่เหมาะสมกับไซต์ ( "HDD ของฉันล้มเหลว ") คุณพบเครื่องมือที่เกี่ยวข้องและเรียนรู้วิธีใช้งาน แต่ต้องการความช่วยเหลือในการตีความผลลัพธ์ ดังนั้นคุณมาที่นี่ให้ข้อมูลที่เกี่ยวข้องกับเราทั้งหมดไม่มีขยะมากเกินไปและถามคำถามที่เป็นรูปแบบของความกระชับ ขอบคุณ - กรุณาอยู่รอบ ๆ !
MadHatter สนับสนุนโมนิก้า

3
+1: คำถามแรกที่ยอดเยี่ยม เพื่อให้ได้ประโยชน์สูงสุดจากความผิดพลาดของเซิร์ฟเวอร์โปรดลงทะเบียนบัญชีของคุณและตรวจสอบเว็บไซต์อื่น ๆ ในเครือข่ายStack Exchange เราหวังว่าจะเห็นคุณมีส่วนร่วมในเนื้อหาที่มีคุณภาพสูงยิ่งขึ้นไปยัง Stack Exchange
bwDraco

คำตอบ:


43

ไดรฟ์ของคุณมีความสุขมากที่จะทำการทดสอบตัวเอง จากการสรุปก็ทำได้มากกว่าห้าคนในชั่วโมงที่ผ่านมา และพวกเขาทั้งหมดล้มเหลวในช่วงต้นของการทดสอบโดยมีข้อผิดพลาดในการอ่าน

ใช่ฮาร์ดไดรฟ์นี้ล้มเหลว ตามรายงานของ Google Labs ที่มีชื่อเสียงกล่าวว่า (แม้ว่าฉันจะไม่สามารถเชื่อมโยงไปยังลิงค์นั้นได้ในขณะนี้) หากว่าsmartctlไดรฟ์ของคุณล้มเหลวอาจเป็นได้ (ฉันแปลความหมาย)

แก้ไข : อย่าพยายามบันทึก รับข้อมูลทั้งหมดออกแล้วแทนที่


9
ถ้ามันล้มเหลวก็ล้มเหลว การซ่อมแซมอาจเป็นไปได้ในทางเทคนิค แต่ไม่น่าเป็นไปได้อย่างมากที่จะคุ้มค่าเมื่อเทียบกับราคาของไดรฟ์ใหม่
Sobrique

7
@Michel การขาดของความผิดพลาดการทดสอบตัวเองไม่ได้เป็นข้อพิสูจน์ว่าไดรฟ์ไม่ได้ล้มเหลวเศร้า แต่การปรากฏตัวของความผิดพลาดการทดสอบตัวเองควรได้รับการพิจารณาหลักฐานว่ามันเป็นความล้มเหลว
Rob Moir

1
@Michel: คุณสามารถลองเปลี่ยนสายเคเบิลได้ บางครั้งไดรฟ์อาจล้มเหลวไม่ใช่เพราะปัญหาในไดรฟ์ แต่เนื่องมาจากพลังงานที่ไม่ดีหรือสายเคเบิลข้อมูล
Thomas Padron-McCarthy

1
@ JorgeNerín: ฉันคิดว่าคุณทำคะแนนได้ดี แต่หลักฐานคือทั้งฉันและ OP เข้าใจแล้ว - OP ต้องเพราะเขาได้เริ่มต้นอย่างน้อยห้าคนในสองชั่วโมงที่ผ่านมา สำหรับการทดสอบฉันเห็นด้วยกับคุณว่าการทดสอบที่ยาวนานนั้นจะเป็นตัวบ่งชี้ที่ดีกว่าว่าไดรฟ์นั้นดีต่อสุขภาพ แต่เมื่อมันล้มเหลวทั้งการทดสอบระยะสั้นและการทดสอบใน 10% แรกของไดรฟ์ฉันคิดว่าเราอาจสรุปได้ว่า การถ่ายภาพ สิ่งใดที่คุณหวังว่าจะได้รับการเปิดเผยจากการทดสอบที่ครอบคลุมมากขึ้น?
MadHatter สนับสนุนโมนิก้า

2
@ JorgeNerín <grin> ดูสมเหตุสมผล! ฉันพูดอย่างนั้นเพราะ OP เริ่มต้นโดยการเปลี่ยนรูปร่างของมนุษย์: " ฉันแค่พยายามทดสอบ hdd ของฉันและไม่ต้องการทดสอบตัวเอง " ฉันไม่คิดว่าพวกเราคนใดคนหนึ่งคิดว่าไดรฟ์ยังมีชีวิตอยู่และไม่ได้กำหนดเวลาทดสอบด้วยตนเอง!
MadHatter สนับสนุน Monica

10

เพื่อตอบคำถามของคุณการทดสอบ SMART ที่ล้มเหลวเป็นตัวบ่งชี้ที่แน่นอนว่าเกิดความล้มเหลวของไดรฟ์ คุณควรสำรองข้อมูลและเปลี่ยนไดรฟ์โดยเร็วที่สุดเพื่อป้องกันข้อมูลสูญหาย

@ sj0h พูดถึงจำนวนรอบการโหลดซึ่งสูงมากที่ 447,630 (ฮาร์ดไดรฟ์รุ่นใหม่ส่วนใหญ่ได้รับการออกแบบให้ทนต่อการโหลด / ขนถ่าย 600,000 รอบ) โดยทั่วไปเกิดจากคุณสมบัติการจัดการพลังงานขั้นสูง (APM) ซึ่งพยายามประหยัดพลังงานด้วยการจอดรถไว้ที่หัว ว่าง หัวจะถูกโหลดกลับเข้าสู่จานเมื่อจำเป็น ในระบบส่วนใหญ่ที่ฮาร์ดไดรฟ์ได้รับเป็นระยะ ๆ กิจกรรมเปิดและปิดซึ่งอาจทำให้เกิดโหลด / ยกเลิกการโหลดจำนวนมาก หากต้องการปิด APM ให้เรียกใช้คำสั่งต่อไปนี้ที่พร้อมต์รูท:

smartctl -s apm,off /dev/sda

คำสั่งนี้จะต้องเรียกใช้ในแต่ละครั้งที่ระบบมีการสิ้นเปลืองพลังงานหรือเข้าสู่โหมดสลีปหรือไดรฟ์ปิดอยู่เนื่องจากการตั้งค่านี้จะไม่ถูกเก็บไว้เมื่อปิดไดรฟ์

จากประสบการณ์ของฉันการทำเช่นนี้จะช่วยลดจำนวนรอบการโหลด / ยกเลิกการโหลดลงอย่างมากดังนั้นโอกาสที่คุณจะประสบกับความล้มเหลวประเภทนี้อีกครั้งในอนาคต อย่างไรก็ตามโปรดทราบว่าการทำเช่นนี้จะเพิ่มการใช้พลังงานและอุณหภูมิของไดรฟ์ หากไดรฟ์ทำงานที่อุณหภูมิเกินกว่า 50 ° C อย่างต่อเนื่องความเสี่ยงของความล้มเหลวก่อนวัยอันควรจะเพิ่มขึ้นดังนั้นคุณอาจต้องการเปิด APM (หรือเปิดหากปิด) ในช่วงเดือนที่อากาศอบอุ่น


2

นอกเหนือจากความล้มเหลวในการอ่านให้พิจารณาจำนวนรอบการโหลด ที่เกือบ 500,000 สิ่งนี้อาจบ่งบอกถึงสาเหตุของความล้มเหลวหรืออย่างน้อยก็รอบการโหลดสูง มีรอบการโหลดสำหรับทุกนาทีของการใช้พลังงาน หลังจากที่คุณเปลี่ยนไดรฟ์ตรวจสอบให้แน่ใจว่าไดรฟ์ใหม่ไม่สามารถทำได้เช่นกัน


การสังเกตที่ดีมาก วิธีการหนึ่งอาจวินิจฉัยว่าทำไมไดรฟ์หมุนและสำรองทุกนาที?
dotancohen

@dotancohen ดูคำตอบของฉัน - APM คือการตำหนิ
bwDraco

2

ใช่คุณมี 16 ภาคที่อ่านไม่ได้คุณได้ลองทำการทดสอบหลายอย่างที่ทุกอย่างล้มเหลวในพื้นที่เดียวกันของไดรฟ์ดังนั้นสำรองอย่างรวดเร็ว แต่โปรดทราบว่าคุณมีข้อมูลที่ไม่สามารถเข้าถึงได้แล้วโดยอยู่ในบริเวณใกล้เคียง ภาค 92290592, 92290596

คุณอาจมีพื้นที่ที่มีปัญหาอื่น ๆ คุณยังไม่ทราบว่าภาค 16 เหล่านั้นต่อเนื่องกันหรือแพร่กระจายถ้าคุณต้องการเล่นหลังจากการสำรองข้อมูลคุณสามารถทำการทดสอบตัวเองแบบเลือกได้ด้วย -t select, startlba-endlba

Current_Pending_Sector หมายความว่าเฟิร์มแวร์ของฮาร์ดดิสก์พยายามอ่าน แต่ไม่สามารถลองได้อีกสองสามครั้ง (เมื่อใดก็ตามที่ระบบปฏิบัติการขอ) จนกว่าจะล้มเหลวและทำเครื่องหมายเป็น Offline_Uncorrectable หรือจะแทนที่เซกเตอร์ที่เสียหายสำหรับภาคอะไหล่อื่นหาก OS เขียนลงไป (เพิ่ม Reallocated_Sector_Ct เมื่อทำเช่นนั้น)


1

ส่วนตัวฉันจะเปลี่ยนไดรฟ์ หากคุณไม่ต้องการทำเช่นนั้นด้วยเหตุผลบางอย่าง แต่ยังคงต้องใช้เวลาสักครู่คุณจะต้องมีวิธีที่จะทำให้แน่ใจว่าคุณจะไม่ใช้พื้นที่ที่ไม่ดีสำหรับไฟล์ใหม่โดยไม่ตั้งใจ

ฉันมีไดรฟ์ในเครื่อง Mac เครื่องเก่าที่เพิ่งบันทึกวิดีโอและตัดสินใจว่าฉันยังไม่ต้องการเปลี่ยนเพราะเป็นวิดีโอที่ดีที่มี ดังนั้นฉันต้องแยกข้อผิดพลาด ก่อนอื่นฉันสร้างโฟลเดอร์เปล่าเฉพาะไฟล์ที่ไม่ดีจากนั้นฉันพยายามอ่านไฟล์ที่มีอยู่ทั้งหมดบนดิสก์และไฟล์ที่มีข้อผิดพลาดถูกย้ายไปยังไดเรกทอรีไฟล์ที่ไม่ดี (หวังว่าจะไม่สำคัญเท่านั้น)

จากนั้นฉันก็สร้างชื่อไฟล์หนึ่งเมกะไบต์ขึ้นมาหนึ่งตัวเพื่อเติมฮาร์ดไดรฟ์ (ดังนั้นพื้นที่ว่างทั้งหมดตอนนี้เป็นหนึ่งในไฟล์ 1 MB เหล่านี้) จากนั้นทำซ้ำขั้นตอน ไฟล์ทั้งหมดที่มีข้อผิดพลาดถูกย้ายไปยังไดเรกทอรีไฟล์ที่ไม่ดีและไฟล์ที่เหลืออยู่ในระดับที่ดีและสามารถลบออกเพื่อเรียกคืนพื้นที่ที่ไม่ดีได้

ตอนนี้คุณสามารถใช้ไดรฟ์ได้นานขึ้น แต่ไม่ควรใช้กับสิ่งที่สำคัญ มันจะล้มเหลวมากขึ้นและจะไม่สะดวกเมื่อมันเกิดขึ้น


1

นี่ไม่ใช่สัญญาณที่ดีมาก คุณควรตรวจสอบให้แน่ใจว่าเนื้อหาของดิสก์สำรองอยู่และไม่ใช้ดิสก์สำหรับสิ่งที่สำคัญ

อย่างไรก็ตามฉันได้เห็นดิสก์ที่มีเซกเตอร์ที่ล้มเหลวซึ่งทำการจัดสรรใหม่และยังคงใช้งานได้เป็นเวลาหลายปีดังนั้นคุณสามารถเก็บมันไว้ได้ชั่วคราวเช่นสำหรับสิ่งที่ไม่สำคัญหรือการสำรองข้อมูลเพิ่มเติม

สิ่งหนึ่งที่ต้องทำคือดูว่าไฟล์ใดที่เซกเตอร์เสียหายโดยที่อ่านไม่ได้และเขียนไปที่เซกเตอร์เหล่านี้เพื่อบังคับให้ทำการจัดสรรใหม่โดยดิสก์ (ย้ายไฟล์จาก " ถ้าใช้ลินุกซ์ดูhttp://smartmontools.sourceforge.net/badblockhowto.html เมื่อภาคได้รับการจัดสรรใหม่การทดสอบตัวเองควรผ่านหรือรายงานภาคที่อ่านไม่ได้มากขึ้น

ฉันไม่เห็นด้วยกับคำตอบส่วนใหญ่ที่ฉันไม่คิดว่าเซกเตอร์เสียนั้นจำเป็นต้องบ่งบอกถึงความล้มเหลวที่ใกล้เข้ามา ในฐานะที่เป็นhttp://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/กล่าวว่า "ฮาร์ดไดรฟ์ทุกตัวเริ่มต้นสร้างเซ็กเตอร์ที่ไม่ดี ณ จุดหนึ่งในชีวิต"


ในขณะที่ฉันยอมรับว่าความล้มเหลวไม่แน่นอนเมื่อเกิดเซกเตอร์เสีย แต่โอกาสของผู้ขับขี่ที่ล้มเหลวหลังจากเซกเตอร์เสียหนึ่งเพิ่มขึ้นอย่างมาก (ฉันคิดว่ามันอยู่ในรายงาน google เช่นกัน แต่ฉันไม่สามารถหาแหล่งที่แท้จริงได้ในปัจจุบัน)
Dennis Nolte
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.