ทำไมผู้ผลิตต่างกันถึงมีค่าสมาร์ทต่างกัน


23

ครั้งแรกของทั้งหมดผมคิดว่าทุกคนรู้ว่าฮาร์ดไดรฟ์ล้มเหลวมากขึ้นกว่าที่ผู้ผลิตต้องการที่จะยอมรับ Google ทำการศึกษาซึ่งบ่งชี้ว่าคุณลักษณะข้อมูลดิบบางอย่างที่สถานะ SMART ของรายงานฮาร์ดไดรฟ์สามารถมีความสัมพันธ์อย่างมากกับความล้มเหลวในอนาคตของไดรฟ์

ตัวอย่างเช่นเราพบว่าหลังจากข้อผิดพลาดในการสแกนครั้งแรกไดรฟ์มีแนวโน้มที่จะล้มเหลว 39 ครั้งภายใน 60 วันกว่าไดรฟ์ที่ไม่มีข้อผิดพลาดดังกล่าว ข้อผิดพลาดครั้งแรกในการจัดสรรใหม่การจัดสรรใหม่แบบออฟไลน์และการนับเชิงปริมาณมีความสัมพันธ์อย่างมากกับความน่าจะเป็นของความล้มเหลวที่สูงขึ้น แม้จะมีความสัมพันธ์ที่แข็งแกร่งเหล่านี้เราพบว่ารูปแบบการทำนายความล้มเหลวตามพารามิเตอร์ SMART เพียงอย่างเดียวนั้นมีแนวโน้มที่จะถูก จำกัด อย่างรุนแรงในความแม่นยำในการทำนายของพวกเขาเนื่องจากไดรฟ์ที่ล้มเหลวส่วนใหญ่ของเรา

Seagate ดูเหมือนว่ากำลังพยายามปิดบังข้อมูลนี้เกี่ยวกับไดรฟ์ของพวกเขาโดยอ้างว่ามีเพียงซอฟต์แวร์ของพวกเขาเท่านั้นที่สามารถกำหนดสถานะที่ถูกต้องของไดรฟ์ได้และวิธีการที่ซอฟต์แวร์ของพวกเขาจะไม่บอกค่าข้อมูลดิบ Western Digital ไม่ได้อ้างสิทธิ์ในความรู้ของฉัน แต่เครื่องมือการรายงานสถานะของพวกเขาไม่ปรากฏขึ้นเพื่อรายงานค่าข้อมูลดิบเช่นกัน

ฉันใช้ HDtune และ smartctl จาก smartmontools เพื่อรวบรวมค่าข้อมูลดิบสำหรับแต่ละแอตทริบิวต์ ฉันพบว่าจริง ๆ แล้ว ... ฉันกำลังเปรียบเทียบแอปเปิ้ลกับส้มเมื่อพูดถึงคุณลักษณะบางอย่าง ฉันได้พบตัวอย่างเช่นไดรฟ์ซีเกทส่วนใหญ่จะรายงานว่าพวกเขามีข้อผิดพลาดในการอ่านหลายล้านในขณะที่ดิจิตอลตะวันตก 99% ของเวลาแสดง 0 สำหรับข้อผิดพลาดในการอ่าน ฉันยังพบว่า Seagate จะรายงานข้อผิดพลาดในการค้นหาหลายล้านรายการในขณะที่ Western Digital มักจะรายงาน 0

ถาม : ฉันจะทำให้ข้อมูลนี้เป็นมาตรฐานได้อย่างไร Seagate ผลิตข้อผิดพลาดนับล้านในขณะที่ Western Digital ไม่ได้ทำอะไรเลยเหรอ? บทความของ Wikipedia เกี่ยวกับสถานะSMARTกล่าวว่าผู้ผลิตมีวิธีการรายงานข้อมูลที่แตกต่างกัน

นี่คือสมมติฐานของฉัน:

ฉันคิดว่าฉันพบวิธีที่จะทำให้ปกติเป็นข้อมูลที่ถูกต้องหรือไม่

ไดรฟ์ซีเกทมีคุณสมบัติเพิ่มเติมที่ไดรฟ์ Western Digital ไม่มี (กู้คืนฮาร์ดแวร์ ECC) เมื่อคุณลบจำนวนการอ่านข้อผิดพลาดออกจากการนับ ECC ที่กู้คืนแล้วคุณอาจท้ายด้วย 0 ซึ่งน่าจะเทียบเท่ากับ Western Digitals ที่รายงานการนับ "อ่านข้อผิดพลาด" ซึ่งหมายความว่า Western Digital รายงานเฉพาะข้อผิดพลาดในการอ่านที่ไม่สามารถแก้ไขได้ในขณะที่ Seagate นับจำนวนข้อผิดพลาดในการอ่านทั้งหมดและแจ้งให้คุณทราบว่าสามารถแก้ไขได้กี่ข้อ

ฉันมีไดรฟ์ Seagate ซึ่งจำนวนข้อผิดพลาดในการอ่านน้อยกว่าจำนวนที่เรียกคืนของ ECC และฉันสังเกตเห็นว่าไฟล์ของฉันจำนวนมากเสียหาย นี่คือวิธีที่ฉันได้มากับสมมติฐานของฉัน การค้นหาข้อผิดพลาดหลายล้านรายการที่ซีเกทผลิตยังคงเป็นปริศนาสำหรับฉัน

โปรดยืนยันหรือแก้ไขสมมติฐานของฉันหากคุณมีข้อมูลเพิ่มเติม

นี่คือสถานะที่ชาญฉลาดของไดรฟ์ดิจิตอลตะวันตกของฉันเพื่อให้คุณเห็นสิ่งที่ฉันกำลังพูดถึง:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

แก้ไข: นี่คือไดรฟ์ Seagate ที่ฉันพูดถึงนั่นทำให้เกิดความเสียหายของข้อมูล ข้อมูลนี้มาจาก HDTune

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

ความจริงที่ว่าฮาร์ดแวร์ ECC ที่กู้คืนมีขนาดใหญ่กว่าอัตราความผิดพลาดในการอ่านแบบ Raw นั้นนับว่าง่ายในความคิดของฉัน

นี่คือสิ่งที่ฉันพบว่าเป็นไดรฟ์ซีเกท "ปกติ" ที่การกู้คืน ECC ตรงกับอัตราข้อผิดพลาดการอ่านดิบ:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

แก้ไข:

ฉันต้องการชี้แจงว่าฉันรู้ว่าโดยทั่วไปแล้ว Google ถือว่า SMART ไร้ประโยชน์ ฉันรู้ว่าทุกคนควรสำรองข้อมูลของพวกเขา อย่างไรก็ตามฉันอยู่ในธุรกิจที่ซ่อมคอมพิวเตอร์ของคนอื่น คนส่วนใหญ่ไม่มีการสำรองข้อมูลหรือมี RAID ไม่มีค่าใช้จ่ายสำหรับองค์กรที่จะแก้ไขปัญหาฮาร์ดไดรฟ์ดังนั้นพวกเขาจึงเรียกใช้พวกเขาบน RAID จนกว่าพวกเขาจะตาย ฉันพบว่ามีประโยชน์ในสายงานของฉันเพื่อตรวจสอบสถานะ SMART ของฮาร์ดไดรฟ์ ใช้เวลาประมาณ 30 วินาที หากฉันโชคดีพอที่ไดรฟ์ที่ไม่ดีเพื่อแสดงคำใบ้ของความล้มเหลวเช่นข้อผิดพลาดในการสแกนหรือส่วนที่จัดสรรใหม่ฉันรู้ว่าจะกำจัดไดรฟ์ออกจากที่นั่นได้ หากไม่มีคำใบ้ดังกล่าวอยู่ฉันอาจใช้เวลาหลายชั่วโมงในการแก้ไขปัญหาความเชื่องช้าและข้อมูลเสียหายจนในที่สุดฉันก็พบว่าฮาร์ดไดรฟ์เสีย

ฉันแค่พยายามปรับกระบวนการนี้ให้ดี


มีข้อมูลตามสมาร์ทในเมนูการบริหารภายใต้ (ฉันเชื่อว่า) การจัดการดิสก์ มันอาจมีความสามารถเพิ่มเติมเกี่ยวกับ smartctl แต่ฉันไม่ได้ใช้มันมาซักพักแล้วก็ไม่ได้อยู่ข้างหน้าฉัน
Jarvin

@ ด่านสวัสดีแดนฉันไม่แน่ใจว่าเครื่องมือ windows ที่คุณกำลังพูดถึงอะไร คุณช่วยอธิบายได้ไหม
James T

ปัญหาของ SMART คือมันเป็นชื่อเรียกผิด ไม่มีปัญญาที่แท้จริงในนั้นเพียงไม่กี่สมการ (อาจไม่ใช่ฮิวริสติก) สิ่งที่ทำได้คือตรวจสอบตัวเองและรายงานตัวเลขนั่นคือทั้งหมด ตัวอย่างเช่นฉันมีไดรฟ์ที่มีสายไฟเชื่อมต่อไม่ดีซึ่งทำให้มันเปิดและปิดได้อย่างรวดเร็วหลายครั้ง (ทำให้เสียง "คลิกแห่งความตาย") ฉันเชื่อมต่อตัวเชื่อมต่ออีกครั้งดังนั้นจึงทำงานได้อย่างราบรื่นในขณะนี้ แต่เนื่องจากความล้มเหลวชั่วคราว (แก้ไขได้) ที่ครั้งหนึ่งจึงได้บันทึกเหตุการณ์ RRER ใน SMART อย่างถาวรทำให้ดูเหมือนว่ามันล้มเหลว
Synetech

คำตอบ:


14

ปรากฏว่าผู้ผลิตหลายรายใช้ค่าสมาร์ทสำหรับบางครั้งสิ่งที่แตกต่างอย่างสิ้นเชิงอย่างที่คุณเห็นที่นี่ :

ฮาร์ดดิสก์ของฉันใน ReadyNAS รายงานอัตราข้อผิดพลาดการอ่าน SMART Raw ที่สูงอัตราการค้นหาข้อผิดพลาดและการกู้คืนฮาร์ดแวร์ ECC ฉันควรทำอย่างไร?

Seagate ใช้ฟิลด์ SMART เหล่านี้สำหรับการนับภายในดังนั้นนี่จึงเป็นปัญหาที่ทราบกันดีของดิสก์ Seagate ค้นหาการนับผิดปกติในฟิลด์อื่น ๆ โดยเฉพาะการจัดสรร Sector Ct และการนับข้อผิดพลาด ATA

ดังนั้นเมื่อมันมาถึงคำถามที่แท้จริงของคุณ ...

หากฉันโชคดีพอที่ไดรฟ์ที่ไม่ดีเพื่อแสดงคำใบ้ของความล้มเหลวเช่นข้อผิดพลาดในการสแกนหรือส่วนที่จัดสรรใหม่ฉันรู้ว่าจะกำจัดไดรฟ์ออกจากที่นั่นได้ หากไม่มีคำใบ้ดังกล่าวอยู่ฉันอาจใช้เวลาหลายชั่วโมงในการแก้ไขปัญหาความเชื่องช้าและข้อมูลเสียหายจนในที่สุดฉันก็พบว่าฮาร์ดไดรฟ์เสีย

ฉันจะบอกว่ากฎง่ายๆคือคุณสามารถคาดหวังได้ว่าการตั้งค่า SMART นั้นจะสามารถเทียบเคียงได้กับผู้ผลิตไดรฟ์เดียวกันและอาจเป็นไดรฟ์รุ่นเดียวกันก็ได้!

ดังนั้นเมื่อคุณดูที่การวิเคราะห์จำนวนสมาร์ทโปรดจำไว้ว่า ... "จำนวนข้อผิดพลาดการลองอ่านซ้ำ" ของผู้ผลิตรายหนึ่งอาจหมายถึงบางสิ่งที่แตกต่างจากผู้ผลิตรายอื่นโดยสิ้นเชิง เศร้า แต่จริง :(


14

โอเคก่อนอื่นฉันไม่เห็นด้วยกับหลักฐานของคุณ

Google ทำการศึกษาซึ่งบ่งชี้ว่าคุณลักษณะข้อมูลดิบบางอย่างที่สถานะ SMART ของรายงานฮาร์ดไดรฟ์สามารถมีความสัมพันธ์อย่างมากกับความล้มเหลวในอนาคตของไดรฟ์

ในความเป็นจริงพวกเขาพบสิ่งที่ตรงกันข้าม:

... เราพบว่ารูปแบบการทำนายความล้มเหลวตามพารามิเตอร์ SMART เพียงอย่างเดียวมีแนวโน้มที่จะถูก จำกัด อย่างรุนแรงในความถูกต้องของการทำนายเนื่องจากส่วนใหญ่ของไดรฟ์ที่ล้มเหลวของเราไม่แสดงสัญญาณผิดพลาดใด ๆ ของ SMART

ประการที่สองเกณฑ์ SMART ไม่ได้มาตรฐาน เฟิร์มแวร์ในตัวไดรฟ์นั้นจะตั้งค่าสถานะแอตทริบิวต์ว่า "pre-failure" แต่ค่าดิบนั้นไม่มีความหมายต่อผู้ใช้ ตัวอย่างเช่นSeagate พูดว่า :

คุณลักษณะต่าง ๆ กำลังถูกตรวจสอบและวัดเทียบกับขีด จำกัด ที่แน่นอน หากมีแอตทริบิวต์ใดเกินเกณฑ์การทดสอบสถานะ SMART ทั่วไปจะเปลี่ยนจากส่งเป็นล้มเหลว

ค่า SMART ที่อาจถูกอ่านโดยซอฟต์แวร์ SMART ของ บริษัท อื่นไม่ได้ขึ้นอยู่กับวิธีการใช้ค่าภายในฮาร์ดไดรฟ์ Seagate Seagate ไม่ได้ให้การสนับสนุนโปรแกรมซอฟต์แวร์ที่อ้างว่าอ่านคุณสมบัติและขีด จำกัด ของ SMART แต่ละรายการ อาจมีความถูกต้องทางประวัติศาสตร์ในไดรฟ์รุ่นเก่า แต่ไดรฟ์ใหม่ไม่ต้องสงสัยเลยว่าจะรวมโซลูชันโซลูชันและแอตทริบิวต์ที่ใหม่กว่า

tl; dr สรุป:

ค่าสมาร์ทดิบแทบจะไม่มีความหมายเนื่องจากผู้ผลิตต่างใช้ในวิธีที่ต่างกันและมีขีด จำกัด ต่าง ๆ เป็นต้นเฟิร์มแวร์ของไดรฟ์เองจะบอกคุณเมื่ออยู่ใน "pre-failure" ... หรืออาจไม่ SMART จริง ๆ น่าเชื่อถือมาก

ทำการสำรองข้อมูลปกติ!


จากความคิดเห็นของคุณดูเหมือนว่าคุณจะไม่ได้อ่านข้อความทั้งหมด นี่คือเหตุผลที่ฉันใส่ข้อมูลพื้นหลังและคำพูดทั้งหมด คุณอ้างถึง Google แต่มีเพียงบางส่วนเท่านั้น หากคุณอ่านส่วนก่อนที่จะพูดของคุณ ... มันบอกว่าคุณลักษณะบางอย่างมีความสัมพันธ์ที่ล้มเหลวที่แข็งแกร่ง .... เช่นการจัดสรรภาคเซกเตอร์ ผู้ผลิตไม่รายงานไดรฟ์ของตนว่าอยู่ในสถานะก่อนเกิดความผิดพลาดหลังจากภาคที่จัดสรรใหม่ สิ่งนี้บ่งชี้อย่างชัดเจนว่าคุณจะได้รับการบ่งชี้ถึงสุขภาพของไดรฟ์ที่ดีขึ้นโดยดูจากข้อมูลดิบ
James T

ฉันอยากจะเพิ่มว่าไดรฟ์ซีเกทของฉันทำลายข้อมูลของฉันและค่าข้อมูลดิบนั้นแตกต่างอย่างเห็นได้ชัดจากสิ่งที่ฉันได้เรียนรู้ว่าเป็นไดรฟ์ที่มีสุขภาพดี เห็นได้ชัดว่ามีบางอย่างผิดปกติกับที่ผู้ผลิตตั้งค่าขีด จำกัด
James T

ฉันคิดว่าคุณต้องอ่านโพสต์และลิงก์ของฉันอีกครั้ง ค่าวัตถุดิบในสมาร์ทไม่ได้ตัวชี้วัดที่เชื่อถือได้ของอะไร รายงานของ Google ไม่ได้กล่าวว่า "คุณลักษณะบางอย่างมีความสัมพันธ์ที่ล้มเหลวอย่างมาก" สิ่งที่มันไม่บอกก็คือว่าแม้จะมีความจริงที่ว่า "หลังจากที่ไฟของพวกเขา RST ข้อผิดพลาดการสแกนไดรฟ์ 39 ครั้งมีแนวโน้มที่จะล้มเหลวภายใน 60 วันกว่าไดรฟ์ที่มีข้อผิดพลาดดังกล่าว" น้อยกว่า 15% ของประชากรไดรฟ์ล้มเหลวมีใด ๆข้อผิดพลาดในการสแกน มันเป็นตัวบ่งชี้ที่เชื่อถือได้หรือไม่ถ้ามันถูก 15% ของเวลา?
sml

1
@scottl ฉันไม่แน่ใจว่าคุณได้รับ 15% ของคุณจากที่ใด ฉันไม่เห็นว่าในบทความ แม้ว่าไดรฟ์ของพวกเขาเพียง 15% เท่านั้นที่มีข้อผิดพลาดในการสแกน ... พวกเขาพบว่าไดรฟ์ที่มีข้อผิดพลาดในการสแกน 39 ครั้งมีแนวโน้มที่จะล้มเหลวใน 60 วัน นี่ไม่ได้หมายความว่าไดรฟ์ของคุณจะไม่ล้มเหลวหากคุณไม่มีข้อผิดพลาดในการสแกน นี่หมายความว่าถ้าคุณมีข้อผิดพลาดในการสแกน ... ฮาร์ดไดรฟ์ที่เหลืออยู่ของคุณอาจสั้น คุณเคยมีสถิติไหม? ฉันพบว่ามันมีประโยชน์มาก
James T

1
smartmontools คำถามที่พบบ่อยพูดว่า: คุณสมบัติ SMART ดิบ (อุณหภูมิอายุการใช้งานและอื่น ๆ ) ถูกเก็บไว้ในโครงสร้างเฉพาะของผู้ขาย บางครั้งสิ่งเหล่านี้แปลก แผ่นดิสก์ของฮิตาชิ (อย่างน้อยบางตัว) จัดเก็บอายุการใช้งานในหน่วยนาทีเป็นชั่วโมงแทนที่จะเป็นชั่วโมง ดิสก์ IBM (อย่างน้อยบางส่วน) มีอุณหภูมิสามอุณหภูมิในโครงสร้างดิบไม่ใช่แค่หนึ่งอุณหภูมิ และอื่น ๆ
sml

4

ฉันไม่แน่ใจว่าคำถามที่คุณถามคืออะไร คุณดูเหมือนจะมีคำถามทั้งหมดและคำตอบสะสมเป็นหนึ่ง แต่ ...

คุณเปรียบเทียบเมตริกฮาร์ดไดรฟ์กับข้อมูลที่ได้รับจากSeaTools หรือไม่

เป็นเครื่องมือวินิจฉัยฮาร์ดแวร์มาตรฐานของ Seagate และ AFAIK เป็นเครื่องมือวินิจฉัย HDD ที่ใช้กันมากที่สุด

อย่าแปลกใจถ้าคุณพบว่าเครื่องมือรายงานผลลัพธ์ที่ไม่พึงประสงค์เกี่ยวกับคู่แข่งของพวกเขา เครื่องมือโดยทั่วไปทำงานร่วมกับ HDD ของผู้ผลิตทั้งหมด แต่นั่นไม่ได้หมายความว่าพวกเขาทำให้คู่แข่งดูดีในขณะที่ทำ

คุณไม่เคยได้ยินเรื่องตลก "99.99% ของสถิติทั้งหมดเป็นจริงยกเว้นแน่นอนสถิตินี้"


1
ใช่ ... มันค่อนข้างสับสน โดยทั่วไปฉันใส่ข้อมูลพื้นฐานทั้งหมดที่ฉันคุ้นเคยก่อนคำถามและการทดสอบและการคาดเดาทั้งหมดของฉันหลังจากคำถาม นี่คือคำถามของฉัน "ฉันจะทำให้ข้อมูลนี้เป็นมาตรฐานได้อย่างไร" โดยทั่วไป .. ฉันจะสร้างแอตทริบิวต์ข้อมูลทั้งหมดจากผู้ผลิตรายหนึ่งได้อย่างไรเช่นเดียวกับแอตทริบิวต์ข้อมูลจากผู้ผลิตรายอื่นดังนั้นฉันจึงสามารถเปรียบเทียบได้อย่างถูกต้อง
James T

@James คุณสามารถลองรวบรวมข้อมูลจากความแตกต่างให้มากที่สุดเท่าที่จะเป็นไปได้และหาว่าแต่ละวิธีจะตีความข้อมูลต่างกันอย่างไร พวกเขาทุกคนอาจรายงานข้อมูลที่ถูกต้องพวกเขาอาจตีความในลักษณะที่แตกต่างออกไปตามที่คุณต้องการ นั่นเป็นเหตุผลที่ฉันเพิ่มสถิติการอ้างอิง ... เพียงเพราะข้อมูลดีไม่ได้แปลความหมาย
Evan Plaice

2
ใช่นั่นคือสิ่งที่ฉันได้ทำ ฉันได้ตรวจสอบฮาร์ดไดรฟ์กว่า 70 แบบแตกต่างกันและความแตกต่างในการค้นหาข้อผิดพลาดและการอ่านข้อผิดพลาดเป็นคุณลักษณะที่ติดอยู่กับฉัน ฉันเดาว่าสำหรับไดรฟ์ซีเกทการอ่านข้อผิดพลาดมีความสัมพันธ์กับฮาร์ดแวร์ ecc ที่กู้คืนมา ฉันไม่แน่ใจว่าความสัมพันธ์นั้นคืออะไร ฉันหวังว่าบางคนที่นี่จะบอกฉันได้ ฉันก็หวังว่าจะมีใครบางคนสามารถบอกฉันได้ว่าเหตุใดไดรฟ์ซีเกทจึงมีจำนวนข้อผิดพลาดในการค้นหาจำนวนมากในขณะที่ดิจิตัลตะวันตกมักจะมีศูนย์อยู่เสมอ
James T

@James บางทีใครบางคนอาจจะมาพร้อมกับคำตอบที่ดีกว่า ... การคาดเดาของฉันคือ Western Digital อาจไม่ทำตามข้อกำหนด SMART ที่แน่นอน นั่นเป็นปัญหาเกี่ยวกับมาตรฐานฮาร์ดแวร์พวกเขาเป็นจุดขายที่ยอดเยี่ยม แต่มีผู้ผลิตไม่กี่รายที่จะทำการตลาดผลประโยชน์ทั้งหมดโดยไม่ต้องทำตามข้อกำหนดทั้งหมด
Evan Plaice

ใช่ความเบี่ยงเบนจากมาตรฐานคือสิ่งที่ฉันคิดและสิ่งที่บทความวิกิพีเดียแนะนำ ฉันต้องการทราบว่าพวกเขาแตกต่างกันอย่างไรเพื่อให้ฉันสามารถเปรียบเทียบผู้ผลิตสองรายได้อย่างเหมาะสม (และผู้อื่น) ขอบคุณสำหรับความคิดเห็นอีวาน หวังว่านี่จะช่วยอธิบายคำถามให้ผู้อื่นได้เช่นกัน
James T

2

ในความเป็นจริงของฮาร์ดไดรฟ์ที่อยู่ภายในฮาร์ดไดรฟ์ทุกยี่ห้อที่มีขนาดใหญ่กว่า 100MB จะมีข้อผิดพลาดในการอ่านจำนวนมาก ส่วนใหญ่ได้รับการแก้ไขอย่างปลอดภัยโดย ECC บางคน (หวังว่าจะน้อยมาก) จะได้รับการแก้ไขอย่างผิดพลาดโดย ECC และส่วนที่เหลือ (น้อยกว่าการแก้ไขที่ผิดพลาด) จะถูกรายงานกลับไปยังคอมพิวเตอร์ว่าอ่านล้มเหลวและควรทำให้ไดรฟ์ ภาคไม่ดี

นอกเหนือจากการแก้ไขข้อผิดพลาดการอ่านแบบ raw ECC ยังแก้ไขการอ่านว่าฮาร์ดแวร์คิดว่าใช้ได้ แต่บิตที่ส่งคืนนั้นผิดเล็กน้อย ดังนั้นการแก้ไข ECC อาจเป็น "การอ่านแบบ raw ล้มเหลว แต่แก้ไขโดยการอ่านแบบ ECC + แบบ raw สำเร็จ แต่ผิดและได้รับการแก้ไขโดย ECC"

ดังนั้นการตีความข้อมูลทั้งสองครั้งจึงเป็นไปได้:

A. ไดรฟ์ที่ไม่ใช่ Seagate ไม่รวมข้อผิดพลาดการอ่านที่แก้ไขของ ECC ใน "การนับข้อผิดพลาดในการอ่านข้อมูลดิบ" เฉพาะข้อผิดพลาดที่ไม่สามารถแก้ไขได้

B. Seagate พิจารณาว่าเป็นข้อผิดพลาดในการอ่านหาก ECC พบสิ่งผิดปกติกับข้อมูลแม้ว่าวงจรระดับต่ำไม่ได้สังเกตเห็น แต่คนอื่นไม่เห็นด้วย

การทำให้เป็นมาตรฐานจะแตกต่างกันมากขึ้นอยู่กับทฤษฎี (A หรือ B) ที่ถูกต้อง


> ควรทำให้ไดรฟ์เปลี่ยนตำแหน่งเซกเตอร์เสียโดยอัตโนมัติ แล้วสิ่งที่เป็นความสัมพันธ์ระหว่างพร่ำภาคนับ จำนวนเหตุการณ์ถูกย้ายตำแหน่งและจำนวนที่ปัจจุบันรอภาคสาขา? มันจะไม่เพิ่มกระแสแล้วย้ายหรือแก้ไขไม่ได้ ? ทำไมมันถึงไม่สามารถแก้ไขได้? หากพยายามแมปเซกเตอร์เสียและล้มเหลว (เช่นเซกเตอร์สำรองแย่) ก็ไม่ควรลองแมปเซกเตอร์สำรองอื่น ไม่ใช่ยางที่มีเพียงอะไหล่เดียว
Synetech

100 MB คุณหมายถึง 100 GB หรือเปล่า
Peter Mortensen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.