การปันส่วนเซกเมนต์ SMART กี่รายการบ่งชี้ถึงปัญหา


17

ฉันมีอุปกรณ์ NAS ที่มีอายุเกินหนึ่งเดือน มันถูกกำหนดค่าให้ส่งอีเมลแจ้งเตือนฉันที่สร้างจากข้อมูล SMART ของฮาร์ดไดรฟ์ หลังจากหนึ่งวันฮาร์ดไดรฟ์ตัวหนึ่งรายงานว่าเซกเตอร์เสียไปและทำการจัดสรรใหม่ ในช่วงสัปดาห์แรกตัวเลขดังกล่าวเพิ่มขึ้นเป็น 6 สาขาโดยรวมสำหรับฮาร์ดไดรฟ์ที่มีปัญหา หลังจากผ่านไปหนึ่งเดือนตัวเลขจะอยู่ที่เก้าภาคที่จัดสรรใหม่ ดูเหมือนว่าอัตราจะชะลอตัวลงอย่างแน่นอน

NAS ได้รับการกำหนดค่าด้วยไดรฟ์ 1.5 TB หกตัวในการกำหนดค่า RAID-5 ด้วยไดรฟ์ความจุสูงเช่นนี้ฉันคาดว่าเซกเตอร์จะล้มเหลวเป็นครั้งคราวดังนั้นฉันจึงไม่กังวลเมื่อมีการย้ายที่ตั้งสองสามภาคแรก มันทำให้ฉันรำคาญแม้ว่าจะไม่มีดิสก์อื่นที่รายงานปัญหาใด ๆ

ฉันควรเริ่มกังวลกับสุขภาพของไดรฟ์ในอัตราการย้ายถิ่นฐานหรือจำนวนการย้ายถิ่นฐานทั้งหมดอย่างไร อาจแตกต่างกันไปตามความจุของไดรฟ์


เป็นคนดี jeremy หนึ่งในดีที่สุดใน serverfault เช่นเดียวกับคนอื่น ๆ ที่นี่จะพบว่ามีประโยชน์และไม่สามารถหาคำตอบได้ง่าย สมควรมากกว่า +2 แน่นอน คุณอาจต้องการที่จะใช้ถ้อยคำคำถามที่ว่ามันเป็นไปไม่ได้เฉพาะเจาะจงเน็ต แต่การจัดเก็บข้อมูลโดยทั่วไปแม้ว่า
ชื่อผู้ใช้

ขอบคุณสำหรับคำติชมฉันทำการเปลี่ยนแปลงตามที่คุณแนะนำและอัปเดตสถานการณ์
Jeremy

1
ผมเปลี่ยนไดรฟ์ที่หนึ่งภาคการจัดสรร คุณควรคาดหวังเป็นศูนย์ในช่วงเวลาการรับประกันของไดรฟ์ ผู้ผลิตให้การรับประกันกับไดรฟ์เหล่านี้เสมอ
Michael Hampton

คำตอบ:


13

ไดรฟ์เช่นเดียวกับส่วนประกอบส่วนใหญ่มีอัตราความล้มเหลวของเส้นโค้งอ่างอาบน้ำ พวกเขาล้มเหลวมากในตอนแรกมีอัตราความล้มเหลวค่อนข้างต่ำในช่วงกลางและจากนั้นก็ล้มเหลวมากเมื่อถึงจุดจบของชีวิต

เช่นเดียวกับไดรฟ์ทั้งหมดที่ตามโค้งนี้พื้นที่เฉพาะของดิสก์ก็จะเป็นไปตามโค้งนี้ คุณจะเห็นการจัดสรรเซกเตอร์ใหม่จำนวนมากในช่วงเริ่มต้นของการใช้ไดรฟ์ แต่สิ่งนี้น่าจะลดน้อยลง เมื่อไดรฟ์เริ่มล้มเหลวเมื่อสิ้นสุดอายุการใช้งานจะเริ่มสูญเสียเซ็กเตอร์มากขึ้นเรื่อย ๆ

คุณไม่ต้องกังวลเกี่ยวกับ 6 (ขึ้นอยู่กับไดรฟ์ - ปรึกษาผู้ผลิต) แต่คุณต้องดูและดูความถี่ของการจัดสรรใหม่แต่ละครั้ง หากการเสื่อมสภาพเร่งหรือคงเดิมให้กังวล มิฉะนั้นจะต้องมีการปรับหลังจากช่วงเวลาพักเริ่มต้น

อดัม


จุดเล็ก ๆ : ไดรฟ์จะล้มเหลว LONG ก่อน MTBF ฉันคิดว่าคุณหมายถึงพวกเขาล้มเหลวมากเมื่อพวกเขาเข้าใกล้อายุการใช้งานที่คาดหวัง
Eddie

5
Google ไม่ได้อธิบายทฤษฎี "อ่างอาบน้ำโค้ง" อย่างละเอียดหรือไม่
Insyte

20

อ่านบทความของ Google ในหัวข้อ " แนวโน้มความล้มเหลวในดิสก์ไดรฟ์ขนาดใหญ่ " ฉันคิดว่าฉันสามารถพูดได้อย่างปลอดภัยว่าคำตอบของอดัมไม่ถูกต้อง ในการวิเคราะห์จำนวนไดรฟ์ที่มีขนาดใหญ่มากประมาณ 9% มีจำนวนการจัดสรรใหม่ที่ไม่เป็นศูนย์ คำพูดที่บอกคือ:

หลังจากการจัดสรรครั้งแรกไดรฟ์มีแนวโน้มที่จะล้มเหลวมากกว่า 14 เท่าภายใน 60 วันกว่าไดรฟ์ที่ไม่มีการนับการจัดสรรใหม่ทำให้เกณฑ์ที่สำคัญสำหรับพารามิเตอร์นี้เป็นหนึ่ง

มันน่าสนใจยิ่งขึ้นเมื่อจัดการกับ "การจัดสรรใหม่แบบออฟไลน์" ซึ่งเป็นการจัดสรรใหม่ที่ค้นพบระหว่างการขัดถูพื้นหลังของไดรฟ์ไม่ใช่ในระหว่างการเรียกใช้ IO ที่ร้องขอ ข้อสรุปของพวกเขา:

หลังจากการจัดสรรออฟไลน์ครั้งแรกไดรฟ์มีโอกาสสูงที่จะเกิดความล้มเหลวมากกว่า 21 เท่าภายใน 60 วันกว่าไดรฟ์ที่ไม่มีการจัดสรรใหม่แบบออฟไลน์ ผลกระทบที่รุนแรงกว่าการจัดสรรซ้ำทั้งหมดอีกครั้ง

นโยบายของฉันนับจากนี้เป็นต้นไปจะเป็นไดรฟ์ที่มีการนับการจัดสรรใหม่ที่ไม่ใช่ศูนย์


นั่นเป็นเรื่องที่น่าสนใจฉันเคยได้ยินบทความนี้ แต่ฉันอาจต้องอ่านมันอีกครั้ง FWIW, 4 จาก 6 ไดรฟ์ใน NAS ของฉันได้ทำการจัดสรรภาคใหม่ ขอบคุณสำหรับคำตอบ.
Jeremy

3

ไดรฟ์ที่ต่างกันอาจมีพารามิเตอร์ต่างกัน บนไดรฟ์ที่ฉันตรวจสอบครั้งล่าสุดว่าเป็นดิสก์ชุดองค์กร 1TB จากผู้ขายรายหนึ่งมีการจองเซกเตอร์สำรอง 2048 ภาค

คุณสามารถประมาณจำนวนของเซกเตอร์ที่สงวนไว้ซึ่งดูในรายงาน SMART บนไดรฟ์ที่มีจำนวนเซกเตอร์ที่ไม่ได้จัดสรรใหม่ พิจารณารายงานเกี่ยวกับไดรฟ์ที่ล้มเหลวด้านล่าง

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

ที่นี่ 95% ของกำลังการผลิตสำรองถูกนำมาใช้ซึ่งเป็นปี 1955 ดังนั้นความจุเริ่มต้นประมาณ 2057 อันที่จริงแล้วมันคือ 2048 ความแตกต่างเกิดจากข้อผิดพลาดในการปัดเศษ

SMART เปลี่ยนไดรฟ์ให้อยู่ในสถานะล้มเหลวเมื่อจำนวนของภาคที่จัดสรรใหม่ถึงระดับที่กำหนด สำหรับไดรฟ์ที่มีปัญหาขีด จำกัด นี้จะถูกกำหนดไว้ที่ 64% ของความจุที่สำรองไว้ นั่นคือประมาณ 1310 ภาคที่แมปใหม่

อย่างไรก็ตามภาคที่สงวนไว้ไม่ได้โกหกอย่างต่อเนื่อง แต่จะแบ่งออกเป็นหลายกลุ่มแต่ละกลุ่มจะใช้สำหรับการแมปเซกเตอร์จากส่วนเฉพาะของดิสก์ สิ่งนี้ทำเพื่อเก็บข้อมูลในเครื่องไว้ในพื้นที่บนดิสก์

ข้อเสียของท้องถิ่นคือดิสก์อาจมีเซกเตอร์สำรองมากมาย แต่พื้นที่หนึ่งอาจหมดความจุที่สำรองไว้แล้ว ในกรณีนี้ลักษณะการทำงานขึ้นอยู่กับเฟิร์มแวร์ ในหนึ่งไดรฟ์เราสังเกตว่ามันเข้าสู่สถานะ FAILED และบล็อกเมื่อเกิดข้อผิดพลาดในส่วนที่ไม่มีการป้องกันอีกต่อไป


คุณทราบได้อย่างไรว่า "มีภาคที่สงวนไว้ 2048 ประเภทสำหรับการจัดสรรใหม่"
AJ

บางที 2047 คือจำนวนสูงสุดของภาคที่จัดสรรได้อีกครั้ง หนึ่งในไดรฟ์ของฉันมี 2047 เมื่อซื้อจากอีเบย์สำหรับ "ใหม่" ซึ่งคือ 0x7FF ก็เท่ากับ 11,111,111,111 การไปในปี 2048 จะเป็นการสิ้นเปลืองอีกเล็กน้อย
davide

2

คุณอาจต้องการรันการทดสอบตัวเองนานของ SMART หากไดรฟ์รองรับ นี่อาจให้ข้อมูลเพิ่มเติมเกี่ยวกับสถานะของไดรฟ์ หาก NAS ของคุณไม่สามารถทำเช่นนี้ได้และถ้าคุณสามารถดึงไดรฟ์ออกหรือทำให้ NAS ทำงานได้ไม่กี่ชั่วโมงคุณสามารถทำการทดสอบตัวเองด้วยฮาร์ดดิสก์ที่ต่อกับเครื่องอื่น


1

เมื่อไดรฟ์ตัวใหม่นี้ทำงานแบบนี้มันก็ไม่น่าเชื่อถือเลย!

ส่งมันกลับโดยเร็วที่สุดและรับไดรฟ์ทดแทน


1

ผู้ผลิตที่แตกต่างกันมีหมายเลข "ยอมรับการสูญเสีย" ที่แตกต่างกัน (แนวคิดเช่นเดียวกับจอภาพและพิกเซลไม่ดี) ตรวจสอบกับผู้ผลิตไดรฟ์เพื่อดูว่ามาตรฐานของพวกเขาคืออะไร

ดูเหมือนว่าจะเป็นแนวโน้มที่ไม่ดี แต่ ...


-1

Western Digital ภูมิใจเป็นพิเศษด้วยเทคโนโลยีที่กู้คืนเซกเตอร์เสียในเวลาที่ยอมรับได้แทนที่จะแช่แข็งดิสก์ที่วางไว้ใน RAID ชื่อ TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ) เวลาโดยทั่วไปคือ 5..7 วินาที

อย่างที่ฉันพบในเว็บมีดิสก์ไดรฟ์ WD พร้อมตัวเลือกที่ปิดใช้งาน แต่บางคนเปิดใช้งานฟีเจอร์นี้ในไดรฟ์ WD สีเขียวราคาถูกจากนั้นวางลงใน RAID

ยูทิลิตี้ WDTLER ลบออกจากเว็บไซต์สนับสนุน WD แต่สามารถค้นพบได้ง่ายผ่าน Google

PS ฉันใช้ยูทิลิตี้นี้สำหรับสถานะการอ่านเท่านั้นและฉันไม่ได้ใช้ RAID ภายในตอนนี้ :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.