URE คืออะไร


14

ฉันได้ดู RAID5 Vs RAID6 เมื่อไม่นานมานี้และฉันก็เห็นว่า RAID5 นั้นไม่ปลอดภัยเพียงพออีกต่อไปเนื่องจากการจัดอันดับ URE และการเพิ่มขนาดของไดรฟ์ โดยทั่วไปเนื้อหาส่วนใหญ่ที่ฉันค้นพบบอกว่าใน RAID5 ในกรณีที่คุณมีความล้มเหลวของดิสก์ถ้าส่วนที่เหลือของคุณคือ 12TB คุณจะมีโอกาสเกือบ 100% ที่จะได้พบกับ URE และสูญเสียข้อมูลของคุณ

รูปขนาด 12TB มาจากความจริงที่ว่าดิสก์มีการจัดอันดับที่ 10 ^ 14 บิตที่อ่านเพื่อเข้าถึงหนึ่ง URE

มีบางอย่างที่ฉันไม่ได้มาที่นี่ การอ่านทำโดยหัวหน้าที่เกิดขึ้นในเซกเตอร์สิ่งที่สามารถทำให้การอ่านล้มเหลวคือทั้งหัวตายหรือเซกเตอร์ตาย มันอาจเป็นไปได้ว่าการอ่านไม่ทำงานด้วยเหตุผลอื่น (ฉันไม่รู้เหมือนการสั่นสะเทือนที่ทำให้หัวกระโดด ... ) ดังนั้นให้ฉันจัดการกับทั้ง 3 สถานการณ์:

  • การอ่านไม่ทำงาน: นั่นไม่สามารถกู้คืนได้ใช่ไหม? สามารถลองได้อีกครั้ง
  • หัวตาย: สิ่งนี้จะไม่สามารถกู้คืนได้อย่างแน่นอน แต่นั่นหมายความว่าแผ่นเสียงเต็มรูปแบบ (หรืออย่างน้อยด้านข้าง) จะอ่านไม่ได้มันน่ากลัวกว่านี้ไหม?
  • เซกเตอร์เสียชีวิต: ไม่สามารถกู้คืนได้ทั้งหมด แต่ที่นี่ฉันไม่เข้าใจว่าทำไมดิสก์ 4TB ได้รับการจัดอันดับที่ 10 ^ 14 สำหรับ URE และ 8TB นั้นถูกจัดอันดับไว้ที่ 10 ^ 14 สำหรับ URE นั่นหมายถึงภาคต่างๆบน 8TB (เทคโนโลยีที่ใหม่กว่าน่าจะเป็นไปได้) มีความน่าเชื่อถือเพียงครึ่งเดียวเมื่อเทียบกับ 4TB ซึ่งไม่สมเหตุสมผล

อย่างที่คุณเห็นจากจุดล้มเหลวทั้ง 3 จุดที่ฉันระบุไม่มีสิ่งใดเหมาะสม ดังนั้นยูเรียคืออะไรฉันหมายถึงเป็นรูปธรรม?

มีใครบ้างที่สามารถอธิบายเรื่องนี้ให้ฉันได้บ้าง

แก้ไข 1

หลังจากคลื่นลูกแรกของคำตอบดูเหมือนว่าเหตุผลคือภาคที่ล้มเหลว สิ่งที่ดีคือเฟิร์มแวร์ตัวควบคุม RAID และระบบไฟล์ OS + มีขั้นตอนในการตรวจหาและจัดสรรภาคใหม่

ตอนนี้ฉันรู้แล้วว่า URE คืออะไร (จริง ๆ แล้วชื่อนั้นค่อนข้างอธิบายตนเอง :))

ฉันยังคงงงงวยกับสาเหตุพื้นฐานและส่วนใหญ่จัดอันดับความเสถียรที่พวกเขาให้

บางส่วนเกิดจากความล้มเหลวของแหล่งข้อมูลภายนอก (คลื่นคอสมิค) ฉันก็ประหลาดใจที่อัตรา URE นั้นขึ้นอยู่กับจำนวนการอ่านและไม่ได้ขึ้นอยู่กับอายุคลื่นคอสมิคควรจะส่งผลกระทบกับดิสก์ที่มีอายุมากกว่าเท่านั้น ยิ่งกว่านั้นฉันคิดว่านี่เป็นจินตนาการมากกว่าที่ฉันคิดผิด

ตอนนี้เหตุผลอื่นที่เกี่ยวข้องกับการสึกหรอของดิสก์และบางคนชี้ให้เห็นว่าความหนาแน่นที่สูงขึ้นทำให้โดเมนแม่เหล็กอ่อนลงซึ่งสมเหตุสมผลและฉันจะทำตามคำอธิบาย แต่ตามที่อธิบายไว้อย่างชัดเจนที่นี่ดิสก์รุ่นใหม่ที่มีขนาดแตกต่างกันส่วนใหญ่จะได้รับโดยการใส่แผ่นเสียงเดียวกัน (หรือความหนาแน่นเท่ากัน) ลงในแชสซี HDD เซ็กเตอร์นั้นเหมือนกันและทุกอย่างควรมีความน่าเชื่อถือเหมือนกันดังนั้นดิสก์ที่ใหญ่กว่าควรมีเรตติ้งที่สูงกว่าดิสก์ที่เล็กกว่าเซ็กเตอร์ที่อ่านน้อยกว่านี่ไม่ใช่ในกรณีนี้ทำไม? แม้ว่าจะอธิบายว่าทำไมดิสก์รุ่นใหม่ที่มีเทคโนโลยีใหม่ไม่ได้รับการจัดอันดับที่ดีกว่าดิสก์รุ่นเก่าเพียงเพราะเทคโนโลยีที่ดีกว่านั้นถูกชดเชยด้วยการสูญเสียเนื่องจากความหนาแน่นที่สูงขึ้น


"URE และการสูญเสียข้อมูลของคุณ" afaik (และฉันอาจจะผิด), URE หมายความว่าข้อมูลบางอย่างสูญหายเท่านั้นไม่ใช่ข้อมูลทั้งหมด - และคุณสามารถลองสร้างใหม่อีกครั้งหลังจากกด URE ที่กล่าวว่าการจู่โจม 10 หรือ zfs นั้นเป็นสิ่งที่เป็นอยู่ในปัจจุบัน
Sirex

1
" ส่วน [ในแผ่นดิสก์ที่ใหม่กว่า] มีความน่าเชื่อถือครึ่งหนึ่งเท่ากับ [รุ่นเก่า] ซึ่งไม่สมเหตุสมผล " ฉันไม่แน่ใจว่าฉันเห็นด้วยหรือไม่ เมื่อเขตแม่เหล็กมีขนาดเล็กลง (ซึ่งความหนาแน่นของข้อมูลที่สูงกว่าในแพ็คเกจขนาดเดียวกันหมายถึง) มันสมเหตุสมผลมากที่พวกมันจะอ่อนไหวต่อการถูกลบโดยไม่ตั้งใจมากขึ้น (การปล่อยรังสีแกมม่าในท้องถิ่นเหตุการณ์คอสมิคเรย์ ความอ่อนแอที่เพิ่มขึ้นของไดรฟ์สมัยใหม่นี้คือเหตุผลที่ว่าไม่มีใครในพวกเราที่จะปรับใช้ไดรฟ์ un-RAIDed ในทุกสิ่งที่สำคัญ
MadHatter


ปัญหาที่แท้จริงที่นี่คืออาร์เรย์ RAID จำนวนมากเกินไปที่ทำให้ URE เดียวกลายเป็นข้อผิดพลาดทั้งอาร์เรย์ URE เดียวควรทำให้เกิดการสูญเสียของ RAID บล็อกเดียว ปล่อยให้ระบบไฟล์คิดออกว่าบล็อกนั้นใช้งานอยู่หรือเปล่าโอกาสที่มันจะไม่สำคัญ
MSalters

1
@ รูปแบบไม่ตัวเลขยกเลิก สองเท่าของหลาย ๆ เซกเตอร์ก็เป็นสองเท่าของโอกาสในการล้มเหลวดังนั้นอัตราความผิดพลาดในการอ่านเดียวกันจึงเท่ากับความน่าเชื่อถือที่เท่ากันในแต่ละไบต์ นี่คือเหตุผลที่มันถูกใช้ตั้งแต่แรก
hobbs

คำตอบ:


13

URE เป็นข้อผิดพลาดในการอ่านที่ไม่สามารถกู้คืนได้ มีบางอย่างเกิดขึ้นที่ทำให้การอ่านเซกเตอร์ล้มเหลวซึ่งไดรฟ์ไม่สามารถแก้ไขได้ อิเล็กทรอนิกส์ไดรฟ์มีความซับซ้อนพวกเขาจะส่งผ่านข้อมูลขึ้นเมื่อพวกเขาสามารถอ่านได้อย่างถูกต้องจากดิสก์ ชุดอิเล็กทรอนิกส์ของไดรฟ์จะลองหลาย ๆ ครั้งเพื่ออ่านเซกเตอร์เสียก่อนจะประกาศว่าเสียหาย

อะไรทำให้เกิดข้อผิดพลาดในการอ่าน - ฉันไม่ใช่ผู้เชี่ยวชาญที่นี่ (การโบกแขน) แต่การเพิ่มอายุการขับขี่อาจทำให้ความอดทนในการผลิตมีความเกี่ยวข้อง โดเมนแม่เหล็กสามารถลดลงได้ รังสีคอสมิกสามารถทำให้เกิดความเสียหายเป็นต้นโดยพื้นฐานแล้วมันเป็นความล้มเหลวแบบสุ่ม

สิ่งนี้มีผลต่อ RAID 5 อย่างไร

RAID 5ประกอบด้วยระดับบล็อก striping มีความเท่าเทียมกันกระจาย บล็อกพาริตีจะคำนวณโดย XORing บิตจากบล็อกข้อมูลร่วมกัน ฟังก์ชั่น XOR โดยทั่วไปบอกว่าถ้าบิตทั้งหมดเท่ากันผลลัพธ์จะเป็น 0 มิฉะนั้นก็คือ 1 เมื่อคำนวณพาริตี้คุณจะใช้ 2 บิตแรกและ XOR พวกเขาดังนั้น XOR จะได้ผลลัพธ์ด้วยบิตถัดไปเป็นต้น

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

ธรรมชาติของฟังก์ชั่น XOR เป็นเช่นนั้นหากดิสก์ใด ๆ ตายและถูกแทนที่ข้อมูลที่ควรอยู่ในนั้นสามารถสร้างขึ้นใหม่ได้จากดิสก์ที่เหลือ

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

ในขณะที่คุณสามารถดูข้อมูลที่เสียหายสามารถสร้างขึ้นใหม่ได้โดย XORing ข้อมูลที่เหลือและความเท่าเทียมกัน

URE ส่งผลกระทบต่อเรื่องนี้อย่างไร

URE นั้นสำคัญในระหว่างการสร้าง RAID 5 ใหม่

เมื่อคุณสร้าง RAID 5 ใหม่จะมีการอ่านจำนวนมาก ต้องอ่านทุกบล็อคข้อมูลเพื่อสร้างข้อมูลบนดิสก์ใหม่ หากเกิด URE ข้อมูลสำหรับบล็อกที่เกี่ยวข้องจะไม่สามารถกู้คืนได้ดังนั้นข้อมูลของคุณจะไม่สอดคล้องกัน สำหรับดิสก์ขนาดใหญ่ที่เพียงพอใน R5 ที่มีขนาดใหญ่เพียงพอจำนวนบิตที่อ่านเพื่อสร้างดิสก์ที่ถูกสร้างใหม่จะมีค่าเกินกว่าค่า URE เช่น 1 บิตในการอ่าน 10 ^ 14


2
เดียวแผ่นดิสก์ 8TB มีกว่า 6 * 10 ^ 13 บิตบนจึงมีเพียงสามแผ่นเช่นใน RAID-5 เป็น URE เป็นโอกาสมากขึ้นกว่าไม่ได้ในระหว่างการบูรณะ โอ้และ +1 จากฉัน
MadHatter

3
การอ้างสิทธิ์ (เขียนในคำถามและในบางคำตอบและความคิดเห็นรวมถึงคำถามอื่น ๆ ที่จริงแล้วทั่วอินเทอร์เน็ต) ว่าหลังจากอ่าน 12TB ข้อผิดพลาดการอ่านเกือบจะแน่นอนว่าเป็นเท็จ ไม่เชื่อเหรอ อย่า รู้แล้ว โดยการอ่าน 12 (หรือมากกว่า) TB จากดิสก์ใด ๆ ของคุณและสังเกตว่าไม่มีข้อผิดพลาดเกิดขึ้น กรุณาทำและหยุดตำนานนี้ ขอบคุณ.
David Balažic

1
@IanKemp ไม่มันไม่ใช่ ฉันลองแล้ว เห็นได้ชัดว่าคุณไม่ได้ (เช่นกันการจัดอันดับที่ดีกว่าเพียงแค่ย้ายตำนานเล็กน้อยไม่มีการเปลี่ยนแปลงที่แท้จริง)
David Balažic

1
@ DavidBalažicชัดขนาดตัวอย่างของคุณหนึ่งโมฆะทฤษฎีความน่าจะเป็นทั้งหมด! ฉันแนะนำให้คุณส่งเอกสารไปยังคณะกรรมการโนเบล
Ian Kemp

1
@IANKemp หากมีคนอ้างว่าตัวเลขทั้งหมดหารด้วย 7 และฉันพบ ONE ที่ไม่ใช่ใช่แล้วการค้นหาครั้งเดียวสามารถทำให้ทฤษฎีทั้งหมดหมดไป BTW ไม่ใช่คนเดียวที่ยืนยันตำนานในทางปฏิบัติ (โดยการทดลอง) ใช่ไหม? ทำไมพวกเขาควรเมื่อความเชื่อมากกว่าความรู้ ...
เดวิดBalažic

9

ดังนั้นยูเรียคืออะไรฉันหมายถึงเป็นรูปธรรม?

ฮาร์ดดิสก์ไม่เพียงเก็บข้อมูลที่คุณขอ เนื่องจากขนาดของโดเมนแม่เหล็กลดลงเรื่อย ๆ และความจริงที่ว่าฮาร์ดดิสก์จัดเก็บข้อมูลในแบบอะนาล็อกมากกว่าแบบไบนารี่ (ฮาร์ดไดรฟ์ฮาร์ดดิสก์ได้รับสัญญาณอะนาล็อกจากแผ่นเสียงซึ่งแปลเป็นสัญญาณไบนารีและการแปลนี้คือ ส่วนหนึ่งของซอสลับของผู้ผลิต) มีข้อผิดพลาดบางประการในการอ่านซึ่งจะต้องได้รับการชดเชย

เพื่อให้มั่นใจว่าสามารถอ่านข้อมูลได้ฮาร์ดดิสก์ยังเก็บข้อมูลการแก้ไขข้อผิดพลาดไปข้างหน้าพร้อมกับข้อมูลที่คุณขอให้จัดเก็บ

ภายใต้การดำเนินงานปกติข้อมูล FEC เพียงพอที่จะแก้ไขข้อผิดพลาดในสัญญาณที่อ่านกลับจากแผ่นเสียง เฟิร์มแวร์สามารถสร้างข้อมูลต้นฉบับขึ้นมาใหม่และทั้งหมดนั้นก็ทำได้ดี นี่เป็นข้อผิดพลาดในการอ่านที่กู้คืนได้ซึ่งถูกเปิดเผยใน SMART เป็นคุณลักษณะอัตราการอ่านข้อผิดพลาด (คุณลักษณะ SMART 0x01) และ / หรือฮาร์ดแวร์ ECC กู้คืน (คุณลักษณะ SMART 0xc3)

หากด้วยเหตุผลบางอย่างสัญญาณลดลงต่ำกว่าจุดที่แน่นอนข้อมูล FEC จะไม่เพียงพอที่จะสร้างข้อมูลดั้งเดิมอีกต่อไป เมื่อถึงตอนนี้ทฤษฎีก็เริ่มขึ้นเฟิร์มแวร์จะยังคงสามารถตรวจจับได้ว่าข้อมูลไม่สามารถอ่านได้อย่างน่าเชื่อถือ แต่มันไม่สามารถทำอะไรได้เลย หากการอ่านหลายครั้งล้มเหลวดิสก์จะต้องแจ้งให้คอมพิวเตอร์ส่วนที่เหลือทราบว่าไม่สามารถทำการอ่านได้สำเร็จ ทำได้โดยส่งสัญญาณข้อผิดพลาดการอ่านที่ไม่สามารถกู้คืนได้ สิ่งนี้จะเพิ่มตัวนับข้อผิดพลาดที่ไม่สามารถแก้ไขได้ที่รายงาน (คุณลักษณะ SMART 0xbb) ของรายงาน

ข้อผิดพลาดในการอ่านที่ไม่สามารถกู้คืนได้หรือ URE เป็นเพียงรายงานว่าไม่ว่าจะด้วยเหตุผลใดก็ตามข้อมูล payload รวมถึงข้อมูล FEC นั้นไม่เพียงพอที่จะสร้างข้อมูลที่เก็บไว้เดิม

เก็บไว้ในใจว่าอัตรา URE เป็นสถิติ คุณจะไม่พบกับฮาร์ดดิสก์ใด ๆ ที่คุณสามารถอ่านได้ 10 ^ 14 (หรือ 10 ^ 15) - 1 บิตสำเร็จแล้วบิตถัดไปจะล้มเหลว ค่อนข้างเป็นคำสั่งจากผู้ผลิตที่โดยเฉลี่ยถ้าคุณอ่าน (พูด) 10 ^ 14 บิตจากนั้นในบางช่วงระหว่างกระบวนการนั้นคุณจะพบเซกเตอร์ที่อ่านไม่ได้

นอกจากนี้ต่อไปนี้ในคำไม่กี่คำสุดท้ายข้างต้นเก็บไว้ในใจว่าอัตรา URE จะได้รับในแง่ของภาคต่อบิตอ่าน เนื่องจากวิธีการจัดเก็บข้อมูลบน platters ดิสก์จึงไม่สามารถบอกได้ว่าส่วนใดของเซกเตอร์เสียดังนั้นหากเซกเตอร์ล้มเหลวในการตรวจสอบ FEC ดังนั้นเซกเตอร์ทั้งหมดจึงถือว่าไม่ดี


ตกลงดังนั้นดูเหมือนว่าจะชี้ไปที่ภาคที่ล้มเหลว ฉันได้รับสิ่งต่าง ๆ ทางสถิติโดยไม่ต้องกังวล ฉันยังเห็นที่นี่ว่าความน่าเชื่อถือของภาคลดลงเมื่อความหนาแน่นสูงขึ้น แต่ก็ยังไม่สมเหตุสมผล ดิสก์รุ่นใหม่มักจะมีความหนาแน่นของแผ่นเสียงเดียวกันไม่ว่าขนาดทางกายภาพ 4TB จะมีจานน้อยกว่า 6TB โดยพื้นฐานแล้วภาคต่าง ๆ เหมือนกันดังนั้นเหตุใด 8TB จึงไม่สามารถบรรลุค่าที่สูงกว่าได้สถิติจึงมีสองเท่าของหลายภาคส่วนดังนั้นแต่ละส่วนจึงอ่านครึ่งมาก (สถิติ) พวกเขาควรล้มเหลวน้อยลงหรือไม่?
Memes

3

เซกเตอร์เสียชีวิต: ไม่สามารถกู้คืนได้ทั้งหมด แต่ที่นี่ฉันไม่เข้าใจว่าทำไมดิสก์ 4TB ได้รับการจัดอันดับที่ 10 ^ 14 สำหรับ URE และ 8TB นั้นถูกจัดอันดับไว้ที่ 10 ^ 14 สำหรับ URE นั่นหมายถึงภาคต่างๆบน 8TB (เทคโนโลยีที่ใหม่กว่าน่าจะเป็นไปได้) มีความน่าเชื่อถือเพียงครึ่งเดียวเมื่อเทียบกับ 4TB ซึ่งไม่สมเหตุสมผล

ข้อมูลจำเพาะมักจะถูก " ตรวจพบข้อผิดพลาดโดยเฉลี่ย1ขณะที่อ่านบิตn " ดังนั้นขนาดของไดรฟ์จึงไม่สำคัญ มันเป็นเรื่องสำคัญหากคุณคำนวณความเสี่ยงของคุณว่ามีข้อผิดพลาดเกิดขึ้นกับไดรฟ์และปริมาณงานของคุณ แต่ผู้ผลิตระบุว่าจะใช้เวลาอ่านบิตnบิตเพื่อค้นหาข้อผิดพลาด (โดยเฉลี่ยไม่รับประกัน)

ตัวอย่าง: หากคุณซื้อไดรฟ์ 1TB คุณจะต้องอ่านมันประมาณ 12 ครั้งเพื่อหาข้อผิดพลาดในขณะที่ไดรฟ์ 8TB อาจพบกับการอ่านครั้งที่สอง - แต่จำนวนบิตที่อ่านจะเท่ากันทั้งสองครั้งดังนั้นคุณภาพ ของแกนแม่เหล็กนั้นประมาณเดียวกัน

สิ่งที่คุณจ่ายไปในราคาที่เพิ่มขึ้นคือปัจจัยอื่น ๆ ความสามารถในการอัด 8TB ลงในพื้นที่ทางกายภาพของ 1TB ลดการใช้พลังงานได้อย่างมากลดการเกิด headcrashes น้อยลงขณะเคลื่อนย้ายไดรฟ์ ฯลฯ


0

ฉันคิดว่า @Michael Kjörlingตอบอย่างชัดเจน

เมื่ออ่านดิสก์หัวตรวจจับทิศทางของโดเมนแม่เหล็กจากนั้นส่งสัญญาณอิเล็คทรอนิกส์บางส่วนซึ่งเป็นแบบอะนาล็อก เราคิดว่าเฟิร์มแวร์ควรให้ 1 เมื่อได้รับแรงดันไฟฟ้าสูงกว่า 0.5V แต่สนามแม่เหล็กอ่อนแอเกินไปดังนั้นหัวจึงส่งสัญญาณด้วย 0.499V เท่านั้นข้อผิดพลาดที่พบ เราต้องการ FEC เพื่อแก้ไขข้อผิดพลาดนี้

นี่คือตัวอย่าง: ข้อมูลภาคควรเป็น 0x0F23 เราเข้ารหัสด้วย 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30 ตอนนี้เราได้รับ FEC และเขียนมันหลังจากภาค เมื่อเราอ่านเราอ่าน 0x0E23 และ FEC 0x30 มันไม่ตรงกัน หลังจากคำนวณแล้วเราพบว่าควรเป็น 0x0F23 แต่ถ้าเราได้ 0x0E13 และ 0x30 หรือเราได้ 0x0E23 และ 0x32 เราไม่สามารถคำนวณอันที่ถูกต้องได้

การให้คะแนนนี้ต่ำมากบางทีเว้นแต่ว่า hdd จะอ่าน PBs ที่เคยมีข้อมูล EBs จะได้รับค่าที่เสถียร ดังนั้นพวกเขาจึงแจกค่าความน่าจะเป็น: เมื่อคุณอ่านข้อมูล 10 ^ 14 บิตคุณอาจพบครั้งเดียว เนื่องจากเป็นค่าความน่าจะเป็นคุณอาจเข้ารหัสหลังจากอ่านข้อมูลเซกเตอร์เพียง 1 ครั้งคุณอาจพบจนกว่าคุณจะอ่านข้อมูล 50TB และค่านี้ไม่มีอะไรเลยกับความจุของดิสก์มันเป็นเพียงความกังวลเกี่ยวกับขนาดข้อมูลที่คุณอ่าน หากคุณอ่านดิสก์ 4TB เต็มไปด้วยข้อมูล 6 ครั้งโอกาสนี้จะเท่ากับการอ่านดิสก์ 6TB 4 ครั้งหรืออ่านดิสก์ 8TB 3 ครั้ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.