ฉันต้องการเปรียบเทียบความน่าเชื่อถือของระบบ RAID ที่แตกต่างกันกับ consumer (URE / bit = 1e-14) หรือ enterprise (URE / bit = 1e-15) สูตรที่มีความน่าจะเป็นที่จะประสบความสำเร็จในการสร้างใหม่ (ไม่สนใจปัญหาเชิงกลที่ฉันจะนำมาพิจารณาภายหลัง) นั้นง่ายมาก:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
สิ่งสำคัญที่ต้องจำไว้คือนี่เป็นความน่าจะเป็นที่จะได้อย่างน้อยหนึ่ง URE ไม่ใช่เพียงอย่างเดียว
สมมติว่าเราต้องการพื้นที่ใช้งาน 6 TB เราสามารถรับมันด้วย:
RAID1 ที่มีดิสก์ 1 + 1 แผ่นละ 6 TB ในระหว่างการสร้างใหม่เราอ่านดิสก์ 6TB 1 แผ่นและความเสี่ยงคือ: 1- (1-1e-14) ^ (6e12 * 8) = 38% สำหรับผู้บริโภคหรือ 4.7% สำหรับไดรฟ์ระดับองค์กร
RAID10 ที่มีดิสก์ 2 + 2 แต่ละ 3 TB ในระหว่างการสร้างใหม่เราอ่านดิสก์ 1TB 3 ตัวเท่านั้น (หนึ่งคู่กับดิสก์ที่ล้มเหลว!) และความเสี่ยงต่ำกว่า: 1- (1-1e-14) ^ (3e12 * 8) = 21% สำหรับผู้บริโภคหรือ 2.4% สำหรับ ไดรฟ์ระดับองค์กร
RAID5 / RAID Z1 ที่มีดิสก์ 2 + 1 แต่ละ 3TB ในระหว่างการสร้างใหม่เราอ่านดิสก์ 2 แผ่นขนาด 3TB แต่ละตัวและความเสี่ยงคือ: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% สำหรับผู้บริโภคหรือ 4.7% หรือไดรฟ์ระดับองค์กร
RAID5 / RAID Z1 ที่มีดิสก์ 3 + 1 แผ่นละ 2 TB (มักใช้โดยผู้ใช้ผลิตภัณฑ์ SOHO เช่น Synologys) ในระหว่างการสร้างใหม่เราอ่านแผ่นดิสก์ขนาด 2TB จำนวน 3 แผ่นแต่ละตัวและความเสี่ยงคือ: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% สำหรับผู้บริโภคหรือ 4.7% หรือไดรฟ์ระดับองค์กร
การคำนวณข้อผิดพลาดสำหรับการยอมรับดิสก์เดี่ยวนั้นเป็นเรื่องง่ายและยากกว่าคือการคำนวณความน่าจะเป็นที่ระบบยอมให้ดิสก์หลายตัวล้มเหลว (RAID6 / Z2, RAIDZ3)
หากมีเพียงดิสก์แรกที่ใช้สำหรับการสร้างใหม่และดิสก์ที่สองถูกอ่านอีกครั้งตั้งแต่เริ่มต้นในกรณีหรือ URE ความน่าจะเป็นข้อผิดพลาดคือดิสก์ที่คำนวณข้างต้นรูทราก (14.5% สำหรับผู้บริโภค RAID5 2 + 1, 4.5% สำหรับผู้บริโภค RAID1 1 + 2) อย่างไรก็ตามฉันคิดว่า (อย่างน้อยใน ZFS ที่มีการตรวจสอบเต็ม!) ว่าดิสก์แบบพาริตี้ / ที่สองสามารถอ่านได้เมื่อจำเป็นเท่านั้นซึ่งหมายความว่ามีความจำเป็นเพียงไม่กี่เซกเตอร์: มีกี่ UREs ที่สามารถเกิดขึ้นได้ในดิสก์แรก มีไม่มากมิฉะนั้นความน่าจะเป็นข้อผิดพลาดสำหรับระบบความทนทานดิสก์เดียวจะสูงกว่าที่ฉันคำนวณ
หากฉันถูกต้องดิสก์ที่สองจะช่วยลดความเสี่ยงให้ต่ำลงอย่างมาก
คำถามก็เป็นสิ่งสำคัญที่ต้องจำไว้ว่าผู้ผลิตเพิ่มความน่าจะเป็น URE สำหรับไดรฟ์ระดับผู้บริโภคด้วยเหตุผลทางการตลาด (ขายไดรฟ์ระดับองค์กรมากขึ้น) ดังนั้นแม้กระทั่ง HDD ระดับผู้บริโภคคาดว่าจะอ่าน 1E-15 URE / บิต .
ข้อมูลบางส่วน: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
ค่าที่ฉันให้ไว้ในวงเล็บ (ไดรฟ์ระดับองค์กร) จึงนำไปใช้กับไดรฟ์ผู้บริโภคได้อย่างแนบเนียน และไดรฟ์ระดับองค์กรจริงมีความน่าเชื่อถือที่สูงขึ้น (URE / bit = 1e-16)
เกี่ยวกับความน่าจะเป็นของความล้มเหลวทางกลมันเป็นสัดส่วนกับจำนวนดิสก์และสัดส่วนกับเวลาที่ต้องสร้างใหม่