เซิร์ฟเวอร์ที่ไม่สำคัญคืออะไร หนึ่งที่สามารถล้มเหลวได้
ECC RAM เป็นพื้นฐานเมื่อความน่าเชื่อถือของหน่วยความจำพื้นฐาน
สองสิ่งเติบโตขึ้นกับการเติบโตของขนาดหน่วยความจำ:
- การพึ่งพาซอฟต์แวร์ในหน่วยความจำ ซอฟต์แวร์เซิร์ฟเวอร์ (เช่นแคช)
- ความน่าจะเป็นของข้อผิดพลาดของหน่วยความจำ (p = num_bits * p_bit_failure)
นี้นำเสนอ Intel ใน ECCรายงานข้อเท็จจริงเหล่านี้:
- อัตราเฉลี่ยของข้อผิดพลาดของหน่วยความจำสำหรับเซิร์ฟเวอร์ที่มีหน่วยความจำ 4GB ที่ใช้งาน 24x7 คือ 150 ครั้งต่อปี
- ~ 4000 ข้อผิดพลาดที่แก้ไขได้ต่อโมดูลหน่วยความจำต่อปี
- การโอเวอร์คล็อกและอายุของระบบเพิ่มอัตราความล้มเหลวอย่างมาก
- ความล้มเหลวที่เกิดซ้ำเป็นเรื่องปกติและเกิดขึ้นอย่างรวดเร็ว (97% เกิดขึ้นภายใน 10 วันนับจากความล้มเหลวครั้งแรก) => ผลหิมะถล่ม
- สำหรับเซิร์ฟเวอร์ ECC ที่มีอายุการใช้งาน 3 ถึง 5 ปีโอกาสเกิดความล้มเหลวของระบบข้อผิดพลาดของหน่วยความจำที่ไม่สามารถแก้ไขได้น้อยกว่า 0.001%
การวิจัยล่าสุดโดย WISCแสดงให้เห็นว่า ECC เป็นสิ่งจำเป็นสำหรับระบบ ZFS เหล่านี้:
ZFS ไม่มีข้อควรระวังสำหรับความเสียหายของหน่วยความจำ: บล็อกข้อมูลที่ไม่ดีจะถูกส่งกลับไปยังผู้ใช้หรือเขียนลงดิสก์การดำเนินการของระบบไฟล์ล้มเหลวและหลายครั้งที่ระบบล่มทั้งหมด
เป็นสิ่งสำคัญที่จะต้องทราบว่าระบบไฟล์อื่น ๆ มีความไวต่อความเสียหายของข้อมูลในรูปแบบนี้เช่นเดียวกับ ZFS
ECC คือสิ่งที่ช่วยให้คุณประหยัดจากปัญหาเหล่านี้เมื่อเป็นไปได้และในกรณีที่เกิดภัยพิบัติสิ่งที่จะเตือนคุณเกี่ยวกับสิ่งนี้ก่อนที่จะสายเกินไป