ความสำคัญของหน่วยความจำ ECC


11

โมดูลหน่วยความจำ ECC มีความสำคัญที่ต้องมีบนเซิร์ฟเวอร์ที่ไม่สำคัญหรือไม่?

ฉันกำลังคิดว่าจะทำให้ตัวเองเป็นเซิร์ฟเวอร์เฉพาะสำหรับของเล่นสำหรับสิ่งที่สุ่มและไม่สำคัญมากมาย การเรียบเป็นระยะ ๆ นั้นไม่ใช่เรื่องใหญ่ ฉันกำลังดูผู้ให้บริการรายหนึ่ง แต่ราคาถูกอย่างไม่น่าเชื่อ ฮาร์ดแวร์ของพวกเขาฟังดูตลกสำหรับกล่องเซิร์ฟเวอร์ร้ายแรงใด ๆ : โปรเซสเซอร์เดสก์ท็อป, RAM ที่ไม่ใช่ ECC, แชสซีที่ไม่มีชื่อ, ไม่มี hotswap SATA HDD และอื่น ๆ (ดี, ราคาสมเหตุสมผล, ฉันเดา)

ฉันใช้หน่วยความจำ ECC เพื่อให้สิทธิ์บนเซิร์ฟเวอร์ "ร้ายแรง" ใด ๆ ดังนั้นฉันสงสัยว่ามันเป็นเรื่องใหญ่หรือไม่สำหรับอุปกรณ์ "ของเล่น"


3
คุณถามหน่วยความจำ ECC ยังปรากฏว่ายินดีที่จะใช้ไดรฟ์ SATA ที่แปลกมาก.
John Gardeniers

3
@ JohnGardeniers คุณจะเห็นว่าแม้ว่าจะหมายถึง HDD ที่ตายแล้วปีละครั้งฉันก็ไม่สนใจการหยุดทำงานและการกู้คืนระบบ แต่การมีปัญหารายวัน / รายสัปดาห์จะน่ารำคาญ ใช่ฉันกังวลเกี่ยวกับการพักผ่อนของฉันมากกว่าเวลาทำงานของฉันในกรณีนี้ ...
PJK

6
@JohnGardeniers: ไดรฟ์ SATA ไม่น่าเชื่อถือกว่า SCSI / SAS HDD: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

คำตอบ:


11

ข้อมูลที่เผยแพร่โดยเจ้าหน้าที่ CERN IT ( Data Integrity ) จะแนะนำว่าจำนวนข้อผิดพลาดที่มาจาก RAM ค่อนข้างต่ำ คุณยังต้องชั่งน้ำหนักข้อมูลและค่าใช้จ่ายของฮาร์ดแวร์

คุณสามารถอ่านอีกเล็กน้อยเกี่ยวกับเรื่องนี้ที่StorageMojo


10

โดยทั่วไปแล้ว ECC RAM จะช่วยป้องกันข้อผิดพลาดที่เกิดขึ้นเมื่ออ่านและเขียนจาก RAM โอกาสที่จะเกิดข้อผิดพลาดนั้นมีขนาดค่อนข้างเล็ก แต่ไม่เป็นศูนย์ ฉันจะบอกว่าถ้าคุณไม่ได้ทำสิ่งที่สำคัญต่อภารกิจคุณสามารถหนีไปได้โดยไม่ต้องใช้ ECC RAM - อย่างที่ฉันพูดโอกาสในการพบข้อผิดพลาดที่ ECC จะป้องกันนั้นมีขนาดเล็กมาก


6

เซิร์ฟเวอร์ที่ไม่สำคัญคืออะไร หนึ่งที่สามารถล้มเหลวได้

ECC RAM เป็นพื้นฐานเมื่อความน่าเชื่อถือของหน่วยความจำพื้นฐาน

สองสิ่งเติบโตขึ้นกับการเติบโตของขนาดหน่วยความจำ:

  • การพึ่งพาซอฟต์แวร์ในหน่วยความจำ ซอฟต์แวร์เซิร์ฟเวอร์ (เช่นแคช)
  • ความน่าจะเป็นของข้อผิดพลาดของหน่วยความจำ (p = num_bits * p_bit_failure)

นี้นำเสนอ Intel ใน ECCรายงานข้อเท็จจริงเหล่านี้:

  • อัตราเฉลี่ยของข้อผิดพลาดของหน่วยความจำสำหรับเซิร์ฟเวอร์ที่มีหน่วยความจำ 4GB ที่ใช้งาน 24x7 คือ 150 ครั้งต่อปี
  • ~ 4000 ข้อผิดพลาดที่แก้ไขได้ต่อโมดูลหน่วยความจำต่อปี
  • การโอเวอร์คล็อกและอายุของระบบเพิ่มอัตราความล้มเหลวอย่างมาก
  • ความล้มเหลวที่เกิดซ้ำเป็นเรื่องปกติและเกิดขึ้นอย่างรวดเร็ว (97% เกิดขึ้นภายใน 10 วันนับจากความล้มเหลวครั้งแรก) => ผลหิมะถล่ม
  • สำหรับเซิร์ฟเวอร์ ECC ที่มีอายุการใช้งาน 3 ถึง 5 ปีโอกาสเกิดความล้มเหลวของระบบข้อผิดพลาดของหน่วยความจำที่ไม่สามารถแก้ไขได้น้อยกว่า 0.001%

การวิจัยล่าสุดโดย WISCแสดงให้เห็นว่า ECC เป็นสิ่งจำเป็นสำหรับระบบ ZFS เหล่านี้:

ZFS ไม่มีข้อควรระวังสำหรับความเสียหายของหน่วยความจำ: บล็อกข้อมูลที่ไม่ดีจะถูกส่งกลับไปยังผู้ใช้หรือเขียนลงดิสก์การดำเนินการของระบบไฟล์ล้มเหลวและหลายครั้งที่ระบบล่มทั้งหมด

เป็นสิ่งสำคัญที่จะต้องทราบว่าระบบไฟล์อื่น ๆ มีความไวต่อความเสียหายของข้อมูลในรูปแบบนี้เช่นเดียวกับ ZFS

ECC คือสิ่งที่ช่วยให้คุณประหยัดจากปัญหาเหล่านี้เมื่อเป็นไปได้และในกรณีที่เกิดภัยพิบัติสิ่งที่จะเตือนคุณเกี่ยวกับสิ่งนี้ก่อนที่จะสายเกินไป


1

มันไม่สำคัญเลย หากคุณต้องการความพร้อมในการทำงาน 99.999% คุณต้องกังวลเกี่ยวกับเรื่องนี้ นอกเหนือจากนั้นคุณจะรีบูตบ่อยกว่าที่คุณจะได้รับข้อผิดพลาดของหน่วยความจำ


1

นี้การศึกษาโดย Googleจาก 2009 พบว่ามีอัตราความผิดพลาดระหว่าง 25000 และ 70000 ข้อผิดพลาดต่อพันล้านชั่วโมงอุปกรณ์ต่อเมกะบิต นั่นหมายถึง RAM ขนาด 8GiB (ใช้แล้ว) มีข้อผิดพลาด 1.7 ถึง 4.8 ต่อชั่วโมงโดยประมาณ

Bitflips เป็นสิ่งที่มีอยู่และไม่ควรเพิกเฉยเมื่อข้อมูลมีความสำคัญ

ในกรณีของคุณ (สิ่งที่สุ่มและไม่สำคัญ) มันอาจเป็นไปได้มากเกินไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.