ฉันเห็นข้อสงสัยเกี่ยวกับการใช้ RAM ของ ECC บนเซิร์ฟเวอร์ ทำไมจะดีกว่า
ฉันเห็นข้อสงสัยเกี่ยวกับการใช้ RAM ของ ECC บนเซิร์ฟเวอร์ ทำไมจะดีกว่า
คำตอบ:
ECC RAM สามารถกู้คืนจากข้อผิดพลาดเล็ก ๆ ในบิตโดยใช้บิตพาริตี้ เนื่องจากเซิร์ฟเวอร์เป็นทรัพยากรที่ใช้ร่วมกันซึ่งมีความสำคัญต่อเวลาและความเชื่อถือได้จึงมักใช้ ECC RAM โดยมีราคาแตกต่างกันเล็กน้อย ECC RAM ยังใช้ใน CAD / CAM เวิร์กสเตชันข้อผิดพลาดเล็ก ๆ น้อย ๆ อาจทำให้เกิดข้อผิดพลาดในการคำนวณซึ่งกลายเป็นปัญหาที่สำคัญมากขึ้นเมื่อการออกแบบไปสู่การผลิต
การศึกษาในโลกแห่งความเป็นเลิศที่ยอดเยี่ยม:
ข้อผิดพลาด DRAM ในป่า: การศึกษาภาคสนามขนาดใหญ่ (pdf)
กระดาษนี้ให้การศึกษาขนาดใหญ่ครั้งแรกของข้อผิดพลาดหน่วยความจำ DRAM ในเขตข้อมูล มันขึ้นอยู่กับข้อมูลที่เก็บรวบรวมจากเซิร์ฟเวอร์ของ Google ในช่วงระยะเวลานานกว่าสองปีซึ่งใช้เวลา DIMM หลายล้านวัน DRAM ในการศึกษาของเราครอบคลุมผู้ค้าหลายรายความหนาแน่นและเทคโนโลยี DRAM (DDR1, DDR2 และ FBDIMM)
กระดาษตอบคำถามต่อไปนี้: คอมมอนเป็นข้อผิดพลาดของหน่วยความจำในทางปฏิบัติอย่างไร คุณสมบัติทางสถิติของพวกเขาคืออะไร? ปัจจัยภายนอกเช่นอุณหภูมิและการใช้งานระบบได้รับผลกระทบอย่างไร และจะแตกต่างกันอย่างไรกับปัจจัยเฉพาะของชิปเช่นความหนาแน่นของชิปเทคโนโลยีหน่วยความจำและอายุ DIMM
เราพบว่าข้อผิดพลาด DRAM ในหลาย ๆ ด้านในลักษณะการทำงานแตกต่างจากที่คิดไว้มาก ตัวอย่างเช่นเราสังเกตอัตราความผิดพลาด DRAM ที่เป็นคำสั่งที่มีขนาดสูงกว่าที่รายงานก่อนหน้านี้ด้วยอัตรา FIT (ความล้มเหลวในเวลาต่อพันล้านชั่วโมงอุปกรณ์) 25,000 ถึง 70,000 ต่อ Mbit และมากกว่า 8% ของ DIMM ที่ได้รับผลกระทบต่อปี เราให้หลักฐานที่ชัดเจนว่าข้อผิดพลาดของหน่วยความจำถูกครอบงำโดยข้อผิดพลาดอย่างหนักแทนที่จะเป็นข้อผิดพลาดที่นุ่มนวลซึ่งงานก่อนหน้านี้ส่วนใหญ่มุ่งเน้นไปที่ เราพบว่าจากปัจจัยทั้งหมดที่ส่งผลต่อพฤติกรรมความผิดพลาดของ DIMM ในสนามอุณหภูมิมีผลกระทบเล็กน้อยอย่างน่าประหลาดใจ ในที่สุดซึ่งแตกต่างจากความกลัวทั่วไปเราไม่สังเกตเห็นสิ่งบ่งชี้ว่าอัตราความผิดพลาดต่อ DIMM เพิ่มขึ้นเมื่อใช้ DIMM รุ่นใหม่
ที่น่าสนใจว่าข้อผิดพลาดของหน่วยความจำส่วนใหญ่เป็นข้อผิดพลาดของฮาร์ด - ฮาร์ดหน่วยความจำที่ไม่สามารถกู้คืนได้หมายความว่าหน่วยความจำจะต้องถูกแทนที่ทางกายภาพว่าล้มเหลวในขณะที่ข้อผิดพลาด soft memory สามารถแก้ไขได้โดยการเขียนทับหน่วยความจำ สิ่งนี้บ่งบอกว่ามูลค่าของ ECC นั้นค่อนข้าง จำกัด
มีข้อผิดพลาดสองชนิดที่มักเกิดขึ้นในระบบหน่วยความจำ ครั้งแรกที่เรียกว่าข้อผิดพลาดซ้ำหรือยาก ในสถานการณ์เช่นนี้ชิ้นส่วนของฮาร์ดแวร์จะเสียและจะส่งคืนผลลัพธ์ที่ไม่ถูกต้องอย่างสม่ำเสมอ บิตอาจค้างอยู่เพื่อให้ส่งกลับค่าเป็น "0" เสมอไม่ว่าจะเขียนอะไรก็ตาม ข้อผิดพลาดที่ยากมักจะบ่งชี้ว่าโมดูลหน่วยความจำหลวม, ชิปเป่า, ข้อบกพร่องเมนบอร์ดหรือปัญหาทางกายภาพอื่น ๆ พวกเขาค่อนข้างง่ายต่อการวินิจฉัยและแก้ไขเนื่องจากมีความสอดคล้องและทำซ้ำได้
เสียงเหมือนเซิร์ฟเวอร์ทั้งหมดที่ใช้ในการศึกษาใช้ ECC ดังนั้นเราจึงไม่สามารถทราบอัตราความผิดพลาดของ ECC เทียบกับที่ไม่ใช่ของ ECC ..
กระดาษนี้ศึกษาอุบัติการณ์และลักษณะของข้อผิดพลาด DRAM ในฝูงสินค้าเซิร์ฟเวอร์ขนาดใหญ่ การศึกษาของเราขึ้นอยู่กับข้อมูลที่เก็บรวบรวมมานานกว่า 2 ปีและครอบคลุม DIMM ของผู้ค้าหลายรายหลายชั่วอายุคนเทคโนโลยีและความสามารถ DIMM ทั้งหมดติดตั้งตรรกะการแก้ไขข้อผิดพลาด (ECC) เพื่อแก้ไขข้อผิดพลาดบิตเดียวอย่างน้อยที่สุด
ECC มีข้อดีหลายประการมากกว่าความเท่าเทียมกัน สำหรับหนึ่งมันสามารถตรวจจับและซ่อมแซมข้อผิดพลาดบิตเดียวและทำเช่นนั้นโดยไม่ต้องหยุดทั้งระบบ ข้อผิดพลาดแบบหลายบิตจะยังคงส่งคืนข้อผิดพลาดแบบพาริตี แต่อัตราต่อรองของสิ่งนี้เกิดขึ้นน้อยทางดาราศาสตร์ในช่วงอายุของพีซีเว้นแต่ว่าหน่วยความจำของตัวเองจะเสีย ECC เป็นเหมือนประกันรถยนต์: ครอบคลุมคุณในเรื่องส่วนใหญ่ที่อาจผิดพลาด แต่ก็ไม่สามารถป้องกันไม่ให้มีรถหลายกอง
รายละเอียดเพิ่มเติมได้ที่นี่: หน่วยความจำ ECC: ต้องมีสำหรับเซิร์ฟเวอร์ไม่ใช่สำหรับพีซีตั้งโต๊ะ
ในการทำให้สิ่งต่าง ๆ ง่ายขึ้นการอ้างอิงจากWikipedia :
การรบกวนทางไฟฟ้าหรือสนามแม่เหล็กในระบบคอมพิวเตอร์สามารถทำให้ DRAM หนึ่งบิตพลิกกลับไปยังสถานะตรงกันข้ามได้เอง ในตอนแรกคิดว่านี่เป็นสาเหตุหลักมาจากอนุภาคแอลฟาที่ปล่อยออกมาจากสิ่งปนเปื้อนในวัสดุบรรจุภัณฑ์ของชิป แต่การวิจัย [5] แสดงให้เห็นว่าข้อผิดพลาดครั้งเดียว ("อ่อน") ส่วนใหญ่ในชิป DRAM เกิดขึ้นเนื่องจากรังสีพื้นหลัง
...
ปัญหานี้สามารถบรรเทาได้โดยใช้โมดูล DRAM ที่มีบิตหน่วยความจำเพิ่มเติมและตัวควบคุมหน่วยความจำที่ใช้ประโยชน์จากบิตเหล่านี้ บิตพิเศษเหล่านี้ใช้สำหรับบันทึกพาริตี้หรือใช้รหัสแก้ไขข้อผิดพลาด