ขึ้นอยู่กับฮาร์ดแวร์เซิร์ฟเวอร์ของคุณ whitebox หรือระบบ Supermicro จะจัดการสิ่งนี้แตกต่างจาก Dell, HP หรือ IBM ...
หนึ่งในคุณสมบัติเพิ่มมูลค่าของเซิร์ฟเวอร์ระดับไฮเอนด์คือมีระดับการรวมฮาร์ดแวร์ / ระบบปฏิบัติการ เซิร์ฟเวอร์ Nicer จะรายงานสิ่งที่คุณกำลังมองหาซึ่งเป็นส่วนหนึ่งของตัวแทนการจัดการและ / หรือโซลูชันการจัดการนอกวง (ILO, DRAC, IPMI)
คุณควรใช้เครื่องมือที่มีอยู่ในแพลตฟอร์มฮาร์ดแวร์ของคุณ
ข้อความที่ตัดตอนมาจากเซิร์ฟเวอร์ HP ProLiant ที่ใช้ Linux และเอเจนต์ HP Management:
Trap-ID=6056
ECC Memory Correctable Errors detected.
และ
Trap-ID=6052
Advanced ECC Memory Engaged
หรือรุนแรงมากขึ้น
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
หรือแย่ที่สุด ... ละเว้นข้อผิดพลาดเป็นเวลา 6 วันจนกว่าเซิร์ฟเวอร์จะล่มเนื่องจาก RAM ไม่ดี
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
สิ่งเหล่านี้ถูกบันทึกรวมถึงกับดัก SNMP และอีเมลที่ส่งไป
โดยทั่วไปคุณจะเห็นเครื่องตรวจสอบข้อยกเว้นในบัฟเฟอร์แหวนเคอร์เนลเพื่อให้คุณสามารถตรวจสอบdmesg
หรือเรียกใช้mcelog จากประสบการณ์ของฉันกับ Supermicro gear ที่ไม่มี IPMI นั้นไม่ได้จับทุกอย่างและฉันยังคงมีข้อผิดพลาดของ RAM ในการถอดรหัสและทำให้ไฟดับ น่าเสียดายที่สิ่งนี้นำไปสู่นโยบายการเบิร์นอินของ RAM แบบเก่าก่อนการปรับใช้ระบบ