จะค้นหาโมดูลหน่วยความจำที่ผิดพลาดจากข้อความ MCE ได้อย่างไร


11

ฉันพยายามที่จะเข้าใจข้อความ MCE เพื่อค้นหาโมดูลหน่วยความจำที่ไม่ดีบนเซิร์ฟเวอร์ ข้อความนี้จะปรากฏใน/var/log/kern.logเซิร์ฟเวอร์เดียวที่ค้างสองครั้งในวันนี้

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

ฉันสงสัยว่าโมดูลหน่วยความจำไม่ดี เซิร์ฟเวอร์เป็น 2x Xeon E5-2650 พร้อมโมดูลหน่วยความจำ 8x8Go (8 สล็อตหน่วยความจำสำหรับแต่ละซีพียู)

นี่คือประชากรโมดูลหน่วยความจำจากlshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

ในขณะที่คุณสามารถสังเกตเห็นไม่มีโมดูลหน่วยความจำในธนาคาร # 5 ซึ่ง ดังนั้นคำถามของฉันคือ: คุณเห็นด้วยกับข้อความนี้เป็นเรื่องเกี่ยวกับความล้มเหลวของหน่วยความจำ? และถ้าเป็นเช่นนั้นฉันจะหาโมดูลที่จะถูกแทนที่ได้อย่างไร

คำตอบ:


10

ข้อผิดพลาดเหล่านี้มาจาก EDAC - การตรวจสอบข้อผิดพลาดและการแก้ไขระดับ edac_mc ของอุปกรณ์

เหตุการณ์ที่คุณได้รับคือเหตุการณ์ CE (ข้อผิดพลาดที่แก้ไขได้) สิ่งเหล่านี้บ่งชี้ว่า DIMM เริ่มล้มเหลว

EDAC ไม่ได้รายงานข้อมูลเฉพาะใด ๆ เกี่ยวกับแถวหน่วยความจำหรือช่องสัญญาณที่อ้างถึงดังนั้นจึงเป็นการยากที่จะบอกได้ว่าจะแทนที่อันใดจนกว่าจะล้มเหลว

แต่ให้ดูที่: / sys / devices / system / edac / mc / mc * และสิ่งนี้อาจบอกคุณอีกเล็กน้อยเกี่ยวกับแถว / dimm ที่อาจผิดปกติ

ตัวอย่างเช่น

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

ดูที่ฟิลด์ ce_count

ในหมายเหตุด้าน:

ระบบยังคงสามารถใช้งานได้ แต่มีความปลอดภัยน้อยกว่า การบำรุงรักษาเชิงป้องกันและการเปลี่ยนชิ้นส่วนเชิงรุกของหน่วยความจำ DIMM ที่แสดง CEs สามารถลดความน่าจะเป็นของเหตุการณ์ UE (ข้อผิดพลาดที่ไม่สามารถแก้ไขได้) และระบบ 'ความตื่นตระหนก'

ข้อมูลเพิ่มเติมเกี่ยวกับ edac ที่นี่:

https://www.kernel.org/doc/Documentation/edac.txt


หรือรีบูทและที่หน้าจอบูต GRUB ให้เลือก memtest และอาจทำให้คุณมีข้อมูลมากขึ้น
kamger

เช้านี้ไม่มีข้อความ MCE อีกต่อไป (ไม่มีการเข้าถึงเซิร์ฟเวอร์) รอให้ตรวจสอบ edac เป็นความคิดที่ดี!
Matg

1

มันสามารถช่วยในการติดตั้ง mcelog และเรียกใช้เป็น daemon ก็สามารถช่วยให้รายงานที่ดีขึ้น พวกเขายังคงเป็นความลับ แต่มีข้อมูลเพิ่มเติมเล็กน้อยเพื่อไปหา DIMM ตัวพิมพ์ใหญ่

mcelog ยังสามารถจัดการกับปัญหาแบบเรียลไทม์โดยการปิดการใช้งานเพจที่มีข้อผิดพลาดของหน่วยความจำมากเกินไปและทำให้คุณมีโอกาสมากขึ้นที่จะทำให้เครื่องทำงานได้นานขึ้นจนกว่าคุณจะสามารถกู้คืนได้


ขอบคุณมันเป็นสิ่งที่ฉันได้ทำ แต่ไม่มีข้อผิดพลาดตั้งแต่โพสต์ครั้งแรก เราตัดสินใจเปลี่ยน DIMM ทั้งหมด
Matg

บางครั้งข้อผิดพลาดจะหายไปชั่วคราวและบางครั้งพวกเขาก็ถูกผูกติดอยู่กับสถานที่ที่เฉพาะเจาะจงซึ่งไม่ค่อยได้สัมผัส หากข้อผิดพลาดไม่ได้ทำซ้ำฉันเป็นการส่วนตัวจะไม่ได้แทนที่ dimms และเพียงแค่คอยตรวจสอบ แต่การแทนที่นั้นก็ใช้ได้เช่นกัน
บารุคแม้แต่

1

ผู้ขายบางรายกล่าวว่าข้อผิดพลาดที่แก้ไขได้หลายอย่างในช่วงระยะเวลาหนึ่งนั้นไม่เป็นอันตราย

ตัวอย่างเช่น Oracle ระบุว่าจะแทนที่ DIMM เมื่อมีเหตุการณ์ใดเหตุการณ์หนึ่งต่อไปนี้เกิดขึ้น:

  • มากกว่า 24 ข้อผิดพลาดที่แก้ไขได้ (CEs) เกิดขึ้นใน 24 ชั่วโมงจาก DIMM เดียวและไม่มี DIMM อื่น ๆ ที่แสดง CE เพิ่มเติม

  • DIMM ล้มเหลวในการทดสอบหน่วยความจำภายใต้ BIOS เนื่องจากข้อผิดพลาดของหน่วยความจำไม่สามารถแก้ไขได้ (UCE)

  • UCEs เกิดขึ้นและการตรวจสอบแสดงว่าข้อผิดพลาดเกิดขึ้นจากหน่วยความจำ

สังเกตเห็น 24 ข้อผิดพลาดใน 24 ชั่วโมง

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

นอกจากนี้

หากมีมากกว่าหนึ่ง DIMM ที่มีประสบการณ์หลาย CE สาเหตุที่เป็นไปได้อื่น ๆ ของ CE จะต้องได้รับการพิจารณาโดยผู้เชี่ยวชาญที่มีคุณสมบัติของ Sun Support ก่อนที่จะเปลี่ยน DIMM ใด ๆ

ในจุดสุดท้าย HP กล่าวว่าคล้ายกันซึ่งอาจเป็นเพียงเฟิร์มแวร์เซิร์ฟเวอร์ที่ตรวจพบข้อผิดพลาดของหน่วยความจำผิด พวกเขากล่าวว่าในหลายกรณีการอัพเกรดเฟิร์มแวร์แก้ไขการแจ้งเตือนในเชิงบวกที่ผิดพลาด นี่อาจเป็นจริงโดยเฉพาะถ้าคุณเริ่มรับ MCE จาก DIMM ที่แตกต่างกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.