ฉันจะตีความข้อความ MCE ได้อย่างไร


10

ฉันสังเกตเห็นข้อผิดพลาดมากมายที่เพิ่งปรากฏ/var/log/messagesบนเซิร์ฟเวอร์ของเรา (ด้านล่าง) อย่างไรก็ตามไคลเอนต์ mce ดูเหมือนจะมีความแน่นอนน้อยกว่าแหล่งที่มาของข้อผิดพลาดกว่ารายการถอดรหัสใน syslog มีคีย์บางชนิดที่ใช้ในการแปลเอาต์พุต MCE หรือไม่?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

ดูเหมือนว่าข้อผิดพลาดทั้งหมดจะเชื่อมต่อกับหน่วยความจำเดียวกัน:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

ฉันมี mcelog daemon กำลังทำงานอยู่และเมื่อฉันตรวจสอบข้อมูลข้อผิดพลาดดูเหมือนจะไม่ทราบว่าข้อผิดพลาดมาจากที่ใด เฉพาะที่เกี่ยวข้องCPU0เท่านั้น (เรามี CPU เพียงตัวเดียวในกล่องนี้):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

ยังไม่ชัดเจนว่าฉันจะตีความข้อมูลนี้อย่างไร ในมือข้างหนึ่งลูกค้า mce ไม่ได้ระบุช่องหรือ DIMM แต่ข้อความถอดรหัสบ่งชี้ข้อผิดพลาดที่เกิดขึ้นใน DIMM 8 dmesgดูเหมือนว่าจะระบุว่ามีเพียง 42 ข้อความที่ถูกบันทึก:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

ดูเหมือนว่าฉันจะได้รับข้อความที่หลากหลายซึ่งทำให้ฉันสงสัยว่าข้อสันนิษฐานที่จะทำขึ้นอยู่กับข้อมูลที่รายงานจากแหล่งข้อมูลต่างๆ

ข้อมูลอื่น ๆ :

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

คำตอบ:


2

คุณอาจต้องการลองแทนที่ DIMM ที่เป็นปัญหา (CPU 0, SOCKET 8) และดูว่าข้อความ MCE ยังคงถูกสร้างขึ้นหรือไม่

แพ็คเกจ mcelog มาพร้อมกับขีด จำกัด เริ่มต้นสำหรับเหตุการณ์ MCE ต่างๆที่เกิดขึ้นเมื่อเวลาผ่านไป ตรวจสอบ/etc/mcelog/mcelog.confรายละเอียด สำหรับข้อผิดพลาดของหน้าหน่วยความจำขีด จำกัด คือ 10 เหตุการณ์ใน 24 ชั่วโมง (ฉันไม่แน่ใจว่าตัวเลขนี้มาจากไหน แต่อาจเป็นจุดอ้างอิงที่สมเหตุสมผล) โพสต์ของคุณกล่าวถึง 77 เหตุการณ์ที่แก้ไขได้ใน 24 ชั่วโมงกับทั้งหน้ากระดาษดังนั้นจึงค่อนข้างเป็นไปได้ที่ DIMM จะพัฒนาปัญหาที่อาจหรืออาจจะกลายเป็นบางสิ่งที่ร้ายแรงกว่า

ฉันจะไม่รู้สึกหงุดหงิดเกินไปกับการรับข้อมูลที่ไม่สอดคล้องจากแหล่งข้อมูลที่แตกต่างกัน โดยทั่วไปแล้วฉันพบว่าสิ่งใดก็ตามที่ระดับเฟิร์มแวร์เป็นแพลตฟอร์มที่ค่อนข้างเฉพาะ (เช่นเฉพาะกับฮาร์ดแวร์รุ่นนั้น) กฎง่ายๆสำหรับปัญหาเกี่ยวกับเฟิร์มแวร์คือเครื่องมือของผู้จำหน่ายมักจะถูกต้องที่สุด แต่ใช้งานได้น้อยที่สุด เครื่องมือโอเพนซอร์ซทั่วไปที่ใช้งานได้ง่ายกว่า แต่อาจให้ข้อมูลไม่เพียงพอที่จะแสดงว่าเกิดอะไรขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.