“ mce: [ข้อผิดพลาดฮาร์ดแวร์]: เหตุการณ์การตรวจสอบเครื่องบันทึก” ปรากฏขึ้นใน syslog ฉันควรทำอย่างไรดี?


19

ฉันได้ติดตั้งOSSECเวอร์ชันล่าสุด(2.8.1) แล้วและยังเปิดใช้งานการแจ้งเตือนทางอีเมลด้วย และฉันได้รับการแจ้งเตือนประเภทต่างๆมากมายแจ้งว่ามีข้อผิดพลาดของฮาร์ดแวร์และบางอย่างเกี่ยวกับ mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

ดังนั้นสิ่งนี้หมายความว่าอย่างไร mce หมายถึงอะไร และนี่เป็นข้อผิดพลาดฮาร์ดแวร์ที่เห็นได้ชัดอะไรที่ฉันควรกังวลเกี่ยวกับ?


ข้อมูลระบบปฏิบัติการ:

Description:    Ubuntu 14.10
Release:    14.10

คุณจะต้องทำบิตของการอ่านบน OSSEC ดูกฎ - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders เว็บอินเตอร์เฟสช่วยได้เนื่องจากมีคำอธิบายมากมาย - ossec.net/wiki/index.php/OSSECWUI:Install
Panther


ossec อาจได้รับการสนับสนุนไม่ดีหรือปิดหัวข้อที่นี่เนื่องจากไม่ได้อยู่ในที่เก็บของ Ubuntu
Panther

1
นี่ไม่เกี่ยวกับ OSSEC เลย คุณได้รับการแจ้งเตือนนั้นเนื่องจาก OSSEC พบคำว่า "error" ใน syslog ถึงแม้ว่าผมจะไม่ได้คิดว่ามันเป็นปิดหัวข้อที่คุณอาจจะได้รับความช่วยเหลือเพิ่มเติมรูปแบบUnix และ Linuxหรือเซิร์ฟเวอร์ผิดพลาด
Eric Carvalho

4
@ bodhi.zazen สิ่งที่ต้องทำในหัวข้อนั้นจะถูกเรียกใช้บน Ubuntu ตอนนี้ไม่ได้หมายความว่าคุณจะได้รับคำตอบแน่นอน
เซท

คำตอบ:


23

ข้อยกเว้นการตรวจสอบเครื่อง :

เครื่องตรวจสอบข้อยกเว้น (MCE)เป็นชนิดของการผิดพลาดของฮาร์ดแวร์คอมพิวเตอร์ที่เกิดขึ้นเมื่อหน่วยประมวลผลกลางของคอมพิวเตอร์ตรวจพบปัญหาฮาร์ดแวร์

คอมพิวเตอร์ของคุณประสบข้อผิดพลาดด้านฮาร์ดแวร์และเคอร์เนลบันทึกเหตุการณ์ในบัฟเฟอร์ คุณสามารถใช้mcelogเพื่อบันทึกและดูเหตุการณ์การตรวจสอบเครื่อง จากmcelogmanpage :

X86 CPUs รายงานข้อผิดพลาดที่ตรวจพบโดย CPU เป็นเหตุการณ์การตรวจสอบเครื่อง (MCEs) สิ่งเหล่านี้สามารถตรวจพบความเสียหายของข้อมูลในแคชของ CPU ในหน่วยความจำหลักโดยคอนโทรลเลอร์หน่วยความจำในตัวข้อผิดพลาดในการถ่ายโอนข้อมูลบนบัสด้านหน้าหรือการเชื่อมต่อระหว่าง CPU หรือข้อผิดพลาดภายในอื่น ๆ สาเหตุที่เป็นไปได้คือรังสีคอสมิค, แหล่งจ่ายไฟที่ไม่เสถียร, ปัญหาการระบายความร้อน, ฮาร์ดแวร์ที่ชำรุด, ระบบที่ไม่มีข้อมูลหรือโชคไม่ดี

ข้อผิดพลาดส่วนใหญ่สามารถแก้ไขได้โดย CPU โดยกลไกการแก้ไขข้อผิดพลาดภายใน ข้อผิดพลาดที่ไม่ถูกแก้ไขทำให้เกิดข้อยกเว้นการตรวจสอบเครื่องซึ่งอาจฆ่ากระบวนการหรือทำให้เครื่องตกใจ ข้อผิดพลาดที่ถูกแก้ไขจำนวนเล็กน้อยมักไม่ใช่สาเหตุของความกังวล แต่จำนวนมากสามารถบ่งบอกถึงความล้มเหลวในอนาคต

เมื่อข้อผิดพลาดที่ถูกแก้ไขหรือกู้คืนเกิดขึ้นเคอร์เนล x86 จะเขียนบันทึกอธิบาย MCE ลงในบัฟเฟอร์วงแหวนภายในที่มีอยู่ผ่านอุปกรณ์ / dev / mcelog mcelog ดึงข้อผิดพลาดจาก / dev / mcelog ถอดรหัสพวกเขาในรูปแบบที่มนุษย์สามารถอ่านได้และพิมพ์พวกเขาในการส่งออกมาตรฐานหรือเลือกลงในบันทึกของระบบ

หากคุณไม่ได้สังเกตเห็นความผิดพลาดใด ๆ อาจเป็นไปได้ว่าข้อผิดพลาดนั้นได้รับการแก้ไขเรียบร้อยแล้ว ถึงกระนั้นฉันขอแนะนำให้คุณติดตั้งmcelogเพื่อติดตามเหตุการณ์ดังกล่าว:

sudo apt-get install mcelog

/var/log/mcelogเหตุการณ์ที่เกิดขึ้นจะได้รับการบันทึกลงใน คุณยังสามารถเรียกใช้:

sudo mcelog --client

เพื่อสอบถามmcelogdaemon สำหรับข้อผิดพลาด


2
ผมสงสัยว่าทำไมข้อผิดพลาด MCE จะไม่เพียงแค่เขียนโดยตรงกับระบบเข้าสู่ระบบ ... อาจจะเป็นบางเหตุผลที่ดีอาจจะ
Xen2050

2
@ Xen2050 เนื่องจากการถอดรหัสข้อความนั้นขึ้นอยู่กับสถาปัตยกรรมและไม่ได้รับการบันทึกไว้โดยผู้ผลิตฮาร์ดแวร์เสมอไป ข้อผิดพลาดสามารถสร้างได้โดย PCIe bus
Mircea Vutcovici

4
@ Xen2050: บนเครื่อง Fedora 25 ของฉันข้อความ MCE journalctl -bได้รับการเขียนไปยังวารสารฉันสามารถดูพวกเขาด้วย
Martin Ueding
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.