APEI Generic Hardware Error


9

ในช่วงสัปดาห์ที่ผ่านมาเซิร์ฟเวอร์ของฉัน (ใช้งาน Debian Jessie) ได้รีบูตเครื่องสองครั้ง ใน syslog ฉันเห็นสิ่งนี้ก่อนการรีบูตแต่ละครั้งและไม่มีประเด็นอื่น:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

googling บางอย่างทำให้ฉันเชื่อว่าสิ่งนี้จะทำอย่างไรกับ ECC RAM ของฉันที่ตรวจจับและกู้คืนจากข้อผิดพลาด ถูกต้องหรือไม่ หากกำลังกู้คืนระบบจะรีบูตทำไม ฉันต้องการป้องกันไม่ให้ระบบทำการรีบูตถ้าเป็นไปได้

คำตอบ:


9

ดูเหมือนว่า RAM ของคุณล้มเหลวหรือมีข้อผิดพลาดที่ถูกแก้ไข ดูเหมือนความผิดพลาดเหล่านี้จะส่งผลกระทบต่อความสามารถในการทำงานและขึ้นอยู่กับความรุนแรงทั้งนี้ขึ้นอยู่กับความรุนแรงที่เกิดขึ้น

จากลักษณะของเธรดนี้บิตข้อความที่ส่วนท้ายเกี่ยวกับความยาวของส่วนข้อผิดพลาดที่เล็กเกินไปน่าจะเป็นผู้ร้าย

ข้อความที่ตัดตอนมา - [PATCH 1/1] efi: cper: รองรับความยาวแตกต่างกันของส่วนข้อผิดพลาด

บางฟิลด์อาจถูกเพิ่มในส่วนของข้อผิดพลาดในข้อมูลจำเพาะ UEFI ที่ใหม่กว่า ตัวอย่างเช่นฟิลด์ 'สำรอง', 'หมายเลขอันดับ', 'หมายเลขอ้างอิงบัตร' และ 'หมายเลขอ้างอิงโมดูล' จะถูกเพิ่มลงในส่วนข้อผิดพลาดของหน่วยความจำที่เริ่มต้นจาก UEFI ข้อมูลจำเพาะ 2.3 น่าเสียดายที่จะมีข้อความเตือนต่อไปนี้หากตรวจพบข้อผิดพลาดที่แก้ไขหน่วยความจำและฟิลด์ 'การแก้ไข' ใน struct acpi_generic_data น้อยกว่า 0x203 (ข้อกำหนด UEFI 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

พฤติกรรมนี้ทำให้เกิดข้อผิดพลาดที่แก้ไขนี้ไม่สามารถแสดงได้อย่างถูกต้อง เพื่อแก้ไขปัญหานี้โปรแกรมแก้ไขนี้สนับสนุนความยาวแตกต่างกันของข้อผิดพลาดสำหรับรุ่นข้อมูลจำเพาะ UEFI ที่แตกต่างกัน

และแพทช์นี้ใช้โครงสร้างที่กำหนดไว้ล่วงหน้าเพื่อล้างรหัสที่ซ้ำกันในฟังก์ชัน cper_estatus_print_section

ด้วยการใช้ชุดข้อมูลแก้ไขนี้ข้อผิดพลาดที่แก้ไขของหน่วยความจำสามารถแสดงได้อย่างถูกต้องหลังจากฉีดข้อผิดพลาด

ทดสอบบน v3.14-rc5 กับแพลตฟอร์ม Grantley และ Intel RAStool

ดังนั้นจึงดูเหมือนว่าแพทช์สำหรับข้อผิดพลาดนั้นอยู่ในผลงานและอาจมีอยู่ในเคอร์เนลเวอร์ชันใหม่กว่า


3

FYI ฉันดูเหมือนจะมีปัญหาที่คล้ายกันมากเช่นนี้

เมื่อเปิดออกโซลูชันก็นำหน่วยความจำออกแล้วทำการติดตั้งซ้ำและทุกอย่างกลับมาเป็นปกติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.