ฉันจะค้นหาหน่วยความจำที่มีข้อผิดพลาด CE ได้อย่างไร


12

ใน/var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

นี่คือedacบันทึกหนึ่งในหน่วยความจำมีceข้อผิดพลาด

ฉันอ่านedac doc แล้ว

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

และค้นหาช่องข้อผิดพลาด:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

และควรเป็นmc0/csrow0/ch2DIMM ที่ควรเป็นDIMM_C0และสามารถพบได้โดย dmidecode:

แต่ฉันไม่พบ DIMM นี้ดังนั้นฉันไม่รู้ว่าหน่วยความจำใดมีปัญหา:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

มี 12 ช่องและ 9 ช่องมีหน่วยความจำ

ดังนั้นฉันจะรู้ได้อย่างไรว่าหน่วยความจำใดมีปัญหา


เสริม:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

นี่เป็นเซิร์ฟเวอร์ประเภทใด ผู้ผลิตและรุ่นของเซิร์ฟเวอร์
ewwhite

@ ขาวขาวสวัสดีฉันอัปเดตคำถามด้วยข้อมูลระบบ
Tanky Woo

คุณใช้ระบบปฏิบัติการอะไร
ewwhite

@ewwhite OS คือUbuntu 12.04เคอร์เนลคือ3.10.20
Tanky Woo

โอ้ฉันขอโทษ ... Ubuntu ไม่รองรับฮาร์ดแวร์นี้จริง ๆ ดังนั้นคุณจึงสูญเสียความสามารถในการตรวจสอบอย่างถูกต้องโดยไม่ใช้ RHEL / CentOS / Debian / SuSE ...
ewwhite

คำตอบ:


8

ปัญหา DIMM ของคุณน่าจะเป็น - Locator: PROC 1 DIMM 5F

CPU # 0Channel # 2_DIMM # ​​0หมายถึง:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

แก้ไข:

เมื่อถามคำถามข้อมูลเพิ่มเติมจะดีกว่าเสมอ ... การมีผู้ผลิตเซิร์ฟเวอร์และรุ่นจะง่ายกว่านี้:

นี่คือแผนภาพหน่วยความจำจากHP ProLiant DL180 G6 Quickspecs :

ป้อนคำอธิบายรูปภาพที่นี่

ฉันแนะนำว่า DIMM ในสล็อต CPU # 1 ถูกต้อง ... แต่นี่คือฮาร์ดแวร์ของ HP คุณไม่จำเป็นต้องเดา !!

คุณควรใช้ตัวแทนการจัดการของ HP เนื่องจากพวกเขาสามารถแจ้งเตือนและให้รายละเอียดเฉพาะแพลตฟอร์มเกี่ยวกับสถานะของฮาร์ดแวร์และสถานะ ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

ขอบคุณมีเอกสารที่เกี่ยวข้องหรือไม่
Tanky Woo

@TankyWoo ใช่ดูด้านบน
ewwhite

PROC1 DIMM 5Fไม่มีหน่วยความจำคุณหมายถึงสล็อตไม่ได้รับการยืนยันจริงหรือ ฉันควรเพิ่ม hp deb mirror และติดตั้งhpamscliเพื่อรับ DIMM ที่ถูกต้องหรือไม่
Tanky Woo

ฉันติดตั้งhp-healthแล้วและStatusเป็นN/Aเช่นเดียวกับผลลัพธ์ที่คุณวาง
Tanky Woo

เรียกใช้hplog -vเพื่อตรวจสอบรายการในบันทึก HP IML
ewwhite
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.