วิธีการตรวจสอบสาเหตุของความผิดพลาดของระบบ?


10

เซิร์ฟเวอร์ของฉันล่มสัปดาห์ละครั้งและไม่ทิ้งร่องรอยใด ๆ ว่าเป็นสาเหตุอะไร ฉันได้ตรวจสอบ/var/log/messagesแล้วและจะหยุดการบันทึก ณ จุดหนึ่งและเริ่มที่ข้อมูลการโพสต์คอมพิวเตอร์เมื่อฉันทำการรีบูตเครื่อง

มีบางอย่างที่ฉันสามารถตรวจสอบหรือซอฟต์แวร์ที่ฉันสามารถติดตั้งที่สามารถระบุสาเหตุได้หรือไม่?

ฉันใช้ CentOS 7 อยู่

นี่เป็นข้อผิดพลาด / ปัญหาเดียวใน/var/log/dmesg: https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)

คำตอบ:


6

หากคุณcrashkernel/kdumpติดตั้งและเปิดใช้งานคุณควรจะตรวจสอบเคอร์เนลที่ล้มเหลวโดยใช้crashประโยชน์ได้ง่าย ตัวอย่างเช่นสมมติว่าคุณตกทิ้งเคอร์เนลจะถูกบันทึกไว้ภายใต้/var/crash: -rcrash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/ uname/vmlinux

ดูรายละเอียดเพิ่มเติมที่นี่และที่นี่


ฉันได้ซ่อมแซม/dev/md1 not foundข้อผิดพลาดเมื่อทำงานgrub2-probeและติดตั้งและกำหนดค่า crashkernel / kdump และจะรายงานกลับหาก / เมื่อเกิดปัญหาอีกครั้ง
Brian Graham

5

คุณสามารถตรวจสอบไฟล์ dmesg ที่/var/log/dmesgซึ่งกำลังบันทึกข้อความเคอร์เนล บันทึกข้อความเป็นเพียงบริการบันทึกและข้อความแอปพลิเคชันและหากคุณมีข้อผิดพลาดเคอร์เนลบริการและแอปพลิเคชันจะหยุดทำงาน แต่ข้อผิดพลาดเคอร์เนลยังคงถูกบันทึกไว้ใน dmesg


ฉันตรวจสอบ dmesg และ dmesg.old ทั้งสองมีเพียงข้อมูลเริ่มต้น (ประมาณ 4.8 วินาที) "ปัญหา" เท่านั้นที่ฉันเห็นคือดิสก์เริ่มต้นหรือไดรฟ์ตรวจค้นดูเหมือนจะมีบางอย่างผิดปกติ แต่ระบบแก้ไขและทำงานโดยไม่คำนึงถึง ตรวจสอบโพสต์หลักสำหรับลิงค์
Brian Graham

2
  • การทดสอบหน่วยความจำไบออส
  • ไบออสทดสอบฮาร์ดไดรฟ์
  • ตรวจสอบบันทึกของไดรฟ์อัจฉริยะ smartctl /dev/sda -a
  • การทดสอบไดรฟ์อัจฉริยะ
  • ปล่อยให้dmesg -wHทำงานในหน้าต่าง

ฉันใช้การทดสอบสมาร์ทไดรฟ์กับไดรฟ์ทั้ง 3 ตัวพวกเขาไม่ได้ถูกขัดจังหวะ ฉันdmesg -wHทำงานในหน้าต่าง (ฉันคิดว่าจนกว่ามันจะล้มเหลวอีกครั้งและยังสามารถอ่านผลลัพธ์หลังจากความล้มเหลวมากกว่า SSH) ฉันไม่สามารถเข้าถึงเครื่องได้ฉันขอให้โฮสต์ของฉันรันหน่วยความจำไบออสและการทดสอบฮาร์ดไดรฟ์หรือไม่
Brian Graham
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.