จะตรวจสอบ CentOS 6 Server VM Host ได้อย่างไรหลังจากที่เกิดไฟตก?


9

บ่ายนี้มีคนในสำนักงานของเราตัดสินใจดึงปลั๊กออกจากเซิร์ฟเวอร์ของเราเพราะมันกำลังพุ่งออกมาข้างนอก พวกเขาไม่ได้ปิดตัวเองพวกเขาเพียงดึงปลั๊กออกในขณะที่มันกำลังทำงานอยู่

เซิร์ฟเวอร์มีไดรฟ์ SATA 4 ตัวในการกำหนดค่าซอฟต์แวร์ RAID 10 และ LVM ทำงานอยู่ด้านบนของ RAID เซิร์ฟเวอร์กำลังเรียกใช้ CentOS 6.2 Minimal และเป็นโฮสต์เครื่องเสมือนโดยใช้ KVM ในขณะที่ไม่ได้เสียบปลั๊กมีเครื่องแขกจำนวนมากที่ทำงานบนคอมพิวเตอร์ แขกแต่ละคนมีพาร์ติชัน LVM หนึ่งพาร์ติชั่นที่ใช้โดยตรงเป็นฮาร์ดไดรฟ์ พาร์ติชันเกสต์คือ EXT3, EXT4 และ NTFS Host OS อยู่ในพาร์ติชัน EXT4

ต่อมาเมื่อพลังงานกลับมาคนนั้นเสียบกลับเข้าไปใหม่และเริ่มขึ้น เนื่องจากพวกเขาเสียบปลั๊กโดยไม่ต้องต่อจอภาพก่อนจึงไม่มีทางที่จะเห็นสิ่งที่เกิดขึ้นบนหน้าจอ ฉันพยายามแนบจอภาพตอนนี้ แต่มันไม่ทำงานเว้นแต่ว่าจอภาพเชื่อมต่อตอนบูต ฉันทิ้งไว้เหมือนเดิมจนกว่าฉันจะได้รับคำแนะนำเพราะฉันไม่ต้องการที่จะทำอะไรผิดพลาด (เพิ่มเติม)

ฉันสามารถเข้าสู่โฮสต์ผ่าน SSH ฉันยังไม่ได้บูตเครื่องใหม่ในกรณีที่มีบางสิ่งในบันทึกที่อาจเป็นประโยชน์

สิ่งที่ฉันต้องทำคือตรวจสอบดิสก์และพาร์ติชั่นทั้งหมดเพื่อตรวจสอบความถูกต้องของข้อมูลหากเป็นไปได้ ฉันคิดว่า RAID 10 ใช้แคชตามหน่วยความจำบางประเภทและฉันกังวลเกี่ยวกับไดรฟ์ที่ไม่สอดคล้องกันหรือไฟล์เสียหายหากมีสิ่งต่าง ๆ ในคิวเพื่อเขียนไปยังไดรฟ์ที่ยังไม่ได้เขียน

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

นอกจากนี้ยังรบกวนฉันว่ามันกำลังเรียกอาร์เรย์ของฉัน "near-ก๊อปปี้" เป็นเรื่องปกติหรือไม่

ฉันควรตรวจสอบดิสก์ชนิดใดเพื่อให้แน่ใจว่าทุกอย่างใช้ได้กับไดรฟ์และข้อมูล ฉันควรตรวจสอบสิ่งอื่นอีกหรือไม่

UPDATE

การส่งออกของ mdadm - รายละเอียด

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

คำตอบ:


3

RAID นั้นใช้ได้ทุก UUUU หมายถึงดิสก์ทั้งหมดในอาร์เรย์นั้นหมด ตอนนี้ฉันไม่ต้องกังวลเลย

สำหรับ VM ถ้าคุณต้องการเรียกใช้ fscks ให้หยุดและเรียกใช้ VM

fsck.ext3 (ext4, etc) /path/to/lvm (มักจะชอบ / dev / vg-name / lv-name)

หากคุณใช้ KVM คุณควรจะสามารถvirshทำสิ่งใดก็ตามที่คุณต้องการให้กับ VM นี่คือลิงค์ไปยังหน้าคน virsh http://linux.die.net/man/1/virsh

หากคุณต้องการเรียกใช้การตรวจสอบดิสก์ในอาร์เรย์การโจมตีของคุณคุณจะต้องบูตระบบใหม่ในโหมดผู้ใช้คนเดียวหรือบูตจากซีดีสดเพื่อที่คุณจะสามารถใช้อุปกรณ์แต่ละตัว / dev / mdX ได้ เนื่องจากระบบไฟล์หลักคือ EXT4 ฉันไม่รำคาญเลยมันดีกว่า EXT3 มากด้วยปัญหาไฟดับ


+1 จะลองในวันพรุ่งนี้
Nick

1

ลอง mdadm --detail / dev / md0 (เหมือนกันสำหรับ md1 และ md2)

จากนั้นลองทำตามคำแนะนำที่นี่: http://linas.org/linux/raid.html


ฉันโพสต์ผลลัพธ์ของmdadm --detail /dev/md0ด้านบน ฉันอ่านคำแนะนำที่คุณเชื่อมโยงแล้ว แต่ไม่ได้พูดถึงระบบไฟล์ EXT4 หรือฉันสามารถตรวจสอบความถูกต้องได้อย่างไร
Nick

ประเภทระบบไฟล์ไม่ควรคำนึงถึงความสมบูรณ์ของ RAID หากคุณมีระยะเวลาการบำรุงรักษาคุณสามารถยกเลิกการต่อเชื่อมระบบไฟล์ได้รับผลกระทบและfsckพวกเขา หากคุณต้องการที่จะตรวจสอบอุปกรณ์ RAID echo "check" > /sys/block/md0/md/sync_actionตัวเองคุณสามารถทำสิ่งที่ชอบ หรือ echo "ซ่อมแซม" เพื่อทำการซ่อมแซม mdadm บางประเภท
cjc

ฉันจะลองในวันพรุ่งนี้และรายงานกลับ
Nick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.