ฉันจะทราบได้อย่างไรว่าดิสก์ล้มเหลวใน ESXi / ข้อผิดพลาดเหล่านี้หมายถึงอะไร


10

ฉันมีเซิร์ฟเวอร์ที่ใช้งาน VMware ESXi v4.1.0 348481 แต่ก็มี RAID10 ฮาร์ดแวร์และไดรฟ์สำรอง SATA ฉันมี VM ที่ใช้ซึ่งมีบูตหลัก vmdk บนที่เก็บข้อมูล RAID10 และ 600 GB vmdk บนที่เก็บข้อมูลสำรองของไดรฟ์ SATA VM รัน Debian linux ด้วยเคอร์เนล FreeBSD และใช้ ZFS สำหรับไดรฟ์สำรอง

แก้ไข:ไดรฟ์ไม่ได้เชื่อมต่อโดยตรงกับ VM มันถูกใช้เป็น VMware Datastore และ VM มี vmdk บนที่เก็บข้อมูลของไดรฟ์ SATA ที่เก็บข้อมูลไม่เต็ม (เต็ม 65% เท่านั้น)

ฉันเข้าสู่เซิร์ฟเวอร์โดยใช้ SSH และพบว่าการสำรองข้อมูลเมื่อคืนที่ผ่านมาหยุดทำงานและzfs listหรือzpool listทั้งสองหยุดทำงาน ดังนั้นฉันจึงเปิดคอนโซลเสมือนใน ESXi และรู้สึกเศร้าที่เห็น:

ภาพหน้าจอนี้ทำให้ฉันเศร้า

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

ฉันพยายามรีบูต VM และได้รับข้อความว่าระบบกำลังจะรีบูตแล้วจึงหยุดทำงาน (^ C ปรากฏขึ้น แต่ไม่ฆ่าshutdown) ฉันไม่สามารถหยุดยั้งหรือหรือกระบวนการ - ไม่มีอะไรเกิดขึ้นเมื่อฉันพยายามkill -9zpool list zfs listrsync

  1. สิ่งนี้จะทำให้ไดรฟ์ SATA สำรองข้อมูลล้มเหลวหรือไม่ หรืออาจเป็นเพียงข้อผิดพลาด ESXi
  2. ลูกค้า vSphere จะทราบได้อย่างไรว่าไดรฟ์เกิดขัดข้อง ฉันไม่เห็นสิ่งบ่งชี้ใด ๆ ทุกอย่างภายใต้สถานะสุขภาพฮาร์ดแวร์ดูดีและฉันไม่เห็นสิ่งใดภายใต้การกำหนดค่าการจัดเก็บข้อมูล
  3. ฉันจะดำเนินการจากที่นี่ได้อย่างไร ฉันควรรีบูต VM อย่างหนักหรือไม่

UPDATE:ฉันเพิ่งรีบูต VM อย่างหนัก หลังจากกลับมาออนไลน์อีกครั้ง zpool สำรองออนไลน์อยู่อย่างไรก็ตาม:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

ฉันกำลังเอนกายลงอย่างหนักเพื่อเปลี่ยนไดรฟ์ ...

คำตอบ:


5

ข้อผิดพลาดเหล่านั้นบ่งบอกถึงหนึ่งในไดรฟ์ SATA ที่พบว่ามีบล็อกเสียมากพอที่จะจัดสรรพื้นที่บล็อกใหม่ ไดรฟ์นั้นไม่ดีและจำเป็นต้องเปลี่ยนใหม่ ฉันไม่แน่ใจว่าที่ใดในไคลเอนต์ vSphere ที่แสดงข้อมูล แต่รายการบันทึกนั้นค่อนข้างชัดเจน

หากฮาร์ดแวร์ของคุณอนุญาตให้ใช้งาน hot-swap ได้ มิฉะนั้นคุณจะต้องปิดทุกอย่างเพื่อทำการเปลี่ยนแปลง หาก VM นั้นไม่ได้ปิดตัวลงหลังจากผ่านไป 30 นาทีก็ถึงเวลาที่จะยุติการใช้งานอย่างหนัก มันมีความเสี่ยง แต่ถ้าแขวนไว้จริง ๆ ก็ไม่มีอะไรมาก


ขอบคุณ @ sysadmin1138 ดังนั้นแม้ว่าข้อผิดพลาดเหล่านั้นจะแสดงอยู่ภายใน VM แต่ก็แสดงให้เห็นอย่างชัดเจนว่าปัญหาฮาร์ดแวร์จริงหรือไม่ IE ไม่ใช่ VMware ที่น่าแปลกใจใช่ไหม
จอช

@ Josh หากคุณนำเสนอไดรฟ์ SATA โดยตรงไปยัง VM คุณจะเห็นว่า สำหรับพื้นที่เก็บข้อมูลสำรองไฟล์ฉันมีความมั่นใจน้อยกว่า อาจเป็นไปได้ว่าที่เก็บข้อมูลของคุณไม่มีที่ว่าง
sysadmin1138

ฉันควรจะชี้แจงว่า มันเป็นไฟล์ที่เก็บข้อมูลสำรอง ที่เก็บข้อมูลมีพื้นที่มากมาย: มันเป็นไดรฟ์ 1TB และ VMDK คือ 600 GB ไม่มีอะไรอยู่บนดิสก์ ไม่ว่าจะด้วยวิธีใดมันเป็นสิ่งที่ผิดอย่างชัดเจนดังนั้นหากไม่มีใครให้คำอธิบายที่ชัดเจนเกี่ยวกับสิ่งที่อาจเป็นได้ฉันจะแทนที่ไดรฟ์
Josh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.