แต่น่าเสียดายที่มันดูเหมือนว่าเราอาจจะไม่ได้ที่ด้านล่างของสิ่งที่ใช้เป็น แต่เพื่อให้ได้บางค่าจากเหตุการณ์ที่เกิดขึ้นนี้ผมต้องการที่จะสร้างคำตอบอ้างอิง นี่คือ VMware และการจัดการเลเยอร์เสมือนเป็นศูนย์กลาง ผู้ดูแลระบบจำนวนมากแยกออกจากกันและไม่สามารถเข้าถึงผู้เยี่ยมชมหรือที่เก็บข้อมูลได้อย่างรวดเร็วและนี่ก็เพื่อพวกเขา :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swfน่าจะตรงกับแอปพลิเคชันจริงที่สุดซึ่ง @MosheKatz พบ
หากสิ่งนี้เกิดขึ้นในอนาคตการสอบสวนควรเป็นดังนี้:
- คุณสังเกตเห็นบางส่วน แต่ไม่ใช่ VMs ทั้งหมดที่ล้มเหลว คุณสงสัยว่าเกิดจากปัญหาพื้นที่เก็บข้อมูล (เนื่องจากมักเป็นสาเหตุที่เป็นไปได้มากที่สุด)
- ก่อนอื่นให้พยายามแยกปัจจัยทั่วไป VMs ที่ล้มเหลวทั้งหมดแชร์ DataStore เดียวกันหรือไม่ ในกรณีนี้พวกเขามี แต่บางเครื่องก็โอเคเราจึงตัดปัญหาฮาร์ดแวร์ที่เห็นได้ชัดออก
- ตรวจสอบ VMs ที่ใช้งานไม่ได้เพื่อดูว่ามีปัจจัยทั่วไป (เวลาฟังก์ชั่น ฯลฯ ) หรือไม่ ในกรณีนี้ไม่มี
ตรวจสอบเหตุการณ์ผิดปกติอื่น ๆ มีบางสิ่งยกธงขึ้นที่นี่:
- ที่เก็บข้อมูล NFS เป็นแบบ thin-backup (บนระดับอาร์เรย์) ซึ่งหมายความว่าแม้ว่าเช่น 200GB ถูกนำเสนอต่อโฮสต์ ESXi ซึ่งมีเพียง 100GB เท่านั้น เฉพาะอาร์เรย์เท่านั้นที่มีความรู้นี้ สิ่งที่เราพบคือ VM จำนวนหนึ่งถูกหยุดชั่วคราวเนื่องจากพื้นที่ดิสก์หมด เราคิดว่านี่อาจเป็นสาเหตุของปัญหาดังนั้นการกระทำที่ไม่เหมาะสมของเราคือการจัดสรรพื้นที่เก็บข้อมูลเพิ่มเติมที่ส่วนหลังเพื่อลบสิ่งนี้เป็นปัญหา
เมื่อสิ่งนี้ได้รับการแก้ไข (การเปลี่ยนแปลง UI อย่างง่าย) และ VM ที่หยุดชั่วคราวเริ่มต้นใหม่ได้สำเร็จเรากลับสู่ปัญหาดั้งเดิม เราติดตั้งดิสก์เสมือนจาก VM ที่เสียหายไปยัง VM ที่ทำงานอยู่และเห็นว่าไม่มีตารางพาร์ติชันบนดิสก์ เราไม่มีโปรแกรมดูฐานสิบหกดังนั้นจึงต้องสมมติว่าดิสก์ว่างเปล่า
ระบบการตรวจสอบแจ้งเตือนไปยัง VM ใหม่ซึ่งเพิ่งตอบสนอง นี่เป็นเรื่องที่ยอดเยี่ยมเนื่องจากการโหลดของ VM มีเวลาไม่กี่นาทีก่อนที่จะไม่ตอบสนองเนื่องจากปัญหาพื้นที่ดิสก์ดังนั้นความจริงที่ว่า VM ใหม่นี้ถูกค้นพบอย่างรวดเร็วนั้นเป็นสัญญาณของการบริหารการตรวจสอบที่ดี
เราเปิดคอนโซลและตรวจสอบแขกและเห็นหน้าจอจับด้านบน
- ในขั้นตอนนี้ฉันไปที่ห้องแชทเซิร์ฟเวอร์เกิดข้อผิดพลาดเพื่อดูว่าสามารถระบุโปรแกรมได้หรือไม่ในขณะที่เพื่อนร่วมหน่วยเก็บข้อมูลของฉันได้ตรวจสอบบันทึกและเหตุการณ์เลเยอร์เสมือนทั้งหมดเพื่อให้แน่ใจว่าไม่มีการดำเนินการจัดเก็บข้อมูลจากพื้นที่ของเรา
- สิ่งที่เราควรทำคือระงับ VM, อนุญาตให้ไฟล์หยุดเขียนและวิเคราะห์ดัมพ์เพื่อดูว่าสามารถรันโปรแกรมที่สามารถระบุได้หรือไม่ ระงับ VM เป็น PDF หลัก VMware KB
ในตอนท้ายของวันเรารู้และเครื่องมือโครงสร้างพื้นฐานเสมือนจริงจะไม่ได้รับรายงานภายในแขกอย่างที่กล่าวมาข้างต้น เราจะเห็นว่าไม่มีการติดตั้ง ISO และไม่มีการบันทึกเหตุการณ์กับ VM เราสามารถเห็น VM ไม่ใช่ "ฮาร์ดพลังงานกรณื" เพียงเริ่มใหม่อย่างนุ่มนวล (สิ่งนี้มองไม่เห็นกับโครงสร้างพื้นฐานพื้นฐาน) เรารู้ว่ามันไม่ใช่ด้านการจัดเก็บเพราะเราได้จัดการเรื่องนี้ออกไปแล้ว เราสงสัยว่ามันไม่ได้เป็นแบบอัตโนมัติเนื่องจากมันเกิดขึ้นในช่วงเวลาไม่กี่ชั่วโมงสำหรับ VMs ที่เฉพาะเจาะจง เราคิดว่ามันไม่เป็นอันตรายเหมือนกันเพราะเหตุใดคอนโซลจึงรายงาน Disk Wipe หากเป็นเช่นนั้น :)
ดังนั้นข้อสรุปคือการล้างดิสก์ที่ผู้ใช้เริ่มต้น เท่าที่การสอบสวนของฉันไป แต่ฉันหวังว่าคุณจะพบว่ามีประโยชน์
บทเรียนที่ได้รับ:
- สำรองและทดสอบการกู้คืน
- ตรวจสอบให้แน่ใจว่าผู้ใช้ทุกคนผู้ใช้งานที่มีความพิเศษรู้ว่าพวกเขากำลังทำงานในสภาพแวดล้อมที่มีการจัดเตรียมบางและควรหลีกเลี่ยงสิ่งใด ๆ เช่นการจัดรูปแบบดิสก์ที่เขียนแล้ว (เช่นเขียนโหลด 1
- มีระบบการตรวจสอบที่ดี
- และสิ่งใหม่สำหรับฉัน: ในสภาพแวดล้อมเสมือนจริงขนาดใหญ่มีเครื่องมือ VM ที่พร้อมใช้งานแม้ปิดเครื่องด้วยเครื่องมือวินิจฉัยที่ติดตั้ง ประสิทธิภาพการจัดเก็บข้อมูลเครือข่าย หากสิ่งนี้พร้อมใช้งานเราสามารถติดตั้งและดำเนินการกับฐานสิบหกบนดิสก์ที่เสียหายเพื่อดูว่ามันว่างเปล่าจริง ๆ หรือไม่ก็หายไป mbr เราจะได้เห็นด้วยว่ามันเขียนด้วย 1 หรือเปล่า