ดังนั้นฉันจะถามคำถามอื่น:
เหตุใดจึงจำเป็นต้องเรียกใช้การวินิจฉัยฮาร์ดแวร์ HP Insight บนเซิร์ฟเวอร์ก่อนการจัดเตรียม?
ในความคิดเห็นของฉันด้านบนฉันแสดงให้เห็นว่ามีเพียงเล็กน้อยที่จะได้รับจากการทำสิ่งนี้ไว้ล่วงหน้าในสภาพแวดล้อม HP ProLiant ขนาดใหญ่ ฉันควรอธิบายความคิดของฉันให้ชัดเจน ...
ตามความถี่จากมากไปน้อยให้ดูประเภทของปัญหาที่คุณมักพบ:
อาร์เรย์และดิสก์หน่วยเก็บข้อมูล : ตัวควบคุม RAID จะรายงานไปยังระบบปฏิบัติการ, บันทึก, SNMP, อีเมล, ILO และส่องสว่างไฟสวยเพื่อบ่งบอกถึงสุขภาพ
RAM : กระบวนการ POST จะตรวจสอบสถานะ RAM, เช่นเดียวกับการรายงานระบบปฏิบัติการ, บันทึก, SNMP, อีเมล์, องค์การแรงงานระหว่างประเทศและการส่องสว่างไฟ LED ที่แผงด้านหน้าระบบ Insight จอแสดงผล (SID) นอกจากนี้ฉันไม่ใช่แฟนของกระบวนการเบิร์นอิน RAMเนื่องจากการตรวจจับข้อผิดพลาดของระบบเหล่านี้มีประสิทธิภาพอยู่แล้ว
ความร้อนและพัดลม : อุณหภูมิของเซิร์ฟเวอร์และความเร็วพัดลมถูกควบคุมโดย ILO มีเซ็นเซอร์อุณหภูมิมากกว่า 30 ระบบในระบบเหล่านี้ดังนั้นระบบระบายความร้อนจึงมีประสิทธิภาพอย่างมาก สิ่งนี้ยังคงรายงานไปยังระบบปฏิบัติการบันทึก SNMP อีเมลและบน SID
แหล่งจ่ายไฟ : รายงานสถานะ PSU ไปยังระบบปฏิบัติการบันทึก SNMP อีเมลและบน SID รวมถึงไฟแสดงสถานะที่แท้จริงของหน่วยจ่ายไฟจริง
สุขภาพโดยรวม : สิ่งนี้ง่ายต่อการประเมินจากภาพรวมด้วยหน้าจอ SID นอกเหนือจาก LED สุขภาพภายในและ LED ภายนอกสุขภาพ สิ่งนี้จะถูกรายงานไปยังบันทึกของเซิร์ฟเวอร์, SNMP, อีเมลและ ILO
ฉันไม่สามารถนึกถึงเงื่อนไขใด ๆ ที่จะพบการปรับใช้ล่วงหน้าที่จะไม่ / ไม่สามารถรายงานได้ในระหว่างรันไทม์หรือติดตั้งระบบปฏิบัติการหลัง
ลูปการวินิจฉัยมักจะไม่พบสิ่งใดเมื่อรันบนระบบที่ไม่มีปัญหาก่อนหน้านี้ที่ชัดเจน นี่เป็นสาเหตุหลักเนื่องจากเซิร์ฟเวอร์ต้องการ POST และบู๊ตเป็นยูทิลิตี้หรือเฟิร์มแวร์อัจฉริยะการจัดเตรียมเพื่อเรียกใช้ยูทิลิตี้
อีกวิธีหนึ่งรายการใด ๆ ที่อาจเป็น "SPOF" ร้ายแรงสำหรับเซิร์ฟเวอร์อาจป้องกันไม่ให้ระบบทำการวินิจฉัยตนเอง
รายการความล้มเหลวที่พบบ่อยที่สุดยังคงแข็งแกร่ง; ดิสก์ควรอยู่ใน RAID และเป็นแบบถอดเปลี่ยนได้ พัดลมและพาวเวอร์ซัพพลายนั้นสามารถถอดเปลี่ยนได้อย่างรวดเร็ว RAM ของคุณมีเกณฑ์ ECC และมีตัวเลือกสำรองออนไลน์สำหรับแพลตฟอร์ม ProLiant ส่วนใหญ่ ไม่มีสิ่งใดที่คุณสามารถทำได้เพื่อก่อให้เกิดความล้มเหลวในส่วนประกอบเหล่านี้โดยการรันการวินิจฉัย เพิ่มความจริงที่ว่าคุณกำลังใช้กล่องหุ้ม HP C7000 Blade ซึ่งมีความซ้ำซ้อนภายในและอุบัติการณ์ความล้มเหลวของคุณน่าจะต่ำมาก