การทดสอบฮาร์ดแวร์อัตโนมัติของเซิร์ฟเวอร์ HP


9

ในฐานะส่วนหนึ่งของการจัดเตรียมเซิร์ฟเวอร์เราเรียกใช้ Insight Diagnostics ของ HP เพื่อทดสอบฮาร์ดแวร์ นี่เป็นกระบวนการแบบแมนนวล มีวิธีการทำงานของ Insight Diagnostics โดยอัตโนมัติหรือไม่?

มีซอฟต์แวร์ hpdiags พร้อมตัวเลือก "-rd:" "เรียกใช้การวิเคราะห์อุปกรณ์ที่วินิจฉัยได้ทั้งหมด" จากการทดสอบของฉันนี้ไม่ได้ทำอะไรมาก (มันแค่อ่านข้อมูลสมาร์ทจากดิสก์) มีใครโชคดีกับมันบ้างไหม?

ฮาร์ดแวร์: BladeCenter c7000 พร้อมใบมีด HP ProLiant BL460c, DL360s

ระบบปฏิบัติการ: ESXi และ Ubuntu


2
คำตอบสั้น ๆ คือฉันไม่สนใจที่จะทำสิ่งนี้ในสภาพแวดล้อมขนาดใหญ่ การตรวจสอบและวินิจฉัยออนบอร์ดนั้นเพียงพอแล้ว แต่คุณสามารถให้ข้อมูลบางอย่างเกี่ยวกับเซิร์ฟเวอร์รุ่นที่คุณกำลังใช้งานอยู่ได้หรือไม่? และอาจเกี่ยวข้องกับระบบปฏิบัติการ
ewwhite

ฉันอัพเดตตั๋วด้วยข้อมูลที่ร้องขอ
Mark Wagner

คุณกำลังติดตั้ง ESXi เวอร์ชันเฉพาะของ HP หรือไม่ คุณติดตั้ง HP Management Agent บนระบบ Ubuntu หรือไม่? เซิร์ฟเวอร์รุ่นใดที่ G6? G7? Gen8?
ewwhite

ตัวแทนการจัดการของ HP นั้นได้รับการติดตั้งบน ESXi และ Ubuntu เซิร์ฟเวอร์คือ Gen8 และจะเป็น Gen9
Mark Wagner

8
I updated the ticket with the requested info- นั่นทำให้ฉันหัวเราะ นี่ไม่ใช่ฝ่ายช่วยเหลือ
joeqwerty

คำตอบ:


8

ดังนั้นฉันจะถามคำถามอื่น:

เหตุใดจึงจำเป็นต้องเรียกใช้การวินิจฉัยฮาร์ดแวร์ HP Insight บนเซิร์ฟเวอร์ก่อนการจัดเตรียม?

ในความคิดเห็นของฉันด้านบนฉันแสดงให้เห็นว่ามีเพียงเล็กน้อยที่จะได้รับจากการทำสิ่งนี้ไว้ล่วงหน้าในสภาพแวดล้อม HP ProLiant ขนาดใหญ่ ฉันควรอธิบายความคิดของฉันให้ชัดเจน ...

ตามความถี่จากมากไปน้อยให้ดูประเภทของปัญหาที่คุณมักพบ:

  • อาร์เรย์และดิสก์หน่วยเก็บข้อมูล : ตัวควบคุม RAID จะรายงานไปยังระบบปฏิบัติการ, บันทึก, SNMP, อีเมล, ILO และส่องสว่างไฟสวยเพื่อบ่งบอกถึงสุขภาพ

  • RAM : กระบวนการ POST จะตรวจสอบสถานะ RAM, เช่นเดียวกับการรายงานระบบปฏิบัติการ, บันทึก, SNMP, อีเมล์, องค์การแรงงานระหว่างประเทศและการส่องสว่างไฟ LED ที่แผงด้านหน้าระบบ Insight จอแสดงผล (SID) นอกจากนี้ฉันไม่ใช่แฟนของกระบวนการเบิร์นอิน RAMเนื่องจากการตรวจจับข้อผิดพลาดของระบบเหล่านี้มีประสิทธิภาพอยู่แล้ว

  • ความร้อนและพัดลม : อุณหภูมิของเซิร์ฟเวอร์และความเร็วพัดลมถูกควบคุมโดย ILO มีเซ็นเซอร์อุณหภูมิมากกว่า 30 ระบบในระบบเหล่านี้ดังนั้นระบบระบายความร้อนจึงมีประสิทธิภาพอย่างมาก สิ่งนี้ยังคงรายงานไปยังระบบปฏิบัติการบันทึก SNMP อีเมลและบน SID

  • แหล่งจ่ายไฟ : รายงานสถานะ PSU ไปยังระบบปฏิบัติการบันทึก SNMP อีเมลและบน SID รวมถึงไฟแสดงสถานะที่แท้จริงของหน่วยจ่ายไฟจริง

  • สุขภาพโดยรวม : สิ่งนี้ง่ายต่อการประเมินจากภาพรวมด้วยหน้าจอ SID นอกเหนือจาก LED สุขภาพภายในและ LED ภายนอกสุขภาพ สิ่งนี้จะถูกรายงานไปยังบันทึกของเซิร์ฟเวอร์, SNMP, อีเมลและ ILO

ป้อนคำอธิบายรูปภาพที่นี่

ฉันไม่สามารถนึกถึงเงื่อนไขใด ๆ ที่จะพบการปรับใช้ล่วงหน้าที่จะไม่ / ไม่สามารถรายงานได้ในระหว่างรันไทม์หรือติดตั้งระบบปฏิบัติการหลัง

ลูปการวินิจฉัยมักจะไม่พบสิ่งใดเมื่อรันบนระบบที่ไม่มีปัญหาก่อนหน้านี้ที่ชัดเจน นี่เป็นสาเหตุหลักเนื่องจากเซิร์ฟเวอร์ต้องการ POST และบู๊ตเป็นยูทิลิตี้หรือเฟิร์มแวร์อัจฉริยะการจัดเตรียมเพื่อเรียกใช้ยูทิลิตี้

อีกวิธีหนึ่งรายการใด ๆ ที่อาจเป็น "SPOF" ร้ายแรงสำหรับเซิร์ฟเวอร์อาจป้องกันไม่ให้ระบบทำการวินิจฉัยตนเอง

รายการความล้มเหลวที่พบบ่อยที่สุดยังคงแข็งแกร่ง; ดิสก์ควรอยู่ใน RAID และเป็นแบบถอดเปลี่ยนได้ พัดลมและพาวเวอร์ซัพพลายนั้นสามารถถอดเปลี่ยนได้อย่างรวดเร็ว RAM ของคุณมีเกณฑ์ ECC และมีตัวเลือกสำรองออนไลน์สำหรับแพลตฟอร์ม ProLiant ส่วนใหญ่ ไม่มีสิ่งใดที่คุณสามารถทำได้เพื่อก่อให้เกิดความล้มเหลวในส่วนประกอบเหล่านี้โดยการรันการวินิจฉัย เพิ่มความจริงที่ว่าคุณกำลังใช้กล่องหุ้ม HP C7000 Blade ซึ่งมีความซ้ำซ้อนภายในและอุบัติการณ์ความล้มเหลวของคุณน่าจะต่ำมาก


ปัญหาคือถ้า (a) ตรวจพบข้อผิดพลาดหลังการติดตั้งระบบปฏิบัติการ (เช่นเซิร์ฟเวอร์กำลังผลิต), (b) การซ่อมแซมไม่สามารถทำได้ทางออนไลน์หรือส่วนประกอบที่ล้มเหลวคือ SPOF สำหรับเซิร์ฟเวอร์และ (c) เซิร์ฟเวอร์เป็น SPOF จากนั้น คุณจะพบกับการหยุดทำงาน (ทันทีหรือเมื่อระบบถูกนำไปซ่อมแซม) เพื่อป้องกันข้อสรุปคุณจำเป็นต้องป้องกันหนึ่งในเงื่อนไข ฉันไปเพื่อ (ก) โดยตรวจจับความผิดก่อนการผลิต ฉันขอขอบคุณอย่างละเอียดในรายละเอียดความสามารถในการรายงาน แต่ฉันกำลังมองหาเพื่อป้องกันไม่ให้ต้องรายงานพวกเขาในสถานที่แรกเพราะพวกเขาไม่ได้เกิดขึ้น
Mark Wagner

การวนซ้ำของการวินิจฉัยของ HP มีแนวโน้มว่าจะไม่พบสิ่งใดเลยเนื่องจากเซิร์ฟเวอร์ต้องการPOSTและบูตลงในยูทิลิตี้หรือการจัดเตรียมอย่างชาญฉลาดเพื่อเรียกใช้การวินิจฉัย รายการความล้มเหลวที่พบได้ทั่วไปนั้นค่อนข้างแข็งแกร่ง ดิสก์พัดลมและอุปกรณ์จ่ายไฟสามารถถอดเปลี่ยนได้อย่างรวดเร็ว RAM มีเกณฑ์ ECC ไม่มีสิ่งใดที่คุณสามารถทำได้เพื่อชักนำให้เกิดความล้มเหลวในส่วนประกอบเหล่านี้
ewwhite
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.