ฉันมีระบบHP ProLiant DL360 G7ใหม่ที่แสดงปัญหาที่ยากต่อการทำซ้ำ เซิร์ฟเวอร์แบบสุ่มแฮงค์ที่" พลังงานและการสอบเทียบความร้อนในความคืบหน้า ... "หน้าจอในระหว่างกระบวนการ POST โดยทั่วไปจะทำตาม warm-boot / reboot จากระบบปฏิบัติการที่ติดตั้ง
ระบบจะหยุดเดินเครื่องอย่างไม่มีกำหนด ณ จุดนี้ การออกการรีเซ็ตหรือการสตาร์ทแบบเย็นผ่านการควบคุมพลังงานของ ILO 3 ทำให้การบู๊ตเป็นปกติโดยไม่มีปัญหา
เมื่อระบบอยู่ในสถานะนี้ส่วนต่อประสาน ILO 3 สามารถเข้าถึงได้อย่างเต็มที่และตัวบ่งชี้ความสมบูรณ์ของระบบทั้งหมดนั้นดี (สีเขียวทั้งหมด) เซิร์ฟเวอร์อยู่ในศูนย์ข้อมูลที่ควบคุมสภาพอากาศด้วยการเชื่อมต่อพลังงานไปยัง PDU อุณหภูมิโดยรอบคือ 64 ° F / 17 ° C ระบบถูกวางในการทดสอบส่วนประกอบ 24 ชั่วโมงก่อนการปรับใช้โดยไม่มีความล้มเหลว
ระบบปฏิบัติการหลักสำหรับเซิร์ฟเวอร์นี้คือ VMWare ESXi 5 เราได้ลองใช้ 5.0 และรุ่นที่ใหม่กว่า 5.1 แล้ว ทั้งสองถูกปรับใช้ผ่านการบูต PXE และ kickstart นอกจากนี้เรากำลังทดสอบกับการติดตั้ง Windows เปล่าและ Red Hat Linux
ระบบ HP ProLiant มีชุดตัวเลือก BIOS ที่ครอบคลุม เราได้ลองใช้การตั้งค่าเริ่มต้นเพิ่มเติมจากโปรไฟล์ประสิทธิภาพสูงคงที่ ฉันปิดการใช้งานหน้าจอเริ่มระบบบูตและเพิ่งเคอร์เซอร์กะพริบที่จุดนั้นเทียบกับภาพหน้าจอด้านบน เราได้ลองใช้"แนวทางปฏิบัติที่ดีที่สุด" ของ VMWare สำหรับการกำหนดค่า BIOSด้วย เราเห็นคำแนะนำจาก HP ที่ดูเหมือนจะร่างปัญหาที่คล้ายกันแต่ไม่ได้แก้ไขปัญหาเฉพาะของเรา
ฉันสงสัยว่าปัญหาฮาร์ดแวร์ฉันมีผู้ขายส่งระบบที่เหมือนกันสำหรับการจัดส่งในวันเดียวกัน เซิร์ฟเวอร์ใหม่นั้นเป็นบิลด์ที่เหมือนกันอย่างสมบูรณ์ยกเว้นดิสก์ เราย้ายดิสก์จากเซิร์ฟเวอร์เก่าไปยังดิสก์ใหม่ เราประสบปัญหาการบู๊ตแบบสุ่มบนฮาร์ดแวร์ทดแทน
ตอนนี้ฉันมีเซิร์ฟเวอร์ทั้งสองทำงานพร้อมกัน ปัญหาเกิดขึ้นแบบสุ่มบนรองเท้าบูทที่อบอุ่น รองเท้าเย็นไม่ได้มีปัญหา ฉันกำลังดูการตั้งค่า BIOS ลึกลับมากกว่าเช่นปิดการใช้งาน Turbo Boost หรือปิดการใช้งานฟังก์ชั่นการสอบเทียบพลังงานทั้งหมด ฉันสามารถลองสิ่งเหล่านี้ได้ แต่ไม่จำเป็น
ความคิดใด ๆ
--edit--
รายละเอียดระบบ:
- DL360 G7 - 2 x X5670 Hex-Core CPU
- 96GB of RAM (12 x 8GB DIMM แรงดันต่ำ)
- ฮาร์ดไดรฟ์ SAS 2 x 146GB 15k
- อุปกรณ์ไฟฟ้าสำรอง 2 x 750W
เฟิร์มแวร์ทั้งหมดเป็นรุ่นล่าสุดจาก HP Service Pack สำหรับ ProLiant DVD รุ่นล่าสุด
โทรหา HP และสืบค้น interwebz ฉันเคยเห็นว่ามีปฏิสัมพันธ์ระหว่าง ILO 3 ที่ไม่ดี แต่สิ่งนี้เกิดขึ้นกับเซิร์ฟเวอร์บนคอนโซลจริงเช่นกัน HP แนะนำแหล่งพลังงานด้วย แต่นี่เป็นชั้นวางดาต้าเซ็นเตอร์ที่สามารถขับเคลื่อนระบบการผลิตอื่น ๆ ได้สำเร็จ
มีโอกาสใดบ้างไหมที่สิ่งนี้อาจเป็นการตอบโต้ที่แย่ระหว่าง DIMM ไฟฟ้าแรงต่ำและอุปกรณ์ไฟฟ้า 750W? เซิร์ฟเวอร์นี้ควรเป็นการกำหนดค่าที่รองรับ