HP ProLiant DL360 G7 ค้างที่หน้าจอ“ พลังงานและการปรับเทียบความร้อน”


41

ฉันมีระบบHP ProLiant DL360 G7ใหม่ที่แสดงปัญหาที่ยากต่อการทำซ้ำ เซิร์ฟเวอร์แบบสุ่มแฮงค์ที่" พลังงานและการสอบเทียบความร้อนในความคืบหน้า ... "หน้าจอในระหว่างกระบวนการ POST โดยทั่วไปจะทำตาม warm-boot / reboot จากระบบปฏิบัติการที่ติดตั้ง

ป้อนคำอธิบายรูปภาพที่นี่

ระบบจะหยุดเดินเครื่องอย่างไม่มีกำหนด ณ จุดนี้ การออกการรีเซ็ตหรือการสตาร์ทแบบเย็นผ่านการควบคุมพลังงานของ ILO 3 ทำให้การบู๊ตเป็นปกติโดยไม่มีปัญหา

เมื่อระบบอยู่ในสถานะนี้ส่วนต่อประสาน ILO 3 สามารถเข้าถึงได้อย่างเต็มที่และตัวบ่งชี้ความสมบูรณ์ของระบบทั้งหมดนั้นดี (สีเขียวทั้งหมด) เซิร์ฟเวอร์อยู่ในศูนย์ข้อมูลที่ควบคุมสภาพอากาศด้วยการเชื่อมต่อพลังงานไปยัง PDU อุณหภูมิโดยรอบคือ 64 ° F / 17 ° C ระบบถูกวางในการทดสอบส่วนประกอบ 24 ชั่วโมงก่อนการปรับใช้โดยไม่มีความล้มเหลว

ระบบปฏิบัติการหลักสำหรับเซิร์ฟเวอร์นี้คือ VMWare ESXi 5 เราได้ลองใช้ 5.0 และรุ่นที่ใหม่กว่า 5.1 แล้ว ทั้งสองถูกปรับใช้ผ่านการบูต PXE และ kickstart นอกจากนี้เรากำลังทดสอบกับการติดตั้ง Windows เปล่าและ Red Hat Linux

ระบบ HP ProLiant มีชุดตัวเลือก BIOS ที่ครอบคลุม เราได้ลองใช้การตั้งค่าเริ่มต้นเพิ่มเติมจากโปรไฟล์ประสิทธิภาพสูงคงที่ ฉันปิดการใช้งานหน้าจอเริ่มระบบบูตและเพิ่งเคอร์เซอร์กะพริบที่จุดนั้นเทียบกับภาพหน้าจอด้านบน เราได้ลองใช้"แนวทางปฏิบัติที่ดีที่สุด" ของ VMWare สำหรับการกำหนดค่า BIOSด้วย เราเห็นคำแนะนำจาก HP ที่ดูเหมือนจะร่างปัญหาที่คล้ายกันแต่ไม่ได้แก้ไขปัญหาเฉพาะของเรา

ฉันสงสัยว่าปัญหาฮาร์ดแวร์ฉันมีผู้ขายส่งระบบที่เหมือนกันสำหรับการจัดส่งในวันเดียวกัน เซิร์ฟเวอร์ใหม่นั้นเป็นบิลด์ที่เหมือนกันอย่างสมบูรณ์ยกเว้นดิสก์ เราย้ายดิสก์จากเซิร์ฟเวอร์เก่าไปยังดิสก์ใหม่ เราประสบปัญหาการบู๊ตแบบสุ่มบนฮาร์ดแวร์ทดแทน

ตอนนี้ฉันมีเซิร์ฟเวอร์ทั้งสองทำงานพร้อมกัน ปัญหาเกิดขึ้นแบบสุ่มบนรองเท้าบูทที่อบอุ่น รองเท้าเย็นไม่ได้มีปัญหา ฉันกำลังดูการตั้งค่า BIOS ลึกลับมากกว่าเช่นปิดการใช้งาน Turbo Boost หรือปิดการใช้งานฟังก์ชั่นการสอบเทียบพลังงานทั้งหมด ฉันสามารถลองสิ่งเหล่านี้ได้ แต่ไม่จำเป็น

ความคิดใด ๆ

--edit--

รายละเอียดระบบ:

  • DL360 G7 - 2 x X5670 Hex-Core CPU
  • 96GB of RAM (12 x 8GB DIMM แรงดันต่ำ)
  • ฮาร์ดไดรฟ์ SAS 2 x 146GB 15k
  • อุปกรณ์ไฟฟ้าสำรอง 2 x 750W

เฟิร์มแวร์ทั้งหมดเป็นรุ่นล่าสุดจาก HP Service Pack สำหรับ ProLiant DVD รุ่นล่าสุด

โทรหา HP และสืบค้น interwebz ฉันเคยเห็นว่ามีปฏิสัมพันธ์ระหว่าง ILO 3 ที่ไม่ดี แต่สิ่งนี้เกิดขึ้นกับเซิร์ฟเวอร์บนคอนโซลจริงเช่นกัน HP แนะนำแหล่งพลังงานด้วย แต่นี่เป็นชั้นวางดาต้าเซ็นเตอร์ที่สามารถขับเคลื่อนระบบการผลิตอื่น ๆ ได้สำเร็จ

มีโอกาสใดบ้างไหมที่สิ่งนี้อาจเป็นการตอบโต้ที่แย่ระหว่าง DIMM ไฟฟ้าแรงต่ำและอุปกรณ์ไฟฟ้า 750W? เซิร์ฟเวอร์นี้ควรเป็นการกำหนดค่าที่รองรับ


2
มีวิธีใดที่จะกำจัดดิสก์ในสาเหตุที่เป็นไปได้? โอกาสใดที่คุณสามารถทดสอบกับดิสก์ SAS หรือ SATA สำรองบางตัวได้
ErnieTheGeek

ใช่ทดสอบด้วยชุดดิสก์ที่รู้จักกันดีในระบบที่สอง พวกเขากำลังทำงานแบบขนาน
ewwhite

1
ครั้งเดียวที่ฉันเคยเห็นสิ่งนี้อยู่ในระบบ (เช่น DL360 G7) ที่ฉันพยายามใช้การ์ดที่ไม่ใช่ของ HP เพื่อให้ที่เก็บข้อมูล เมื่อฉันมีทั้งการ์ด SmartArray และอันอื่นในนั้นมันทำอย่างนั้น เมื่อฉันนำมันออกมามันก็ผ่านไป นี่ไม่ใช่ปัญหาของคุณ แต่ฉันส่งต่อสิ่งที่ฉันพบ
sysadmin1138

1
เป็นไปได้ว่ามีบางสิ่งที่เกี่ยวข้องกับเครือข่าย ลองทำซ้ำโดยไม่ต้องเชื่อมต่อกับเครือข่าย
ErnieTheGeek

1
@TheCleaner การปิดใช้งาน Dynamic Power Capping ไม่ใช่ตัวเลือกในเซิร์ฟเวอร์ G7 มันถูกนำมาใช้สำหรับซีรีส์ Gen8 ProLiant
ewwhite

คำตอบ:


43

ดังนั้นหลังจากนำระบบที่สามมาผสมกันและประสบปัญหาเดียวกันเราก็เริ่มตั้งคำถามกับสภาพแวดล้อม ฉันขุดสำเนาคู่มือการแก้ไขปัญหา HP ProLiant Serversและพบผังปัญหา POST ที่แสดงด้านล่าง

ป้อนคำอธิบายรูปภาพที่นี่

ทำงานอย่างรอบคอบผ่านขั้นตอนต่างๆในแผนภูมิเราตระหนักว่าค่าคงที่หนึ่งเดียวในเซิร์ฟเวอร์ทั้งหมดคือสวิตช์ KVM ที่ต่ออยู่กับรถเข็นของศูนย์ข้อมูล นี่เป็น KVM ที่เปิดใช้งานระดับผู้บริโภค ตามโหนดที่ไฮไลต์ในผังงานคุณรู้จัก KVM ที่ดีหรือไม่ ฉันไม่สามารถตอบได้อย่างแน่นอน

ดังนั้นเราจึงถอดออกจากเซิร์ฟเวอร์สวิตช์ KVM และวิ่งบูตโดยอัตโนมัติในลำดับsleep 300; reboot rc.localเซิร์ฟเวอร์ไม่มีปัญหาในเรื่องนี้โดยไม่คำนึงถึง DIMM ปกติ DIMM แรงดันต่ำวัตต์ PSU ฯลฯ

ทั้งหมดนี้เป็นผลมาจากการมีปฏิสัมพันธ์ที่ไม่ดีกับสวิตช์ USB KVM โดยอาศัยอำนาจนี้เป็นคอนโซลมันมั่นใจว่าเราจะเห็นความล้มเหลวถ้าเรากำลังมองหามัน ตอบสนองด้วยตนเอง ...


2
ว้าวนั่นเป็นสิ่งที่ดี! ดีใจที่คุณ sussed นี้ออก
nedm

7
อีกาศักดิ์สิทธิ์ +1 คำถามและคำตอบ การทำงานที่ดี; ฉันอาจจะมองข้ามสิ่งนั้น "รู้จักกันดี"? แน่นอนมันเป็นที่รู้จักดี - ใช้งานได้ใช่มั้ย
mfinni

ขอบคุณมาก!!! มันเป็น KVM แน่นอน เพียงตัดการเชื่อมต่อวิดีโอและเสียบจอภาพโดยตรงและเซิร์ฟเวอร์ทำงานได้อย่างราบรื่นอีกครั้ง หลังจากโหลดระบบปฏิบัติการขึ้นมาฉันได้เสียบ KVM กลับมา ฉันคิดว่าปัญหาเกิดขึ้นเมื่อฉันสัมผัสสายเคเบิลที่ด้านหลังของเซิร์ฟเวอร์โดยไม่ตั้งใจ ระบบหยุดและตอบสนองต่อคำแนะนำนี้เท่านั้น

1
มีความคิดอย่างไรที่ KVM จะทำให้เกิดสิ่งนี้
TheLQ

@TheLQ อุปกรณ์ KVM ระดับผู้บริโภคราคาถูกเป็นสาเหตุที่นี่ อาจมีปัญหากับคีย์บอร์ดด้วย
ewwhite
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.