ฉันค้นหา MTTF, MTBF, MTBR และ MTBF สำหรับเซิร์ฟเวอร์ HP Gen9 ที่ทำงานในสภาพแวดล้อมการผลิตของเรา
รากของคำถามของฉันควรจะกังวลหรือไม่
ฉันไม่สามารถรับข้อมูลที่ดีได้เนื่องจากเซิร์ฟเวอร์แต่ละเครื่องมีการผสมผสานของฮาร์ดแวร์
ที่ บริษัท สุดท้ายของฉันเรารันเซิร์ฟเวอร์ Dell ประมาณ 2,000 เซิร์ฟเวอร์ r210 r410 r710 ฉันจะบอกว่าโดยเฉลี่ยเรามีเซิร์ฟเวอร์ประมาณ 5 เครื่องต่อวันที่มีข้อผิดพลาดบางอย่าง ดังนั้นเซิร์ฟเวอร์ประมาณ 0.25% จึงล้มเหลวและจำเป็นต้องเปลี่ยนชิ้นส่วนก่อนจึงจะสามารถใช้งานได้อีกครั้ง
บริษัท สุดท้ายของฉันทุกอย่างถูกติดตั้งในคู่ HA โครงสร้างพื้นฐาน N + 2 ดังนั้นจึงไม่ส่งผลกระทบต่อการผลิต เราสามารถแทนที่เซิร์ฟเวอร์และดำเนินการต่อไป
ที่สำนักงานปัจจุบันของฉันเราใช้เซิร์ฟเวอร์ 9 เครื่อง (HP Gen9, 56 VM ของ Hyper-V) เราไม่เก็บอะไหล่มากมายไว้ในมือและดาต้าเซ็นเตอร์ไม่ได้รับการจัดการดังนั้นหากสิ่งใดตายเราต้องขับรถประมาณ 45 นาทีเพื่อแทนที่ สิ่งใด
CTO หรือผู้จัดการฝ่ายไอทีของฉันดูเหมือนจะเป็นกังวลพวกเขามีเวลาหยุดทำงานประมาณ 2.5 วันเมื่อปีที่แล้วฉันได้รับการกระตุ้นให้เราต้องจัดกลุ่มเซิร์ฟเวอร์ แต่พวกเขาไม่เห็นความต้องการ
มีอะไรผิดปกติหรือไม่? ไม่แน่ใจว่าต้องทำอะไร
ฉันรู้ว่ามันไม่ใช่ความรับผิดชอบของฉันหากมีสิ่งใดเกิดขึ้นบน CTO นี่เป็น บริษัท เล็ก ๆ เพียง CTO, ผู้จัดการฝ่ายไอที, ตัวฉันเอง (dev ops) และฝ่ายช่วยเหลือ 1 คน
จากประสบการณ์ทั้งหมดในการใช้งานสภาพแวดล้อมการผลิตนั้นมี จำกัด มากวิธีการตั้งค่ามากมายที่ฉันจะเรียกใช้ในระดับจูเนียร์ไม่ว่าจะเป็น CTO หรือผู้จัดการฝ่ายไอทีของฉันก็รู้ไม่มากเกี่ยวกับการจัดกลุ่มก่อนที่ฉันจะไปถึงที่นั่น พวกเขาอยู่กลางโครงการเพื่อติดตั้ง DR โดยไม่ต้อง HA ซึ่งฉันทำเปรียบเทียบกับ แต่แพ้