MTTF, MTBF, MTBR และ MTBF สำหรับ HP ProLiant Gen9


14

ฉันค้นหา MTTF, MTBF, MTBR และ MTBF สำหรับเซิร์ฟเวอร์ HP Gen9 ที่ทำงานในสภาพแวดล้อมการผลิตของเรา

รากของคำถามของฉันควรจะกังวลหรือไม่

ฉันไม่สามารถรับข้อมูลที่ดีได้เนื่องจากเซิร์ฟเวอร์แต่ละเครื่องมีการผสมผสานของฮาร์ดแวร์

ที่ บริษัท สุดท้ายของฉันเรารันเซิร์ฟเวอร์ Dell ประมาณ 2,000 เซิร์ฟเวอร์ r210 r410 r710 ฉันจะบอกว่าโดยเฉลี่ยเรามีเซิร์ฟเวอร์ประมาณ 5 เครื่องต่อวันที่มีข้อผิดพลาดบางอย่าง ดังนั้นเซิร์ฟเวอร์ประมาณ 0.25% จึงล้มเหลวและจำเป็นต้องเปลี่ยนชิ้นส่วนก่อนจึงจะสามารถใช้งานได้อีกครั้ง

บริษัท สุดท้ายของฉันทุกอย่างถูกติดตั้งในคู่ HA โครงสร้างพื้นฐาน N + 2 ดังนั้นจึงไม่ส่งผลกระทบต่อการผลิต เราสามารถแทนที่เซิร์ฟเวอร์และดำเนินการต่อไป

ที่สำนักงานปัจจุบันของฉันเราใช้เซิร์ฟเวอร์ 9 เครื่อง (HP Gen9, 56 VM ของ Hyper-V) เราไม่เก็บอะไหล่มากมายไว้ในมือและดาต้าเซ็นเตอร์ไม่ได้รับการจัดการดังนั้นหากสิ่งใดตายเราต้องขับรถประมาณ 45 นาทีเพื่อแทนที่ สิ่งใด

CTO หรือผู้จัดการฝ่ายไอทีของฉันดูเหมือนจะเป็นกังวลพวกเขามีเวลาหยุดทำงานประมาณ 2.5 วันเมื่อปีที่แล้วฉันได้รับการกระตุ้นให้เราต้องจัดกลุ่มเซิร์ฟเวอร์ แต่พวกเขาไม่เห็นความต้องการ

มีอะไรผิดปกติหรือไม่? ไม่แน่ใจว่าต้องทำอะไร

ฉันรู้ว่ามันไม่ใช่ความรับผิดชอบของฉันหากมีสิ่งใดเกิดขึ้นบน CTO นี่เป็น บริษัท เล็ก ๆ เพียง CTO, ผู้จัดการฝ่ายไอที, ตัวฉันเอง (dev ops) และฝ่ายช่วยเหลือ 1 คน

จากประสบการณ์ทั้งหมดในการใช้งานสภาพแวดล้อมการผลิตนั้นมี จำกัด มากวิธีการตั้งค่ามากมายที่ฉันจะเรียกใช้ในระดับจูเนียร์ไม่ว่าจะเป็น CTO หรือผู้จัดการฝ่ายไอทีของฉันก็รู้ไม่มากเกี่ยวกับการจัดกลุ่มก่อนที่ฉันจะไปถึงที่นั่น พวกเขาอยู่กลางโครงการเพื่อติดตั้ง DR โดยไม่ต้อง HA ซึ่งฉันทำเปรียบเทียบกับ แต่แพ้


ฮ่าต้นทุนเงิน บางทีพวกเขาคิดว่ามันไม่คุ้มค่าเงิน
Michael Hampton

คำตอบ:


3

ไม่ต้องกังวลกับตัวเลข MTTF, MTBF, MTBR และ MTBF ... ทำไมสิ่งเหล่านี้ถึงนำมาใช้กับสภาพแวดล้อมของคุณโดยเฉพาะ?

เซิร์ฟเวอร์มีความซ้ำซ้อนภายในและสามารถเสถียรอย่างมากในการผลิต แต่ขึ้นอยู่กับสภาพแวดล้อมของคุณอาร์เรย์ของดิสก์ / องค์ประกอบประเภทของดิสก์ปริมาณ RAM การกำหนดค่า CPU ลักษณะความร้อนพลังงาน ฯลฯ

การใช้รูปแบบความพร้อมใช้งานสูงบางรูปแบบสามารถลดโอกาสในการหยุดทำงานและให้ที่สำหรับเปลี่ยนภาระงานของคุณในกรณีที่เกิดความล้มเหลว

นี่เป็นคำถามความเสี่ยงด้านการเงินและการปฏิบัติการ

บางทีค่าใช้จ่ายที่เพิ่มขึ้นของการไปจากสแตนด์อโลนไปยังคลัสเตอร์สูงพอที่จะไม่สมเหตุสมผล บางทีการหยุดทำงาน 2.5 วัน (มีความพร้อมประมาณ 99.3%) นั้นดีพอสำหรับการทำงานของคุณ คุณควรเน้นการป้องกันนอกสถานที่และการสำรองข้อมูลที่ดี ทั้งหมดของระบบ HP Gen9 ของคุณอยู่ภายใต้การรับประกันของผู้ผลิตในวันนี้เพื่อให้คุณไม่ได้มีการเข้าถึงชิ้นส่วน หากคุณมี RAID, แหล่งจ่ายไฟ / พัดลมสำรองและพลังงานที่มีความเสถียรคุณได้ครอบคลุมพื้นที่ที่สำคัญที่สุด

ลองคิดถึงเรื่องนี้จากมุมมองทางการเงินและร่างความเสี่ยงค่าใช้จ่ายที่เกี่ยวข้องและพยายามสร้างธุรกิจที่น่าสนใจสำหรับสิ่งที่คุณต้องการ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.