คุณจะหาข้อมูล MTBF ของคุณได้จากที่ไหน?


9

เวลาเฉลี่ยระหว่างความล้มเหลวอาจตีความได้ยาก แต่มีวิธีการทางสถิติมากมายที่คุณสามารถใช้ได้หากคุณมีข้อมูลที่ยาก

ปัญหาคือไม่มีใครรายงานหมายเลข MTBF ของพวกเขาอีกต่อไป (นอกเหนือจากผู้ผลิตฮาร์ดไดรฟ์แล้ว)

จะอยู่ที่ไหนคุณไปหาข้อมูล MTBF สำหรับส่วนประกอบและเซิร์ฟเวอร์?


ฉันอยากรู้ว่าคุณใช้ข้อมูล MTBF อย่างไร
dr.pooter

คำตอบ:


2

ทำไม MTBF ไม่สำคัญ

เวลาเฉลี่ยระหว่างหมายเลขความล้มเหลวไม่สำคัญเท่ากับอัตราข้อผิดพลาดที่ไม่สามารถแก้ไขได้ MTBF เกี่ยวข้องกับความล้มเหลวทั้งหมดของชิ้นส่วนอ่านไดรฟ์ อย่างไรก็ตามตัวเลขนั้นไม่มีความหมายเมื่อมีข้อผิดพลาดเพียงเล็กน้อยจะทำให้ RAID 5 ตื่นตระหนกและนำความร้อนแรงมาสู่การเล่น

ในขณะที่ MTBF สำหรับมืออาชีพและผู้บริโภคระดับไดรฟ์เพิ่มขึ้นตามลำดับความสำคัญในปีที่ผ่านมาอัตราความผิดพลาดที่ไม่สามารถแก้ไขได้ค่อนข้างคงที่ อัตรานี้อยู่ที่ประมาณ 10 ^ 14 บิตดังนั้นหนึ่งบิตละ 12 เทราไบต์อ่านสำหรับผู้บริโภคไดรฟ์ SATA, แหล่งที่มา

ทำไมคุณควรหลวม sleep เหนืออาร์เรย์ RAID 5 ของคุณ

นั่นเป็นเพียง 6 รอบของไดรฟ์ใหม่ 2Tb ที่เพิ่งตีใหม่ ใช้เวลานานแค่ไหนในการอ่านข้อมูล 12Tb? ใช้เวลาน้อยกว่า MTBF สำหรับไดรฟ์นั้นมาก

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

สิ่งที่เกี่ยวข้องเพิ่มเติมคือโอกาสที่ความล้มเหลวในการอ่านสองครั้งในอาเรย์ RAID 5 ประกอบด้วยไดรฟ์ที่มีขนาดใหญ่ ด้วยอาเรย์ RAID 5 ขนาด 7 1Tb ความน่าจะเป็นของความล้มเหลวในการอ่านครั้งที่สองในขณะที่ทำการสร้าง RAID นั้นคือ 50%

http://blogs.zdnet.com/storage/?p=162


คุณสามารถใช้ RAID6 ได้ตลอดเวลาหรือไม่?
Chopper3

3
คำตอบที่ยอดเยี่ยม แต่ครอบคลุมฮาร์ดไดรฟ์เท่านั้น
Mark Henderson

@ Chopper3, ใช่ RAID6 ช่วยให้สถานการณ์ดีขึ้น แต่เมื่อคุณทุ่มเทดิสก์สองตัวให้กับพาริตี้และหนึ่งในสามเป็นฮอตสเปซจากนั้นในอาร์เรย์ไดรฟ์ 7 คุณจะได้ใกล้ชิดกับพื้นที่เดียวกันกับอาร์เรย์ RAID10
Dave Cheney

ฉันกำลังมองหาข้อมูลมากกว่าฮาร์ดไดรฟ์ เซิร์ฟเวอร์ทั้งหมดยังคงล้มเหลวเป็นครั้งคราวดังนั้นจึงคุ้มค่าที่จะวัดความถี่

1

เป็นเรื่องน่าอายที่ผู้คนคิดว่าตัวเลข MTBF ไม่สามารถนำไปใช้กับระบบที่ซับซ้อนได้ ปัญหาที่แท้จริง (afaik) คือผู้ผลิตไม่มีตัวเลข MTBF สำหรับโมดูลฮาร์ดแวร์ของพวกเขา ตัวเลขเหล่านี้เป็นตัวเลขที่ควรได้รับการสงวนสิทธิ์ทุกประการ Dell บอกว่า "Dell จะไม่แสดง MTBF เฉพาะสำหรับเซิร์ฟเวอร์ของตนอีกต่อไป" เลวร้ายจริงๆ! พวกเขาอาจพูดว่า "สิ่งที่เราทำนั้นไม่น่าเชื่อถือพอที่จะใช้เมื่อต้องการตัวเลข MTBF"

วิศวกรความน่าเชื่อถือ (หรือผู้ชายสวมหมวก RE) ควรจะ จำกัด ขอบเขตของการศึกษาความพร้อมใช้งาน ซึ่งมักถูก จำกัด ไว้ที่โมดูลฮาร์ดแวร์

สำหรับการจำแนกประเภทของสิ่งที่ก่อให้เกิดความล้มเหลว ... นั่นคือเหตุผลที่เราทำการวิเคราะห์ FMECA

แน่นอนว่าระบบมีความซับซ้อนและโหมดความล้มเหลวนั้นรวมถึงความล้มเหลวของซอฟต์แวร์ แต่มักจะไม่ใช่ขอบเขตของการศึกษา เราต้องการตัวเลข MTBF สำหรับฮาร์ดแวร์ ถามพนักงานขายของคุณเพื่อให้สิ่งนี้ เป็นความรับผิดชอบทางเทคนิคของพวกเขาที่จะมอบให้คุณ ... หากพวกเขาปฏิเสธหรือก้าวไปข้างหน้าให้ไปที่ที่มีเซิร์ฟเวอร์ระดับเทเลคอมซึ่งมีตัวเลขความพร้อมใช้งานที่บังคับสำหรับฮาร์ดแวร์


ปัญหาเมื่อผู้ขายต้องเผยแพร่ MTBF คือพวกเขาต้องเผยแพร่เร็วกว่าที่พวกเขาสามารถรวบรวมข้อมูลจริง ดังนั้นพวกเขาจำเป็นต้องสร้าง MTBF ผ่านการคาดการณ์บางประเภท บางครั้งมันอาจเป็นไปได้ กรณีที่เลวร้ายที่สุดที่ฉันเคยเห็นมาคือคำสั่งที่มีขนาดเกินกว่าสามคำ
kasperd

0

ฉันเคยเห็น MTBF รายงานในเว็บไซต์สนับสนุนของ บริษัท พูดคุยกับพนักงานขายของคุณหรือ SE เพื่อรับข้อมูล


0

ในมุมมองของฉันตัวเลข MTBF ได้กลายเป็นเครื่องมือการขาย ฮาร์ดแวร์ที่ทันสมัยมาถึงสถานะที่หมายเลข MTBF นั้นไร้ประโยชน์เป็นหลัก แม้แต่ผู้ค้าที่มีจำนวนน้อยที่สุดก็ยังผลิตฮาร์ดแวร์ที่มีอายุการใช้งานยาวนานกว่า ดังที่คุณทราบไม่มีใครรายงานหมายเลข MTBF ฉันเชื่อว่านี่คือเหตุผล


ถึงกระนั้นเซิร์ฟเวอร์บางตัวก็ยังเชื่อถือได้มากกว่าเซิร์ฟเวอร์อื่น ๆ เราจำเป็นต้องตอบคำถามเช่น "เป็นแหล่งจ่ายไฟตัวที่สองที่คุ้มค่าหรือไม่" เพื่อที่เราต้องการข้อมูล เป็นการดีที่จะเป็นสถิติความล้มเหลวที่แท้จริงรายงานในประชากรของอุปกรณ์ที่ชอบ เราใช้ MTBF เป็นพร็อกซีที่อ่อนแอสำหรับการแจกจ่ายจริง

ยุติธรรมพอสมควร ในโลกน้อยของฉันความคิดเรื่องความซ้ำซ้อนเป็นส่วนที่คาดหวังของกระบวนการ ตัวอย่างอื่นดูที่ผู้ให้บริการโฮสติ้งขนาดใหญ่ส่วนใหญ่หรือ google ฉันยังคงแนะนำว่าเนื่องจากสถานะสินค้าของเซิร์ฟเวอร์ wintel นี่เป็นปัญหาที่ลดลง หากคุณกำลังพูดถึงซีรีย์ z หรือคล้ายกันสมการและความคาดหวังต่างกันมาก
dr.pooter

0

น่าเสียดายที่ MTBF ไม่ใช่การวัดผลจริงหรือเชื่อถือได้ในเซิร์ฟเวอร์สมัยใหม่ แนวคิดทั้งหมดของ MTBF คือถ้ามีการใช้รูปแบบ / การกำหนดค่าเฉพาะหลายอย่างในระยะเวลานานเราน่าจะทราบถึงความน่าเชื่อถือของมัน

วันนี้พวกเราส่วนใหญ่มีความสุขในการแลกเปลี่ยนความน่าเชื่อถือเป็นพิเศษสำหรับการพิสูจน์ประสิทธิภาพที่เพิ่มขึ้นและประสิทธิภาพการใช้พลังงาน ตัวอย่างเช่นคุณจะสร้างเซิร์ฟเวอร์ใหม่ของคุณบนฮาร์ดแวร์อายุ 18-24 เดือนเพียงเพราะมันพิสูจน์แล้วว่าเชื่อถือได้ หรือแค่ไปกับซีพียูรุ่นล่าสุดที่มีคอร์แรงม้าและประสิทธิภาพการใช้พลังงานมากขึ้น?

นอกจากนี้ยังแตกต่างจากระบบโทรศัพท์แบบเก่าที่มีระบบที่ค่อนข้างกำหนดเองและแน่นอนต้องพึ่งพาซอฟต์แวร์เป็นอย่างมาก BIOS เวอร์ชั่น x.xx หรือไดร์เวอร์เวอร์ชั่น y.yyy เชื่อถือได้แค่ไหน? แพตช์เซิร์ฟเวอร์ OS / DB / แอปล่าสุดนั้นช่วยเพิ่มความเสถียรหรือมีความเสถียรหรือไม่? มีเซิร์ฟเวอร์กี่เครื่องในโลกที่ใช้ส่วนผสมของฮาร์ดแวร์ / สแต็กรุ่นเดียวกันกับคุณ

หากคุณต้องการความพร้อมใช้งานสูงคุณจะต้องเพิ่มความซ้ำซ้อนในระบบของคุณ (ดูอัล - ทุกอย่าง, การทำคลัสเตอร์, อะไหล่ร้อน, DRP, คุณมีอะไร) ดังนั้นความน่าเชื่อถือแบบสัมพัทธ์ของส่วนประกอบฮาร์ดแวร์แต่ละตัวจึงไม่ได้เป็นปัจจัยสำคัญในขณะที่คุณสร้างโครงสร้างพื้นฐานเพื่อให้สามารถอยู่รอดได้ด้วยความล้มเหลวขององค์ประกอบเดียว เพียงอยู่กับความไม่แน่นอน (ความน่าเชื่อถือมีผลย้อนหลัง) และวางแผนตามนั้น


ปัญหาของการกำหนดค่าที่เปลี่ยนแปลงตลอดเวลานั้นเป็นเรื่องจริง ซึ่งทำให้ยากต่อการสร้างองค์ความรู้ด้วยการกำหนดค่าจุดเดียว อย่างไรก็ตามหากคุณกำลังวางแผนสำหรับ HA แม้จะมีการกำหนดค่าซ้ำซ้อนคุณต้องมีความเชื่อมั่นในอุปกรณ์แต่ละชิ้น

ดูเหมือนว่าไม่มีความหวังสำหรับไอทีที่จะกลายเป็นวิทยาศาสตร์ เราทำงานต่อไปบนสมมติฐานไม่มีข้อมูลที่ยากและสิ้นเปลืองทรัพยากร เหมือนเวทมนตร์ดำมากกว่าทุกวันนี้ วิศวกรรมดูเหมือนเป็นเป้าหมายที่ห่างไกล
Giovanni Tirloni

0

ฉันเห็นด้วยกับคำตอบส่วนใหญ่: หมายเลข MTBF ไม่มีประโยชน์กับฉันและฉันไม่เคยตรวจสอบพวกเขา

ข้อยกเว้นเดียวคือฮาร์ดไดรฟ์ แต่ถึงอย่างนั้นฉันก็ดู MTBF อย่างคร่าวๆเพื่อให้แน่ใจว่าซื้อไดรฟ์ "เซิร์ฟเวอร์ระดับ" ที่น่าเชื่อถือยิ่งขึ้นหากมีทางเลือก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.