Mean Time to Failure (MTTF): เมื่อผู้ผลิตดิสก์โพสต์สิ่งนี้คุณควรตีความตัวเลขของพวกเขาอย่างไร


10

เวลาหมายถึงความล้มเหลว (MTTF) มักจะได้รับในแง่ของชั่วโมงและโดยการทำคำนวณบางอย่างมันก็ดูเหมือนว่าดิสก์ควรจะล้มเหลวเท่านั้นหลังจากที่ตัวเลขที่ดีของปีได้หายไปโดย

ดูเหมือนว่าดิสก์ต้องการการซ่อมแซมบ่อยกว่านั้น ไม่มีใครรู้ว่าทำไมถึงเป็นเช่นนี้?

ฉันคิดว่ามีบางสิ่งบางอย่างเกี่ยวกับตัวชี้วัดนี้ ฉันกำลังตีความบางสิ่งผิดปกติที่นี่หรือ

คำตอบ:


14

ก่อนปิด:

MTTF = เวลาเฉลี่ยในการล้มเหลว
MTTR = เวลาเฉลี่ยในการซ่อม
MTBF = เวลาเฉลี่ยระหว่างความล้มเหลว = MTTF + MTTR

MTBF มักจะมากหรือน้อยเท่ากับ MTTF เนื่องจากการซ่อมแซมอาจใช้เวลาหนึ่งชั่วโมงและ MTTF อาจเป็นหมื่นชั่วโมง แต่ก็มักจะไม่สามารถใช้งาน MTBF ได้เนื่องจากผลิตภัณฑ์ที่บกพร่องไม่ได้รับการซ่อมแซม แต่เปลี่ยนเพียงเพราะค่าซ่อมมากกว่าการเปลี่ยน

การคำนวณ MTTF เป็นวิธีการทางสถิติที่ซับซ้อนที่เกี่ยวข้องกับการคำนวณอัตราต่อรองของความล้มเหลวแต่ละส่วนและทุกส่วน และไม่ใช่เรื่องเชิงเส้นเนื่องจากบางครั้งผู้คนเข้าใจ หากคุณมี MTTF 1,000,000 ชั่วโมงซึ่งไม่ได้หมายความว่าใน 1,000 อุปกรณ์จะมีหนึ่งความล้มเหลวหลังจาก 1000 ชั่วโมงหรือว่าคุณจะได้รับความล้มเหลวใน 1,000,000 อุปกรณ์หลังจาก 1 ชั่วโมง
อุปกรณ์อิเล็กทรอนิกส์หลายคนทำตาม"เส้นโค้งอ่างอาบน้ำ" ,

ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีที่มีความล้มเหลวจำนวนมากในช่วงต้นจากนั้นเป็นเวลานานด้วยความล้มเหลวใด ๆ และใกล้ถึงจุดสิ้นสุดของชีวิตจำนวนความล้มเหลวเพิ่มขึ้นอีกครั้ง ในฮาร์ดดิสก์ยังมีชิ้นส่วนกลไกบางส่วนที่มีเส้นโค้งความล้มเหลวเชิงเส้นมากกว่า สิ่งนี้จะค่อยๆเพิ่มขึ้นตั้งแต่วันที่ 1

หากผู้ผลิตบอกเช่น 1,000,000 ชั่วโมง MTTF (ซึ่งมักเป็น POH หรือเปิดชั่วโมง) หมายความว่าโดยเฉลี่ยแล้วไดรฟ์ควรมีอายุการใช้งาน> 100 ปี ไดรฟ์บางตัวจะมีอายุการใช้งานนานขึ้นบางไดร์ฟจะล้มเหลวก่อนหน้า ดังนั้นแม้จะมี 1,000,000 ชั่วโมงก็เป็นไปได้อย่างสมบูรณ์ที่จะมีความล้มเหลวหลังจาก 1,000 ชั่วโมง ฉันเคยขับรถไม่สำเร็จภายในหนึ่งสัปดาห์จากนั้นคุณต้องย้อนคิดถึงอ่างอาบน้ำโค้ง ไดรฟ์ที่เปลี่ยนทดแทนได้หมุนอย่างมีความสุขเป็นเวลา> 50k ชั่วโมง


3
บางสิ่งที่ควรค่าแก่การสังเกตอาจเป็นความจริงที่ว่าความล้มเหลวในระยะแรกมักเรียกว่าการเบิร์นอิน ผู้ผลิตที่มีความล้มเหลวในช่วงต้นที่ต่ำกว่ามากมักเรียกใช้อุปกรณ์ผ่านขั้นตอนการเบิร์นอิน นอกจากนี้อุปกรณ์อิเล็กทรอนิกส์ที่บริสุทธิ์จะไม่แสดงระยะเวลาการสึกหรอและการเผาไหม้เท่านั้น
Kortuk

1
โปรดทราบว่าเมื่อคุณคำนวณ MTTF (หรือ MTBF) คุณมักจะใช้การแจกจ่ายเพียงครั้งเดียวเพื่อทำแบบจำลองความล้มเหลว ดังนั้นการคำนวณจะขึ้นอยู่กับการแจกแจง "การตายของทารก", "ชีวิตปกติ" หรือการกระจาย "สิ้นอายุ" สิ่งเดียวที่แยกความแตกต่างของการแจกแจงทั้งสามนี้คือพารามิเตอร์รูปร่าง Weibull หากคุณใช้ Weibull เป็นการกระจายแบบพื้นฐานของคุณ กรณีเดียวที่ความล้มเหลวจะมาจากการกระจาย "ชีวิตปกติ" คือเมื่อเวลาจะไม่มีผลต่ออัตราความล้มเหลวและดังนั้นการแจกแจงจะเป็นแบบเลขชี้กำลัง

2
MTTF นั้นมีประโยชน์เป็นหลักในการบ่งชี้ว่าคุณควรคาดหวังอะไรจากอุปกรณ์หรือวิดเจ็ต ไม่สามารถด้วยเหตุผลที่ชัดเจนการคาดการณ์ที่แน่นอนของวันที่ของอุปกรณ์ล้มเหลว เป็นเพียงการประเมินตามการวิเคราะห์ทางสถิติของข้อมูลที่มีอยู่และควรได้รับการพิจารณาเช่นนี้เท่านั้น มีประโยชน์สำหรับการจัดทำงบประมาณ (ฉันควรจะตัดค่าใช้จ่ายหรือค่าเสื่อมราคาที่นี่นานเท่าไร) และการวางแผน (เราจะสามารถคาดหวังให้วิดเจ็ตทำงานได้นานแค่ไหนก่อนที่เราจะได้รับเครื่องถัดไป)
music2myear

ก่อนอื่นอะไรคือ "ความล้มเหลวของดิสก์"?
Kaitlyn Mcmordie

2
@ Kaitlyn - ฉันคิดว่าคุณหมายถึงเซกเตอร์ที่ไม่ดี ฉันจะบอกว่าความล้มเหลวของดิสก์คือเมื่อคุณไม่สามารถอ่านหรือเขียนจากไดรฟ์อีกต่อไป มักจะเป็นข้อผิดพลาดทางกลเช่นหัวชน สิ่งนี้มักจะเกิดขึ้นเมื่อคุณยังมีเซกเตอร์เหลืออยู่มากมาย
stevenvh

4

หากชิ้นส่วนของอุปกรณ์มีการใช้งาน MTBF 1,000,000 ชั่วโมงนั่นไม่ได้หมายความว่าชิ้นส่วนใด ๆ ของอุปกรณ์จะสามารถใช้งานได้ 1,000,000 ชั่วโมง ค่อนข้างหมายความว่าหากอุปกรณ์ 1,000,000 ชิ้นที่อยู่ในช่วงอายุการใช้งานของอุปกรณ์แต่ละชิ้นทำงานเป็นเวลาหนึ่งชั่วโมงหรือ 100,000 ชิ้นทำงานเป็นเวลาสิบชั่วโมง (แต่ยังอยู่ในช่วงอายุใช้งาน) หรือ 60,000,000 ต่อหนึ่งนาทีเป็นต้น จะมีประมาณหนึ่งความล้มเหลวในล็อต โปรดทราบว่าอายุการใช้งานที่ได้รับการจัดอันดับเป็นแบบ orthogonal ทั้งหมดสำหรับ MTBF พิจารณาวิดเจ็ตสองประเภทต่อไปนี้:

  1. วิดเจ็ตทุกตัวไม่ว่าอายุจะมีโอกาส 0.1% ที่ล้มเหลวทุกชั่วโมง
  2. จากเครื่องมือหนึ่งพันล้านชิ้นเครื่องมือทั้งหมดจะทำงานเป็นเวลา 61 นาทีอย่างแม่นยำแล้วตาย คนนั้นจะตายหลังจาก 30 นาที; วิดเจ็ตมีอายุการใช้งานที่ระบุ 60 นาที

วิดเจ็ตประเภทแรกจะมีอายุการใช้งานเฉลี่ยประมาณ 1,000 ชั่วโมงและมี MTBF ประมาณ 1,000 ชั่วโมง วินาทีจะมีอายุการใช้งานเฉลี่ย 61 นาที แต่ MTBF 1,000,000,000 ชั่วโมงภายในอายุการใช้งาน ในขณะที่อาจดูเหมือนแปลกที่จะบอกว่าอุปกรณ์ตัวที่สองมี MTBF ที่เกือบพันล้านเท่าตราบเท่าที่อายุการใช้งานที่คาดหวัง แต่ MTBF นั้นแทบจะไม่มีความหมายเลย

สมมติว่าหนึ่งกำลังทำการทดลองที่ต้องการให้อุปกรณ์ 1,000,000 เครื่องทำงานได้อย่างสมบูรณ์แบบเป็นเวลาหนึ่งชั่วโมงหลังจากนั้นพวกเขาทั้งหมดจะถูกทิ้ง หากอุปกรณ์ใด ๆ ล้มเหลวการทดลองทั้งหมดจะถูกทำลาย ซึ่งจะมีประโยชน์มากกว่า - อุปกรณ์ที่จะมีอายุการใช้งานเฉลี่ย 1,000 ชั่วโมง แต่มี MTBF เพียง 1,000 ชั่วโมงหรืออุปกรณ์ที่ใช้งานได้นานที่สุด 61 นาที แต่จะมีโอกาสเพียงหนึ่งในพันล้านเท่านั้นที่ล้มเหลว พบกับเครื่องหมายนั้นหรือไม่


ดังนั้นสิ่งที่สำคัญที่สุดคือเราไม่ควรเห็น MTBF ที่ 10 ^ 6 ชั่วโมงเป็น "อายุการใช้งานเฉลี่ย" ของดิสก์ใด ๆ แต่เป็นการวัดที่เกี่ยวข้องกับอายุการใช้งานของดิสก์หลายตัว
Kaitlyn Mcmordie

@Kaitlyn Mcmordie: คำว่า "ตลอดชีวิต" นั้นใช้ไม่ได้จริง ๆ ; ความตายไม่ได้หมายถึงความล้มเหลวหรือในทางกลับกัน ผู้ผลิตอุปกรณ์จัดเก็บข้อมูลอาจระบุขั้นตอนที่ควรปฏิบัติตามเพื่อหลีกเลี่ยงการสูญเสียข้อมูล ขั้นตอนดังกล่าวอาจรวมถึงการย้ายข้อมูลทั้งหมดในรูปแบบของอุปกรณ์ใด ๆ ที่ให้การบ่งชี้ "ความล้มเหลวใกล้เข้ามา" ไปยังอุปกรณ์ใหม่ (หลังจากคัดลอกข้อมูลแล้วอุปกรณ์เก่าจะถูกพิจารณาว่าเป็น "ตาย") หากไม่มีข้อมูลสูญหายเกิดขึ้นจากเหตุการณ์ดังกล่าวแสดงว่าไม่ใช่ความล้มเหลว การสูญเสียข้อมูลที่เกิดขึ้นจากอุปกรณ์ใด ๆ ก็ตามแม้เป็นอุปกรณ์ที่ดูเหมือนว่าจะมีสุขภาพดีก็เป็นความล้มเหลว ไม่มีอะไรเกี่ยวข้องกับชีวิต
supercat

2

การเพิ่มคำตอบของ stevenvh: ผู้ผลิตดิสก์ที่รู้จักกันดีล้วน แต่ทำงานในอุปกรณ์ใหม่ ๆ เช่นเดียวกับผู้ผลิตชิ้นส่วนอิเล็กทรอนิกส์ ในฮาร์ดดิสก์นั้นไม่เพียง แต่มี MTBF และMTTFโดยรวมเท่านั้น แต่ยังรวมถึงสถิติความล้มเหลวส่วนบุคคลสำหรับบล็อกของดิสก์ ในคำอื่น ๆ : บางส่วนของการหมุน "แผ่นเสียง" ในดิสก์อาจล้มเหลวในขณะที่ส่วนใหญ่ยังคงอ่าน / เขียนตกลง สามารถตรวจพบ "เซกเตอร์ที่ไม่ดี" ได้และเฟิร์มแวร์ภายในไดรฟ์

ไดรฟ์ทั้งหมดในวันนี้มีส่วนเพิ่มเติมที่สำรองไว้ซึ่งสามารถใช้แทนส่วนข้อบกพร่องได้ นี่เป็นเพียงข้อควรระวังโดยผู้ผลิต: หากพวกเขาไม่ทำเช่นนี้พวกเขาไม่สามารถขายดิสก์ได้ตามความสามารถที่ประกาศไว้ หากพวกเขาสร้างในส่วนเพิ่มเติม x% ของภาคที่ซ่อนอยู่เป็นทุนสำรองพวกเขาจะเพิ่มค่าใช้จ่ายโดย <x% บางส่วน แต่ให้ผลตอบแทนการผลิตโดยรวมที่สูงขึ้นมาก

วันนี้ดิสก์มีจำนวนเซกเตอร์ที่ไม่ดีซึ่งสามารถอ่านได้ด้วยซอฟต์แวร์ที่เหมาะสม นี้และพารามิเตอร์สุขภาพดิสก์อื่น ๆ (เช่นอุณหภูมิ) จะเรียกว่าสมาร์ทค่า

ตอนนี้เมื่อผู้ผลิตทำการทดสอบเบิร์นอินแล้วและบางส่วนมีความล้มเหลวเกือบและถูกแมปใหม่โดยเฟิร์มแวร์ภายในของไดรฟ์พารามิเตอร์ SMART ที่ "แย่เซกเตอร์นับ" ถูกตั้งค่าเป็น 0 จากนั้น ไดรฟ์ถูกส่งมอบให้กับลูกค้า

โดยปกติหลังจากกระบวนการเบิร์นอินลูกค้าจะไม่เห็นจุดเริ่มต้นของเส้นโค้งอ่างอาบน้ำที่ได้กล่าวไปแล้ว เราโชคดีและเห็นโอกาสที่จะล้มเหลวเพิ่มขึ้นเมื่อเวลาผ่านไป

ดังนั้นหากคุณดูที่ MTTF ที่เสนอโดยผู้ผลิตสำหรับการสร้างแบบจำลองความล้มเหลวใด ๆ ที่คุณอาจต้องการทำคุณสามารถมองข้ามจุดเริ่มต้นของเส้นโค้งอ่างอาบน้ำ


ขอบคุณ. คุณมีความคิดใด ๆ ว่าคำว่า "เซิร์ฟเวอร์ผิด" ควรหมายถึงอะไร
Kaitlyn Mcmordie

ความหมายที่ชัดเจนคือข้อผิดพลาดที่พบโดยคอมพิวเตอร์ที่ให้บริการแก่ผู้อื่น และฉันเชื่อว่าเป็นเวลาที่คุณควรถามคำถามเกี่ยวกับserverfault.com ;-) ไม่พบสิ่งใดเกี่ยวกับเรื่องนี้ใน FAQ
cfi

-2

คุณควรตีความนี่เป็นการตลาด พวกเขาไม่ทราบ MTBF ที่แน่นอน (เวลาเฉลี่ยระหว่างความล้มเหลว) ดังนั้นพวกเขาจึงใช้กลอุบายต่าง ๆ ในการประมาณค่าและพวกเขาแสดงจำนวนที่สูงขึ้นสำหรับไดรฟ์ 'องค์กร' เพื่อประเมินต้นทุนของพวกเขา

ในความเป็นจริงมันเป็นผลกำไรสำหรับผู้ผลิต HDD เพื่อให้ HDD ของพวกเขาล้มเหลวในไม่ช้าหลังจากการรับประกันสิ้นสุดลง

ตามทฤษฎีสมคบคิดฉันเชื่อว่าความล้มเหลวจำนวนมากของ Seagate 7200.11 นั้นเป็นความผิดพลาดในการใช้ 'programmed death' ทำให้ดิสก์ล้มเหลวก่อนการรับประกันสิ้นสุดลงดังนั้นพวกเขาจึงต้อง 'แก้ไข' โดยการอัพเดตเฟิร์มแวร์


ฉันไม่ซื้ออาร์กิวเมนต์การกบฏนี้

1
@Federico Russo: ทำไมล่ะ คุณคิดว่าเป็นเพียงข้อผิดพลาดของนักพัฒนาทั่วไปทำให้ HDD ล็อคในสถานะที่ไม่สามารถกู้คืนได้หลังจากผ่านไปหลายชั่วโมง
BarsMonster

2
-1: การวิเคราะห์ทางสถิติใช้เพื่อกำหนดหมายเลข MTBF และเป็นที่ทราบกันดีในสถิติบางอย่าง - พวกเขาไม่ได้ใช้เพียงแค่ "เทคนิคต่าง ๆ " คุณจะต้องมีแหล่งข้อมูลที่สำคัญในการสำรองข้อมูลการยืนยันของคุณว่าไดรฟ์ระดับองค์กรมีจำนวนสูงกว่านั้นผู้ผลิต HDD มีไดรฟ์ที่ล้มเหลวหลังจากการรับประกันสิ้นสุดลง
Kevin Vermeer

1
มันเป็นไปเพื่อประโยชน์ที่ดีที่สุดของผู้ผลิตไดรฟ์ในการแสดง MTTF ที่สูงกว่าการแข่งขัน +1
tyblu

ว่าอะไรคือความล้มเหลวของดิสก์หรือไม่? สิ่งใดที่สำคัญ
Kaitlyn Mcmordie
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.