เวลาเฉลี่ยระหว่างความล้มเหลว - SSD


32

เวลาเฉลี่ยระหว่างความล้มเหลวหรือ MTBF สำหรับนี้ SSD ถูกระบุว่าเป็น1,500,000ชั่วโมง

นั่นเป็นเวลาหลายชั่วโมง 1,500,000ชั่วโมงเป็น170ปี ๆ ตั้งแต่การคิดค้น SSD ตัวนี้เป็นสงครามหลังสงครามพวกเขารู้ได้อย่างไรว่า MTBF คืออะไร

สองตัวเลือกที่สมเหตุสมผลสำหรับฉัน:

  • Newegg เพิ่งมีตัวพิมพ์ผิด
  • ความหมายของเวลาเฉลี่ยระหว่างความล้มเหลวไม่ใช่สิ่งที่ฉันคิดว่าเป็น
  • พวกเขาใช้การคาดการณ์เชิงสถิติบางประเภทเพื่อประเมินว่า MTBF จะเป็นเช่นไร

คำถาม:

เวลาเฉลี่ยระหว่างความล้มเหลว (MTFB) รับได้อย่างไรสำหรับ SSD / HDD


ที่เกี่ยวข้อง: serverfault.com/q/257693/126632
Michael Hampton

คำตอบ:


34

ผู้ผลิตไดรฟ์ระบุความน่าเชื่อถือของผลิตภัณฑ์ของพวกเขาในแง่ของสองตัวชี้วัดที่เกี่ยวข้อง: อัตราความล้มเหลวรายปี (AFR) ซึ่งเป็นเปอร์เซ็นต์ของดิสก์ไดรฟ์ในประชากรที่ล้มเหลวในการทดสอบขนาดที่ประเมินต่อปี และเวลาเฉลี่ยต่อความล้มเหลว (MTTF)

โดยทั่วไปแล้ว AFR ของผลิตภัณฑ์ใหม่จะถูกประเมินตามการทดสอบอายุการใช้งานและความเครียดหรือจากข้อมูลภาคสนามจากผลิตภัณฑ์ก่อนหน้า MTTF คาดว่าจะเป็นจำนวนพลังงานในชั่วโมงต่อปีหารด้วย AFR ข้อสันนิษฐานทั่วไปสำหรับไดรฟ์ในเซิร์ฟเวอร์คือใช้พลังงานจาก 100% ของเวลา

http://www.cs.cmu.edu/~bianca/fast/

MTTF 1.5 ล้านชั่วโมงฟังดูน่าเชื่อถือ

นั่นเป็นการทดสอบกับไดรฟ์ 1,000 ตัวที่ทำงานเป็นเวลา 6 เดือนและ 3 ไดรฟ์ที่ล้มเหลว
AFR จะเป็น (2 * 6 เดือน * 3) / (1,000 ไดรฟ์) = 0.6% ต่อปีและ MTTF = 1 ปี / 0.6% = 1,460,967 ชั่วโมงหรือ 167 ปี

วิธีที่แตกต่างในการดูตัวเลขนั้นคือเมื่อคุณมี 167 ไดรฟ์และปล่อยให้ทำงานต่อเนื่องเป็นปีที่ผู้ผลิตอ้างว่าโดยเฉลี่ยคุณจะเห็นว่ามีหนึ่งไดรฟ์ล้มเหลว

แต่ฉันคาดว่านั่นเป็นเพียงอัตราความล้มเหลวทางกลไก / อิเล็กทรอนิกส์คงที่ "สุ่ม"

สมมติว่าอัตราความล้มเหลวเป็นไปตาม เส้นโค้งของอ่างอาบน้ำดังที่ได้กล่าวไว้ในความคิดเห็นทีมการตลาดของผู้ผลิตสามารถนวดตัวเลขความน่าเชื่อถือเล็กน้อยเช่นโดยไม่รวม DOA'S (ตายเมื่อมาถึงหน่วยที่ผ่านการควบคุมคุณภาพ แต่ล้มเหลวเมื่อผู้ใช้ ติดตั้งพวกเขา) และขยายคำจำกัดความ DOA เพื่อแยกผู้ที่อยู่ในขัดขวางความล้มเหลวก่อน และเนื่องจากการทดสอบไม่ได้ทำนานพอคุณจะไม่เห็นเอฟเฟ็กต์อายุเช่นกัน

ฉันคิดว่าระยะเวลาการรับประกันเป็นตัวบ่งชี้ที่ดีกว่าว่าผู้ผลิตคาดหวังว่า SSD จะมีอายุการใช้งานนานเพียงใด!
ที่แน่นอนจะไม่ถูกวัดในทศวรรษหรือศตวรรษ ...


การเชื่อมโยงกับ MTBF คือความน่าเชื่อถือที่เกี่ยวข้องกับจำนวน จำกัด ของรอบการเขียนเซลล์ NAND สามารถรองรับได้ เมทริกทั่วไปคือความสามารถในการเขียนทั้งหมดซึ่งโดยปกติจะเป็น TB นอกเหนือจากข้อกำหนดด้านประสิทธิภาพอื่น ๆ ที่เป็นหนึ่งในตัว จำกัด ขนาดใหญ่

เพื่อให้การเปรียบเทียบที่สะดวกยิ่งขึ้นระหว่างยี่ห้อที่แตกต่างกันและไดรฟ์ที่มีขนาดแตกต่างกันความทนทานในการเขียนมักจะถูกแปลงเป็นความสามารถในการเขียนรายวันเป็นส่วนหนึ่งของความจุดิสก์

สมมติว่าไดรฟ์ได้รับการจัดอันดับให้อยู่ตราบเท่าที่อยู่ภายใต้การรับประกัน:
SSD 100 GB อาจมีการรับประกัน 3 ปีและความสามารถในการเขียน 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

ยิ่งจำนวนนั้นมากเท่าไหร่ดิสก์ก็จะยิ่งเหมาะสมสำหรับการเขียน IO อย่างเข้มข้นเท่านั้น
ในตอนนี้ (ปลายปี 2014) เซิร์ฟเวอร์บรรทัดค่า SSD มีค่า 0.3-0.8 ไดรฟ์ / วันช่วงกลางเพิ่มขึ้นอย่างต่อเนื่องตั้งแต่ 1-5 และระดับสูงดูเหมือนว่าจะเป็นจรวดจรวดที่มีระดับความอดทนในการเขียนสูงถึง 25 * ความจุของไดรฟ์ต่อวันเป็นเวลา 3-5 ปี

บางการทดสอบโลกจริง แสดงให้เห็นว่าบางครั้งการเรียกร้องของผู้ขายสามารถเกินอย่างหนาแน่น แต่การขับรถทางอุปกรณ์ที่ผ่านมาข้อ จำกัด ผู้ขายไม่เคยพิจารณาองค์กร ... แทนที่จะซื้อ spec'd อย่างถูกต้องไดรฟ์สำหรับวัตถุประสงค์ของคุณ


1
โปรดทราบว่าการแปลงจาก AFR เป็น MTTF ถือว่า AFR คงที่ สิ่งนี้ไม่เป็นความจริงสำหรับสิ่งที่มีชิ้นส่วนที่เคลื่อนไหว (เช่นฮาร์ดไดรฟ์) และอาจไม่เป็นจริงสำหรับ SSD
Mark

จริงแน่นอน IIRC มีความล้มเหลวในช่วงต้นจากนั้นเป็นช่วงเวลาของความล้มเหลวต่ำและ AFR ที่เพิ่มขึ้นอย่างต่อเนื่องเมื่ออายุเพิ่มขึ้น เพิ่มปัจจัยสภาพแวดล้อมที่เปลี่ยนแปลงและจำนวนโลกแห่งความเป็นจริงก็สูงขึ้นมาก ตามที่ @Chris S กล่าวถึงระยะเวลาการรับประกันอาจเป็นตัวชี้วัดที่ดีกว่าพร้อมผลกระทบในโลกแห่งความเป็นจริงที่มีประโยชน์
HBruijn

มุมมองที่มีสติที่ดีที่ MTBF 1'500'000 ชั่วโมงหมายถึงจริงๆ "ถ้าฉันมี 1,000 ssd เช่นนี้ 3 น่าจะล้มเหลวภายใน 6 เดือน (บางครั้งก็เร็วกว่านั้น) ... " +1 (และเนื่องจากการทดสอบในช่วงเวลาสั้น ๆ คาดว่าช่วงชีวิตของผู้ที่จะไม่รับประกันมากเกินไป ... "MTBF" อาจลดลงมากเมื่อไดรฟ์ของคุณถึง N ปี)
Olivier Dulac

1
@Bruijn ขอบคุณสำหรับคำตอบที่ให้ข้อมูลของคุณ ปรากฏการณ์ที่คุณกำลังหมายถึง (ขัดขวางความล้มเหลวในช่วงต้นช่วงเวลาของความล้มเหลวต่ำแล้วเพิ่มขึ้นอย่างต่อเนื่องในความล้มเหลว) อธิบายไว้โดยโค้งอ่างอาบน้ำ
OSE

19

น่าเสียดาย MTBF ไม่ใช่สิ่งที่คนส่วนใหญ่คิดว่า ...

  • มันไม่ได้เป็นระยะเวลาของการไดรฟ์ของแต่ละบุคคลจะมีอายุ

    ผู้ผลิตคาดหวังว่าไดรฟ์จะมีอายุการใช้งานนานเท่ากับการรับประกันหลังจากนั้นไม่ใช่ปัญหาของพวกเขา ฮาร์ดไดรฟ์แผ่นแม่เหล็กไฟฟ้ารุ่นเก่าจะยึดหลังจาก 10 ปีหรือมากกว่านั้น วงจรรวมมีอายุการใช้งานนานมาก แต่ส่วนประกอบอื่น ๆ (ตัวเก็บประจุสะดุดตา) เสื่อมสภาพหลังจากจำนวนรอบที่คาดการณ์ได้ค่อนข้างมาก

  • มันคือจำนวนของไดรฟ์เหล่านี้คุณจะต้องคาดหวังว่า 1 ไดรฟ์จะล้มเหลวทุกชั่วโมง

    ตามที่คนอื่น ๆ ได้ชี้ให้เห็นผู้ผลิตทำการทดสอบต่าง ๆ ในช่วงระยะเวลาที่เหมาะสมและกำหนดอัตราความล้มเหลว มีความแปรปรวนจำนวนพอสมควรในการทดสอบประเภทนี้และการตลาดมักจะมี "ข้อมูล" ตามที่ควรจะเป็นจำนวนสุดท้าย ไม่ว่าพวกเขาจะพยายามอย่างดีที่สุดคาดเดาว่าจะต้องใช้ไดรฟ์จำนวนเท่าใดโดยเฉลี่ยหนึ่งความล้มเหลวต่อชั่วโมง

    สำหรับสถานการณ์ที่มีไดรฟ์น้อยคุณสามารถสรุปความน่าจะเป็นทางสถิติของความล้มเหลวตาม MTBF ได้ แต่โปรดทราบว่าความล้มเหลวในผลิตภัณฑ์ที่ออกแบบมาอย่างดีควรเป็นไปตามเส้นโค้ง "อ่างอาบน้ำ" - นั่นคืออัตราความล้มเหลวที่สูงขึ้น ระยะเวลาการรับประกันของพวกเขาหมดอายุโดยมีอัตราความล้มเหลวลดลงในระหว่าง


2

พวกเขามาจากการประเมินทางสถิติตามขนาดตัวอย่างขนาดเล็กและระยะเวลาสั้น ๆ ไม่มีวิธีหรือกระบวนการที่ตกลงกันโดยทั่วไปดังนั้นจึงเป็นเพียง 'การตลาด' ที่ไร้สาระ

นี้บทความอาจอธิบายได้มากขึ้นอีกนิด และWikipediaมีสูตรบางอย่างซึ่งอาจเป็นสิ่งที่คุณกำลังมองหา?

โดยพื้นฐานแล้วสำหรับเกือบทุกอย่าง (รวมถึงเครื่องใช้ในครัวเรือนทั่วไปเช่นเครื่องล้างจาน) ผลิตภัณฑ์หลายชนิดใช้เวลา X จำนวนมาก จำนวนความล้มเหลวที่เกิดขึ้นในช่วงเวลานี้ถูกใช้เพื่อคำนวณ MTFB

แน่นอนว่าไม่สามารถใช้ผลิตภัณฑ์ผ่านวงจรชีวิตทั้งหมดเช่น SSD ซึ่งจะใช้เวลานาน ส่วนใหญ่จะถูก จำกัด ด้วยจำนวนการเขียนมากกว่าความล้มเหลวทางกล (ซึ่งเป็นสิ่งที่ MTFB ใช้)


2

ข่าวร้ายเกี่ยวกับ MTBF คือ metodics การประเมินผลทั่วไปสมมติว่ากระจายโหลดการเขียนอย่างเท่าเทียมกันในเซลล์ NAND ทั้งหมด แต่เซลล์จะถูกจัดกลุ่มเป็นกลุ่มและเมื่อเซลล์เดียวล้มเหลว - ทั้งคลัสเตอร์จะถูกทำเครื่องหมายว่าตายแล้วและจะถูกแทนที่ด้วยเซลล์ใหม่จากเขตสงวน โดยปกติแล้วการสำรองจะประมาณ 20% ของปริมาณ SSD เมื่อสำรองหมด SSD ทั้งหมดจะถูกทำเครื่องหมายว่าตาย

IRL SSD มีข้อมูลถาวรเช่นเดียวกับความผันผวน ลองนึกภาพว่าคุณมี SSD 90% ที่เต็มไปด้วยข้อมูลสแตติกและส่วนที่เหลือ 10% อยู่ภายใต้ภาระการเขียนที่หนักหน่วง ตัวควบคุม SSD กระจายภาระให้กับกลุ่มที่ว่างที่มีอยู่ นั่น 10% หมดอายุขัยของพวกเขาเร็วกว่าที่คุณคาดไว้ 10 เท่า พวกเขาจะถูกแทนที่จากกองหนุนอีกครั้งจนจบ

ในกรณีที่เลวจริง ๆ ที่ปริมาณข้อมูลถาวร / ระเหยคือ 30: 1 หรือมากกว่าตัวอย่างเช่น - กองภาพถ่ายและฐานข้อมูลขนาดเล็กสำหรับเว็บไซต์ยอดนิยม SSD ของคุณจะตายในหนึ่งปี

หนึ่งในลูกค้าของฉันประทับใจมากกับคุณสมบัติ SSD และยืนยันที่จะติดตั้ง DBMS- เซิร์ฟเวอร์ของเขาด้วยคู่ของพวกเขา ในอีก 12 เดือนข้างหน้าเราได้แทนที่ทั้งสองครั้ง

แต่ตามอายุการใช้งานวัสดุการตลาดของ SSD คือ 170 ปี แน่ใจ


1

MTBF ไม่เกี่ยวข้องกับการวัดความทนทานของไดรฟ์ SSD เนื่องจาก SSD ไม่ไวต่อช่วงเวลาเช่นไดรฟ์ HDD แบบหมุนทั่วไป แต่สำหรับจำนวนของการเขียนใหม่สำหรับเซลล์ SSD เพิ่มเติมมาตรการที่เกี่ยวข้องสำหรับ SSD เป็นไดรฟ์เขียนต่อวัน (DWPD) ตัวอย่างเช่น SSD ระดับองค์กรบางดิสก์ความทนทาน 3.2TB จะเป็น 3 DWPD เป็นเวลา 5 ปี

บางครั้งผู้ขาย SSD ให้ความอดทนในแง่ของ (ทั้งหมด) เทราไบต์เขียน (TBW) หรือ "เขียนรอบ" ซึ่งสามารถแปลเป็น DWPD ได้ง่ายและในทางกลับกันรู้เวลาและปริมาณงานสูงสุดสำหรับไดรฟ์ SSD ที่กำหนด

สำหรับตัวอย่างที่ให้มาพร้อมกับไดรฟ์ 3.2Tb SSD:
TBW = DriveSize * Years * DWPD;
TBW = 3.2TB * 5 * 365 * 3d = 17520 TB เป็นเวลา 5 ปี

หากไดรฟ์มีความเร็ว 80 MByte ต่อวินาทีสำหรับการเขียนที่ยั่งยืน
WriteCycles = DWPD * ปี
WriteCycles = 3 * 365 * 5 = 5475 รอบการเขียนทั้งหมดสำหรับดิสก์ที่กำหนด

สิ่งสำคัญคือการสังเกตว่าเรากำลังคำนวณกรณีที่เลวร้ายที่สุดหากคุณจะให้ปริมาณการใช้งาน 100% สำหรับไดรฟ์ (ซึ่งเป็นไปไม่ได้มาก)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.