อัตราความล้มเหลวสูงของไดรฟ์ขนาดใหญ่?


24

ฉันเพิ่งปรับใช้เซิร์ฟเวอร์ที่มีไดรฟ์ 5x 1TB (ฉันจะไม่พูดถึงแบรนด์ของพวกเขา แต่มันเป็นหนึ่งในสองขนาดใหญ่) ในตอนแรกฉันถูกเตือนไม่ให้รับไดรฟ์ความจุขนาดใหญ่ตามที่เพื่อนแนะนำฉันว่าพวกเขามี MTBF ที่ต่ำมากและฉันควรที่จะได้รับไดรฟ์ความจุขนาดเล็กที่มากขึ้นเพราะพวกเขาไม่ได้ เทคโนโลยีสามารถจัดการได้

ตั้งแต่นั้นมาดิสก์สามในห้านั้นจึงล้มเหลว โชคดีที่ฉันสามารถแทนที่และสร้างอาร์เรย์ใหม่ก่อนที่ดิสก์ต่อไปจะล้มเหลว แต่มันทำให้ฉันเป็นห่วงมาก

คุณคิดยังไง? ฉันเพิ่งได้รับพวกเขาในชุดที่ไม่ดี? หรือดิสก์ความจุที่ใหม่กว่า / สูงกว่ามีแนวโน้มที่จะล้มเหลวมากกว่าดิสก์ที่ถูกลองและทดสอบ


2
ทำไมคุณไม่พูดถึงแบรนด์? ฉันเดาว่าชุดของคุณคือ 7200.11 cudas ซึ่งเป็นที่รู้กันว่ามีแนวโน้มตายเร็ว
Dani

ที่จริงแล้วพวกเขาก็ Digitals ตะวันตก ...
มาร์คเฮนเดอ

เพียงเพื่อบันทึกฉันเอาพวกเขาทั้งหมดกลับคืนและได้รับใหม่ทั้งหมดและพวกเขาได้ทำงานเป็นเวลาสองเดือนแล้วโดยไม่มีปัญหาใด ๆ เลย
Mark Henderson

ฉันมีประสบการณ์ที่คล้ายกัน ไดรฟ์ 1.5 1.5 16 ในช่วง 4 เดือนแรกมีการล้มเหลว 4 ครั้ง ในอีกสามปีข้างหน้าอ่อนตัวหนึ่งล้มเหลว
David Schwartz

คำตอบ:


19

คุณอาจได้แบทช์ที่แย่ ฉันกังวลเกี่ยวกับการปรับใช้อาร์เรย์ที่สร้างจากดิสก์จากชุดเดียวกันด้วยเหตุนี้ - พวกเขามีแนวโน้มที่จะมีช่วงชีวิตที่คล้ายคลึงกันซึ่งทำให้การเปลี่ยนอาจน่าตื่นเต้นมากเมื่อล้มเหลว

มันเป็นไปไม่ได้เลยที่มีข้อบกพร่องในการออกแบบกับไดรฟ์ซึ่งเกิดขึ้นก่อนหน้านี้อย่างแน่นอน อย่างไรก็ตามโดยปกติแล้วอินเทอร์เน็ตจะเต็มไปด้วยข้อร้องเรียนเกี่ยวกับไดรฟ์หากมีสิ่งผิดปกติเกิดขึ้นกับมันซึ่งตรงข้ามกับเสียงพื้นหลังปกติที่คุณจะพบในทุกสิ่ง


6
+1 ลองเว้นช่องว่างการซื้อของคุณแหล่งที่มาจากร้านค้าต่างๆหรือผสมแบรนด์เพื่อบรรเทาปัญหานี้
Rob Allen

หรือคุณสามารถลดได้โดยการ "เบิร์นอิน" ไดรฟ์ที่มาจากที่เดียวกันในเวลาเดียวกัน รันโปรแกรมที่เน้นการเขียนเทียบกับมันเป็นเวลาหลายชั่วโมง / วัน ระยะเวลาการเดินโซเซเพื่อจำลองอายุที่ต่างกัน ฉันสร้างโปรแกรมอย่างง่ายที่เรียกว่า DriveTest ซึ่งเขียนข้อมูลแบบสุ่ม psuedo จากนั้นอ่านมันกลับมาและตรวจสอบเพื่อ "เบิร์น" และทำการทดสอบอย่างง่ายพร้อมกัน เคล็ดลับนี้ไม่แนะนำสำหรับ SSD
rkagerer

13

นี่เป็นคำถามที่ตอบยากถ้าคุณไม่มีทรัพยากรขององค์กรขนาดใหญ่ ดูงานวิจัยของ Google เป็นความล้มเหลวของฮาร์ดดิสก์

เมื่อทำการซื้อดิสก์จำนวนมากฉันจะกำหนดขนาดของดิสก์คร่าวๆที่มีต้นทุนต่ำสุดต่อไบต์ซึ่งโดยทั่วไปแล้วจะเป็นรุ่นที่เก่ากว่ารุ่นล่าสุด นี่ทำให้รู้สึกว่าพวกเขาจะปรับปรุงความน่าเชื่อถือของรุ่นนั้น


1
1.5 ถึง 2TB เป็นขอบเลือดออกในขณะนี้ดังนั้น 1TB จะไม่เป็นไปตามเกณฑ์ของคุณ พวกมันค่อนข้างถูก
Mark Ransom

จุดที่ดีมาก
Knox

10

จานมากขึ้น + หัวมากขึ้นเท่ากับโอกาสของความล้มเหลวที่สูงขึ้น

ใช้ฮาร์ดไดรฟ์ WD ทั่วไปสองตัว

640GB = สองแผ่น
1TB = สามแผ่น

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

แผ่นเสียงพิเศษนั้น = เสียงรบกวนมากขึ้น, การใช้พลังงานมากขึ้น, ความร้อนมากขึ้น, เวลาขับช้าลง, ไวต่อความเสียหายต่อการกระแทก

หากพวกเขาออกแบบไดรฟ์เดียวกันด้วยแผ่นเสียงเพียงแผ่นเดียวมันจะมีรายละเอียดที่ดียิ่งขึ้น ในกรณีนี้เป็นไดรฟ์เกรดสำหรับผู้บริโภค แต่เป็นไดรฟ์เกรดสำหรับผู้บริโภคระดับสูงที่มีแคชเป็นสองเท่าและรับประกัน 5 ปี คุณจะเห็นคณิตศาสตร์ที่คล้ายกันหากคุณตรวจสอบเอกสารอย่างใกล้ชิดเกี่ยวกับยี่ห้อหรือรูปแบบของฮาร์ดไดรฟ์แบบดั้งเดิม (จานหมุน) มันเป็นเรื่องของฟิสิกส์ล้วนๆที่จานพลาสติกจำนวนมากทำให้ไดรฟ์มีความน่าเชื่อถือน้อยลง

Jeff Hengesbach ก็พูดถูกเช่นกัน

ความกังวลหลักของไดรฟ์ 'ใหญ่' คือเวลาการสร้างใหม่เมื่อเกิดความล้มเหลว ยิ่งไดรฟ์ขนาดใหญ่ยิ่งสร้างขึ้นอีกต่อไปหน้าต่างที่ใหญ่ขึ้นสำหรับความล้มเหลวของไดรฟ์เพิ่มเติมและการสูญเสียอาเรย์ที่อาจเกิดขึ้น ด้วยไดรฟ์ "ใหญ่" มูลค่าทางธุรกิจของความพร้อมใช้งานควรกำหนดระดับความเสี่ยงที่ยอมรับได้ (การสูญเสียอาร์เรย์) ซึ่งจะผลักดันการเลือกระดับ RAID ของคุณและจำนวนไดรฟ์

เติมแกรมเพอร์โรว์ในปริมาณเล็กน้อย

ไดรฟ์ที่มีห้าสิบล้านเซกเตอร์นั้นมีโอกาสสิบเท่าในการมีเซกเตอร์ที่แย่กว่าไดรฟ์ที่มีห้าล้านเซกเตอร์ ฉันสมมติว่าอัตราความล้มเหลวในไดรฟ์ขนาดใหญ่และไดรฟ์ขนาดเล็กเหมือนกันที่นี่ซึ่งอาจไม่ใช่ข้อสมมติฐานที่ดี

จานรองมาก = แย่
พื้นที่เก็บข้อมูลเพิ่มเติมเป็นถุงแบบผสม ข้อดีข้อเสียที่มีมากมาย
ภาคส่วนอื่น ๆ มีโอกาสมากขึ้นสำหรับข้อผิดพลาด ไม่จำเป็นต้องเป็นเชิงเส้น แต่เป็นปัจจัยที่แน่นอน

หากคุณไม่ต้องการพื้นที่มากกว่าความน่าเชื่อถือฉันขอแนะนำให้ติดกับไดรฟ์แบบแผ่นเดียวหรือแบบคู่ ต้องใช้การวิจัยและในบางกรณีโชคดีที่รู้ว่าคุณจะได้รับอะไรเมื่อสั่งซื้อไดรฟ์เนื่องจากผู้ผลิตบางรายไม่เพียง แต่หลีกเลี่ยงการเผยแพร่จำนวนแผ่นที่พวกเขาอาจขายไดรฟ์มากกว่าหนึ่งตัวภายใต้หมายเลขชิ้นส่วนเดียวกัน

ยกตัวอย่างเช่น WD3200AAKS มีรุ่น 320GB หนึ่งแผ่นและสองรุ่น 320GB (160GB x 2) ยิ่งไปกว่านั้นมีหลาย lables และตัวเรือนไดรฟ์ที่ใช้ดังนั้นคุณไม่สามารถดูไดรฟ์ได้อย่างง่ายดายและรู้ว่ามีแผ่นดิสก์ใดอยู่ภายใน วิธีเดียวที่จะรู้คือค้นหาออนไลน์เพื่อทราบว่า WD3200AAKS-00B3A0 และ WD3200AAKS-75VYA0 บอกคุณว่าแผ่นเสียงแผ่นเดียว แต่ไม่มีผู้ค้าปลีกจะบอกคุณว่าคุณจะได้รับ


1
ว้าว. นั่นคือบางสิ่งในเชิงลึก! ขอบคุณ! ฉันไม่ได้พิจารณาจำนวนชิ้นส่วนที่เคลื่อนไหว (จาน) ก่อนหน้านี้
Mark Henderson

3

ฉันเชื่อว่าอัตราความล้มเหลวที่สูงกว่าปกตินั้นบ่งบอกถึงเทคโนโลยีใหม่ ๆ ฉันถูกบอกเสมอว่าอย่าซื้อรุ่นปีแรกของรถรอจนกว่าพวกเขาจะกำจัดแมลงออกไป ฉันจะบอกว่าสิ่งเดียวกันอาจเป็นจริงสำหรับสิ่งอื่น ๆ รวมถึงฮาร์ดไดรฟ์


1
ฉันสามารถยืนยันการเปรียบเทียบรถทั้งหมดได้ (การเปรียบเทียบรถไม่เคยผิดเพี้ยนไปใช่ไหม) ฉันยอมรับว่าฉันกำลังรีบและไม่ได้ทำการวิจัยอย่างถูกต้องและฉันต้องจ่ายราคาตอนนี้!
Mark Henderson

3

ฉันไม่แน่ใจว่ามันยุติธรรมที่จะพูดว่าดิสก์ 'ใหญ่' มี MTBF ที่สูงขึ้นหรือไม่ ฉันมีระบบชื่อใหญ่พร้อมไดรฟ์ 750GB และในช่วง 2 ปีที่ผ่านมาไม่มีสิ่งใดล้มเหลว (750 คือ "ใหญ่" 2 ปีที่แล้ว) แต่ฉันก็รู้ว่าระบบชื่อใหญ่ที่สร้างเมื่อ 250GB นั้นใหญ่และอาเรย์นั้นตกลงมาสองสามครั้ง การถกเถียง MTBF นั้นเป็นสงครามศักดิ์สิทธิ์

ความกังวลหลักของไดรฟ์ 'ใหญ่' คือเวลาการสร้างใหม่เมื่อเกิดความล้มเหลว ยิ่งไดรฟ์ขนาดใหญ่ยิ่งสร้างขึ้นอีกต่อไปหน้าต่างที่ใหญ่ขึ้นสำหรับความล้มเหลวของไดรฟ์เพิ่มเติมและการสูญเสียอาเรย์ที่อาจเกิดขึ้น ด้วยไดรฟ์ "ใหญ่" มูลค่าทางธุรกิจของความพร้อมใช้งานควรกำหนดระดับความเสี่ยงที่ยอมรับได้ (การสูญเสียอาร์เรย์) ซึ่งจะผลักดันการเลือกระดับ RAID ของคุณและจำนวนไดรฟ์

ธุรกิจ SATA / RAID ก้าวเข้ามาในไม่กี่ปีที่ผ่านมา ฉันไม่คิดว่าชื่อใหญ่จะเสนอถ้าพวกเขารู้ว่ามันจะเป็นปัญหาการสนับสนุนที่สำคัญหรือแหล่งที่มาของลูกค้าลดลง ฉันอยากรู้ว่าความน่าเชื่อถือของคุณไปข้างหน้าในขณะนี้ว่าคุณได้แทนที่ชุดต้นฉบับบางส่วนแล้ว


1

พวกเขาทั้งหมดอยู่ในคอมพิวเตอร์เครื่องเดียวกันหรือดิสก์คอนโทรลเลอร์? คุณพูดว่าคุณต้องสร้างอาร์เรย์ใหม่ หากเป็นกรณีนี้แล้วบางอย่างอาจจะเป็นความผิดพลาดที่มีการควบคุมไฟหรือหน่วยความจำ ถ้าไม่ใช่ฉันก็จะเดาว่าชุดของไดรฟ์ผิดพลาด นอกจากนี้อาจมีปัญหาความเข้ากันได้กับไดรฟ์เฉพาะที่คุณใช้กับคอนโทรลเลอร์นั้น

นอกจากนี้ฉันสงสัยเมื่อมีคนพูดว่าดิสก์ที่ใหญ่กว่ามี MTBF ที่สูงกว่าวิธีการคำนวณ สมมติว่าคุณมีดิสก์ 2x250 GB และ 1x500 GB อาจจะไร้เดียงสา แต่จะไม่ไดรฟ์ที่เก็บสองครั้งตามที่มีข้อมูลเพิ่มเติมอาจล้มเหลวด้วย? ฉันเดาว่าฉันไม่รู้ว่า MTBF มีการอ่านผิดหรือการเขียนผิดหรือไม่หรือหากหมายความว่าดิสก์เสียหายโดยอัตโนมัติ ไม่มีใครทราบว่ามีมาตรฐานอุตสาหกรรมที่เข้มงวดและคำจำกัดความของ MTBF สำหรับฮาร์ดดิสก์หรือไม่


1

ต่อไปนี้เป็นบางสิ่งที่ฉันจะตรวจสอบ: 1) หมายเลขซีเรียลของไดรฟ์ใกล้เคียงหรือไม่ ถ้าเป็นเช่นนั้นคุณอาจจะมีชุดที่ผิดพลาด 2) สภาพแวดล้อมที่เซิร์ฟเวอร์ของคุณอาศัยอยู่เป็นอย่างไร? คุณเคยมีปัญหากับฮาร์ดแวร์อื่น ๆ ที่ล้มเหลวเมื่อเร็ว ๆ นี้? 3) ไดรฟ์นั้นเป็นไดรฟ์ Seagate Barracuda หรือไม่ มีปัญหากับไดรฟ์เหล่านั้น ดูบทความ computerworld นี้เกี่ยวกับมัน 4) ไดรฟ์เหล่านี้มาเป็นส่วนหนึ่งของระบบหรือไม่? หรือคุณซื้อเอง หากคุณซื้อไดรฟ์ OEM ไม่มีวิธีที่จะตรวจสอบให้แน่ใจว่าไดรฟ์นั้นได้รับการจัดการอย่างรอบคอบก่อนที่จะซื้อ

ฉันมีโชคที่เหลือเชื่อโดยส่วนตัวกับฮาร์ดไดรฟ์ ฉันมีแค่สองไดรฟ์ที่ล้มเหลว มีเพียงหนึ่งความล้มเหลวที่เกิดขึ้นบนไดรฟ์ที่ฉันใช้งานจริง อย่างไรก็ตามรอบตัวฉันฉันเห็นคนจำนวนมากสูญเสียข้อมูลในฮาร์ดไดรฟ์


อืมใช่พวกเขาทั้งหมดอย่างใกล้ชิด แต่พวกเขาก็ของ WD ไม่ Seagates และใช่ว่าพวกเขาเป็นไดรฟ์ OEM ... บางสิ่งที่ผมไม่ได้รับการพิจารณาในมี ...
มาร์คเฮนเดอ

1

อัตราความล้มเหลวที่สูงขึ้นของไดรฟ์ขนาดใหญ่อาจเป็นเพียงฟังก์ชั่นขนาดของไดรฟ์ ไดรฟ์ที่มีห้าสิบล้านเซกเตอร์นั้นมีโอกาสสิบเท่าในการมีเซกเตอร์ที่แย่กว่าไดรฟ์ที่มีห้าล้านเซกเตอร์ ฉันสมมติว่าอัตราความล้มเหลวในไดรฟ์ขนาดใหญ่และไดรฟ์ขนาดเล็กเหมือนกันซึ่งอาจไม่ใช่ข้อสมมติที่ดี - อย่างที่คนอื่นพูดความจริงที่ว่าเทราไบต์ไดร์ฟยังค่อนข้างใหม่พวกเขาอาจมีอัตราความล้มเหลวสูงกว่า เริ่มด้วย.

ในกรณีของคุณดูเหมือนว่าชุดไดรฟ์ที่ไม่ดี


1

หากคุณซื้อไดรฟ์ทั้งหมดในเวลาเดียวกันจากสถานที่เดียวกันเป็นไปได้ว่าพวกเขาทั้งหมดมาจากแบทช์ iffy เดียว

เมื่อรวม RAID Array ฉันมักแนะนำให้ผสมไดรฟ์เข้าด้วยกันเล็กน้อยนั่นคือการผสมผสานของผู้ผลิตหรืออย่างน้อยไดรฟ์จากซัพพลายเออร์ที่แตกต่างกัน

คำแนะนำอื่นที่ฉันจะทำคือการใช้ไดรฟ์ขนาดเล็กถ้าเป็นไปได้ (เช่นคุณมีพื้นที่ทางกายภาพสำหรับไดรฟ์และพอร์ตตัวควบคุมเพื่อแฮงค์ออก) ดังนั้นแทนที่จะเป็นโวลุ่ม RAID 1 หรือไดรฟ์ 1Tb สองตัวที่มี RAID 10 จากสี่ 500Gb วิธีนี้เมื่อไดรฟ์เสียคุณกำลังสร้างอาร์เรย์ที่เล็กกว่าซึ่งเป็นส่วนหนึ่งของอาร์เรย์ที่มีขนาดใหญ่กว่าแทนที่จะสร้างอาร์เรย์ทั้งหมดใหม่ (ลดระยะเวลาในระหว่างที่อาร์เรย์ไม่สมบูรณ์) และยังมีความซ้ำซ้อนอีกเล็กน้อย (ในสถานการณ์สี่ในหกของ "สองไดรฟ์ล้มเหลวในคราวเดียว" อาร์เรย์ RAID10 4 ไดรฟ์จะทำงาน) คุณสามารถทำเช่นเดียวกันกับการรวมอาร์เรย์ R5 ขนาดเล็กลงในอาร์เรย์ R50 ได้เช่นกันหากคอนโทรลเลอร์หรือซอฟต์แวร์ RAID ของคุณรองรับ

บางทีฉันอาจเป็นคนหวาดระแวงมากเกินไป แต่ฉันก็ต้องระวังการไว้วางใจ 1Tb ของข้อมูลไปยังไดรฟ์เดียวแม้ว่าไดรฟ์นั้นจะเป็นส่วนหนึ่งของอาเรย์ที่ซ้ำซ้อน

เห็นได้ชัดว่ามีข้อ จำกัด ทางกายภาพขณะเล่นซึ่งอาจทำให้เทคนิคไม่สามารถใช้ได้กับคุณพลังดึงข้อ จำกัด เช่นกันดังนั้น YMMV ในฐานะที่เป็น "ตัวอย่าง" เมื่ออาร์เรย์หรืออาร์เรย์ไม่สามารถใช้งานได้: ฉันควรมีสี่ไดรฟ์เป็น R10 ในหนึ่งในเซิร์ฟเวอร์ของเราที่นี่แทนไดรฟ์ที่มีขนาดใหญ่กว่าในอาร์เรย์ R1 แต่มันไม่มีที่ว่างทางร่างกาย การซื้อ / สร้างอาร์เรย์ภายนอกนั้นไม่มีงบประมาณและเราไม่สามารถใช้พื้นที่บนอาร์เรย์ที่มีอยู่ได้เนื่องจากข้อมูลจะต้องถูกแยกทางกายภาพออกจากข้อมูลอื่น ๆ ทั้งหมดเนื่องจากข้อกำหนดด้านการปกป้องข้อมูล


1

บางคนทำการศึกษาโดยละเอียดเกี่ยวกับปัญหาของไดรฟ์ที่มีขนาดใหญ่กว่านี้ จะต้องทำอย่างไรกับอัตราความผิดพลาดที่เหลืออยู่คงที่แม้ว่าขนาดของไดรฟ์จะเพิ่มขึ้นรวมถึงเวลาที่ใช้ในการสร้างไดรฟ์ที่ใหญ่ขึ้น ทั้งสองรวมกันเพื่อทำให้เกิดความล้มเหลวครั้งที่สองในระหว่างการสร้างใหม่เป็นอย่างมากในขอบเขตของความเป็นจริง ฉันจะไปกับ 500 gb หรือไดรฟ์ขนาดเล็กกว่าในอาร์เรย์ RAID


1

ใช้ฮาร์ดไดรฟ์ที่มีความจุน้อยกว่าเพื่อใช้ในการผลิตเสมอ ไม่เคยตรวจสอบฟิสิกส์ที่อยู่เบื้องหลัง แต่ดิสก์ที่เล็กกว่าก็มีแนวโน้มที่จะทำลายได้น้อยลง นั่นคือสิ่งที่ทุกคนบอกฉันเสมอ


0

คุณสร้างอาร์เรย์ด้วยดิสก์ทั้งหมดจากชุดงานเดียวกันและจัดส่งทั้งหมดจากซัพพลายเออร์รายเดียวกันหรือไม่ ฉันถูกบอกว่าเป็นสิ่งที่ไม่ดีที่จะทำ ...


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.