การเปลี่ยนฮาร์ดไดรฟ์ [ปิด]


19

ฉันสงสัยว่ามันเป็นความคิดที่ดีหรือไม่ที่จะแทนที่ฮาร์ดไดรฟ์ในเซิร์ฟเวอร์ฐานข้อมูลที่มีความสำคัญกับระบบหลังจากใช้งานไปหลายปีก่อนที่มันจะตาย

ตัวอย่างเช่นฉันคิดถึงการเปลี่ยนฮาร์ดไดรฟ์หลังจากใช้งานมา 3 ปี เนื่องจากฉันมีฮาร์ดไดรฟ์จำนวนมากในเซิร์ฟเวอร์ฉันสามารถซัดเซาฮาร์ดไดรฟ์ที่ถูกแทนที่

นี่เป็นความคิดที่ดีหรือคนรอความล้มเหลวหรือไม่?

คำตอบ:


33

Google ทำการศึกษาเกี่ยวกับดิสก์ไดรฟ์และพบว่ามีความสัมพันธ์กันน้อยมากระหว่างอายุดิสก์และความล้มเหลว การทดสอบ SMART จะไม่แสดงความล้มเหลว

การสังเกตในท้องถิ่นของฉัน (> 500 เซิร์ฟเวอร์) คล้ายกัน ฉันมีดิสก์ใหม่ล้มเหลวอย่างรวดเร็วในขณะที่ดิสก์รุ่นเก่ายังคงใช้งานได้

กฎทั่วไปของฉันคือถ้าเราเห็นปัญหาของดิสก์ (SMART หรือข้อผิดพลาดของระบบ) เราแทนที่มันทันที ถ้าไม่เช่นนั้นไดรฟ์จะกรณืออกเมื่อเซิร์ฟเวอร์ทำ

Google ศึกษา http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/th/us/archive/disk_failures.pdf


โดยทั่วไปนี่คือสิ่งที่ฉันคิด แต่ต้องการเห็นสิ่งที่คนอื่นทำ ขอบคุณ
Garfonzo

2
ฉันเห็นด้วย เราเห็นอัตราความล้มเหลวที่สูงขึ้นมากด้วยไดรฟ์ SAS 2.5 "รุ่นใหม่กว่าเมื่อเทียบกับเซิร์ฟเวอร์อายุ 10 ปีที่ใช้งานไดรฟ์ SCSI ขนาด 9" ขนาด 3.5 "!
James O'Gorman

@ JamesO'Gorman กระบวนการผลิตเปลี่ยนแปลง ... ทำให้ฉันสงสัยว่าสิ่งที่ทำกับไดรฟ์ใหม่เป็นส่วนหนึ่งของ "การแลกเปลี่ยน"
Avery Payne

1
Microsoft TechNet นอกจากนี้ยังมีบทความเกี่ยวกับข้อบกพร่องที่สัมผัสสั้น ๆ บนฮาร์ดไดรฟ์ / กลล้มเหลวส่วน (เป็นtechnet.microsoft.com/en-us/library/bb742464.aspx ) - พวกเขาคุยกันนิด ๆ หน่อย ๆ เกี่ยวกับ "อ่างอาบน้ำโค้ง" ที่กล ความล้มเหลวขององค์ประกอบมีแนวโน้มที่จะปฏิบัติตาม
voretaq7

ไดรฟ์ใหม่ @AveryPayne Re ทราบว่า 2.5" ไดรฟ์ที่มีมากความคลาดเคลื่อนที่เข้มงวดมากขึ้น - เป็นผลสิ่งที่เคยเป็น 'ยอมรับ' เลอะกลบน 3.5" ไดรฟ์สามารถนำไปสู่ความล้มเหลวหายนะในไดรฟ์ 2.5" ดูบทความของ TechNet ฉันเชื่อมโยงเกี่ยวกับเส้นโค้งของอ่างอาบน้ำ - ส่วนประกอบทางกลต้องทนทุกข์ทรมานจากการตายของทารกโดยทั่วไปแล้วค่อนข้างคงที่จนกระทั่งพวกเขาตายในที่สุด "อายุ" ไดรฟ์ 2.5 "ยังคงอยู่ในอาณาเขต" ทารกตาย "- จากประสบการณ์ของฉัน อย่างน้อย 1 ปีของการดำเนินงาน
voretaq7

13

เลขที่

หนึ่งในปัญหาที่ใหญ่ที่สุดด้วยการเปลี่ยนฮาร์ดไดรฟ์บนเซิร์ฟเวอร์ที่ใช้งานจริงคือการทำเช่นนั้นจะทำให้เกิดการสร้างใหม่ โดยเฉพาะอย่างยิ่งถ้าคุณใช้ RAID5 และโดยเฉพาะอย่างยิ่งถ้าคุณใช้ไดรฟ์ขนาดใหญ่การบังคับให้สร้างใหม่จะสร้างความเสี่ยงที่สำคัญของความล้มเหลวที่ไม่สามารถกู้คืนได้ ความเสี่ยงของการสูญเสียอาร์เรย์ในระหว่างการสร้างใหม่นั้นสูงกว่าความเสี่ยงที่เกี่ยวข้องกับการทิ้งไดรฟ์อายุ 3 ปีให้เข้าที่

ยกตัวอย่างถ้าคุณเปลี่ยนดิสก์ทุกตัวในอาร์เรย์ RAID5 แบบ 6 ดิสก์ซึ่งประกอบด้วยดิสก์ 2TB ความเสี่ยงทางทฤษฎีของคุณเกี่ยวกับข้อผิดพลาดการอ่านที่ไม่สามารถกู้คืนได้ในระหว่างการสร้างใหม่หนึ่งครั้งอยู่ในพื้นที่ใกล้เคียง 58% (ตามคณิตศาสตร์เช็ดปากของฉัน โปรดทำของคุณเองและเปรียบเทียบบันทึก) กล่าวอีกนัยหนึ่ง: การเปลี่ยนดิสก์ "เชิงป้องกัน" ของคุณนั้นไม่มีผลอะไรนอกจากการก่อวินาศกรรม

ครั้งเดียวที่ฉันจะพิจารณาการรีเฟรชไดรฟ์ในเซิร์ฟเวอร์เก่าจะอยู่ในช่วง "refurbishing" มันเช่นหลังจากถูกปลดประจำการจากงานหนึ่งและก่อนที่จะนำกลับมาให้บริการด้วยบทบาทใหม่ แม้ ณ จุดนั้นความต้องการด้านความจุและประสิทธิภาพจะมีความสำคัญมากกว่าอายุของไดรฟ์


1
+1 สำหรับการทริกเกอร์การสร้างใหม่
gregmac

คุณช่วยอธิบายได้ว่าทำไมความเสี่ยงถึง 58% หากมีการตรวจสอบดิสก์เป็นประจำทำไมมันจะเน้นการกู้คืนมากขึ้น?
Mircea Vutcovici

@MirceaVutcovici เพราะในการจัดเรียง RAID-5 ไดรฟ์ทั้งหมดจะถูกใช้งานอย่างต่อเนื่องในระหว่างการสร้างใหม่กับการสุ่มเป็นครั้งคราวหาที่นี่หรือมี กล่าวอีกนัยหนึ่งการ "โหลด" ของไดรฟ์ทั้งหมดจะเพิ่มขึ้นและในการทำเช่นนั้นความเสี่ยงของการเรียกไดรฟ์ที่ล้มเหลวครั้งที่สองก็เพิ่มขึ้นเช่นกัน
Avery Payne

@ Avery Payne ฉันรู้ว่าคุณเน้นดิสก์มากขึ้นในระหว่างการสร้างใหม่ ฉันพยายามที่จะเข้าใจว่าทำไมการสร้างใหม่จะเน้นดิสก์มากกว่าการตรวจสอบความสอดคล้อง
Mircea Vutcovici

@MirceaVutcovici ตัวเลขที่แน่นอน (และวิธีการทำคณิตศาสตร์) เป็นที่ถกเถียงกัน แต่บรรทัดล่างคือคุณต้องอ่าน 10 เทราไบต์ของข้อมูลหกครั้งโดยไม่มีประโยชน์ของดิสก์พาริตี้เพื่อแก้ไขข้อผิดพลาดการอ่านใด ๆ เพื่อดำเนินการ หกสร้างใหม่ ความน่าจะเป็นในการอ่านข้อมูล 60 เทราไบต์โดยไม่มีข้อผิดพลาดไม่ได้อยู่ในความโปรดปรานของคุณ
Skyhawk

3

ฉันไม่เห็นมัน เราให้เซิร์ฟเวอร์อยู่ภายใต้การรับประกันจนกว่าจะหมดระยะเวลาการผลิต - 5 ปี Standard RAID 5 ช่วยให้คุณสามารถอยู่รอดจากความล้มเหลวของดิสก์ได้ดังนั้นเราจึงเก็บไดรฟ์ไว้สองตัวเพื่อให้เราสามารถเริ่มสร้างใหม่ได้ทันทีและบนเซิร์ฟเวอร์ที่สำคัญเรารวมฮอตสปอร์หรือ RAID 10

หากคุณสังเกตเห็นว่า เมื่อเร็ว ๆ นี้ในเซิร์ฟเวอร์คุณอาจมีปัญหา backplane อาจเป็นการสั่นสะเทือนหรือฝุ่นละอองใหม่จากการก่อสร้างในบริเวณใกล้เคียง


สิ่งนี้ไม่เป็นความจริงทั้งหมด ถ้าดิสก์ของคุณจำนวนมากมาจากล็อตเดียวกันคุณจะมีความเสี่ยงสูงที่จะเกิดความล้มเหลวในเวลาเดียวกันเมื่อคุณเพิ่มความเครียดของการสร้างใหม่ ดังที่กล่าวไว้ในคำตอบอื่นขนาดที่เพิ่มขึ้นของRAID5เรียกใช้ความน่าจะเป็นที่เพิ่มขึ้นของ URE ในระหว่างการสร้างใหม่
Magellan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.