คำถามติดแท็ก drive-failure

10
ฉันจะเผาไหม้ฮาร์ดไดรฟ์ได้อย่างไร
Google ทำการศึกษาอย่างละเอียดมากเกี่ยวกับความล้มเหลวของฮาร์ดไดรฟ์ซึ่งพบว่าฮาร์ดไดรฟ์ส่วนสำคัญล้มเหลวภายใน 3 เดือนแรกของการใช้งานหนัก เพื่อนร่วมงานของฉันและฉันคิดว่าเราสามารถใช้กระบวนการเบิร์นอินสำหรับฮาร์ดไดรฟ์ใหม่ของเราที่อาจช่วยให้เราปวดใจจากการเสียเวลากับฮาร์ดไดรฟ์ใหม่ที่ยังไม่ผ่านการทดสอบ แต่ก่อนที่เราจะใช้กระบวนการเบิร์นอินเราต้องการทราบข้อมูลเชิงลึกจากผู้อื่นที่มีประสบการณ์มากกว่านี้: การเผาไหม้ฮาร์ดไดรฟ์สำคัญแค่ไหนก่อนที่จะเริ่มใช้งาน คุณใช้กระบวนการเบิร์นอินอย่างไร คุณเบิร์นฮาร์ดไดรฟ์นานเท่าใด คุณใช้ซอฟต์แวร์ใดในการเขียนในไดรฟ์ ความเครียดเท่าไหร่สำหรับกระบวนการเบิร์นอินมากเกินไป? แก้ไข: เนื่องจากลักษณะของธุรกิจ RAID จึงไม่สามารถใช้เวลาส่วนใหญ่ได้ เราต้องพึ่งพาไดรฟ์เดียวที่ได้รับจดหมายทั่วประเทศค่อนข้างบ่อย เราสำรองข้อมูลไดรฟ์โดยเร็วที่สุดเท่าที่จะทำได้ แต่เรายังคงพบกับความล้มเหลวที่นี่และก่อนที่เราจะมีโอกาสในการสำรองข้อมูล UPDATE บริษัท ของฉันใช้กระบวนการเบิร์นอินมาระยะหนึ่งแล้วและพิสูจน์แล้วว่ามีประโยชน์อย่างยิ่ง เราเขียนไดรฟ์ใหม่ทั้งหมดที่เรามีอยู่ในสต็อกทันทีทำให้เราพบข้อผิดพลาดมากมายก่อนที่การรับประกันจะหมดอายุและก่อนที่จะติดตั้งลงในระบบคอมพิวเตอร์ใหม่ มันยังพิสูจน์แล้วว่ามีประโยชน์ในการตรวจสอบว่าไดรฟ์เสีย เมื่อคอมพิวเตอร์เครื่องหนึ่งของเราเริ่มพบข้อผิดพลาดและฮาร์ดไดรฟ์เป็นผู้ต้องสงสัยหลักเราจะเรียกใช้กระบวนการเบิร์นอินใหม่บนไดรฟ์นั้นและดูข้อผิดพลาดใด ๆ เพื่อให้แน่ใจว่าไดรฟ์เป็นปัญหาจริง ๆ ก่อนเริ่มกระบวนการ RMA มันในถังขยะ กระบวนการเบิร์นอินของเรานั้นง่าย เรามีระบบอูบุนตูที่กำหนดไว้พร้อมพอร์ต SATA จำนวนมากและเราเรียกใช้แบดบล็อคในโหมดอ่าน / เขียนด้วยการส่งผ่าน 4 ครั้งในแต่ละไดรฟ์ เพื่อให้สิ่งต่าง ๆ ง่ายขึ้นเราได้เขียนสคริปต์ที่พิมพ์คำเตือน "ข้อมูลจะถูกลบออกจากไดรฟ์ทั้งหมดของคุณ" และจากนั้นเรียกใช้ badblocks ในทุกไดรฟ์ยกเว้นไดรฟ์ระบบ

5
เวลาเฉลี่ยระหว่างความล้มเหลว - SSD
เวลาเฉลี่ยระหว่างความล้มเหลวหรือ MTBF สำหรับนี้ SSD ถูกระบุว่าเป็น1,500,000ชั่วโมง นั่นเป็นเวลาหลายชั่วโมง 1,500,000ชั่วโมงเป็น170ปี ๆ ตั้งแต่การคิดค้น SSD ตัวนี้เป็นสงครามหลังสงครามพวกเขารู้ได้อย่างไรว่า MTBF คืออะไร สองตัวเลือกที่สมเหตุสมผลสำหรับฉัน: Newegg เพิ่งมีตัวพิมพ์ผิด ความหมายของเวลาเฉลี่ยระหว่างความล้มเหลวไม่ใช่สิ่งที่ฉันคิดว่าเป็น พวกเขาใช้การคาดการณ์เชิงสถิติบางประเภทเพื่อประเมินว่า MTBF จะเป็นเช่นไร คำถาม: เวลาเฉลี่ยระหว่างความล้มเหลว (MTFB) รับได้อย่างไรสำหรับ SSD / HDD

6
ฉันควร 'เรียกใช้' ดิสก์หนึ่งคู่ของ RAID 1 ใหม่เพื่อลดโอกาสของความล้มเหลวที่คล้ายกันหรือไม่
ฉันกำลังตั้งค่าอาร์เรย์ RAID1 ของฮาร์ดไดรฟ์ 4TB ใหม่สองตัว ฉันเคยได้ยินที่ไหนสักแห่งก่อนหน้านี้ว่าการสร้างอาร์เรย์ RAID1 ของฮาร์ดไดรฟ์ที่เหมือนกันใหม่ที่ซื้อในเวลาเดียวกันเพิ่มโอกาสที่พวกเขาจะล้มเหลวในเวลาเดียวกัน ฉันจึงพิจารณาใช้หนึ่งในฮาร์ดไดรฟ์เป็นระยะเวลาหนึ่ง (อาจจะสองสามสัปดาห์) ด้วยตัวเองเพื่อลดโอกาสที่ทั้งสองจะล้มเหลวภายในระยะเวลาอันสั้น (ไดรฟ์ที่ไม่ได้ใช้จะถูกตัดการเชื่อมต่อในลิ้นชัก) ดูเหมือนว่าวิธีการที่สมเหตุสมผลหรือฉันมีแนวโน้มที่จะเสียเวลามากขึ้นหรือไม่?

6
วิธีการกู้คืนจากความล้มเหลวของไดรฟ์ในการกำหนดค่า RAID 5
เช้านี้ไดรฟ์ล้มเหลวบนเซิร์ฟเวอร์ฐานข้อมูลของเรา ไดรฟ์อาร์เรย์ (3 ดิสก์) ได้รับการตั้งค่าในการกำหนดค่า RAID 5 ในขณะที่เรารอการเปลี่ยนไดรฟ์เรากำลังเตรียมกลยุทธ์การกู้คืน ผู้ใช้ยังคงทำงานบนระบบต่อไปแม้ว่าจะช้ามาก (ไม่รู้ทำไม) มีวิธีใดที่จะติดตั้งไดรฟ์ใหม่ - ข้อมูลสำหรับไดรฟ์นี้จะถูกสร้างใหม่โดยอัตโนมัติจากพาริตี้หรือมีกระบวนการอื่นที่เราควรปฏิบัติตามหรือไม่ แก้ไข: นี่คือคอนโทรลเลอร์ RAID ของฮาร์ดแวร์ (ขอบคุณสำหรับคำตอบจนถึงชื่นชม)

4
URE คืออะไร
ฉันได้ดู RAID5 Vs RAID6 เมื่อไม่นานมานี้และฉันก็เห็นว่า RAID5 นั้นไม่ปลอดภัยเพียงพออีกต่อไปเนื่องจากการจัดอันดับ URE และการเพิ่มขนาดของไดรฟ์ โดยทั่วไปเนื้อหาส่วนใหญ่ที่ฉันค้นพบบอกว่าใน RAID5 ในกรณีที่คุณมีความล้มเหลวของดิสก์ถ้าส่วนที่เหลือของคุณคือ 12TB คุณจะมีโอกาสเกือบ 100% ที่จะได้พบกับ URE และสูญเสียข้อมูลของคุณ รูปขนาด 12TB มาจากความจริงที่ว่าดิสก์มีการจัดอันดับที่ 10 ^ 14 บิตที่อ่านเพื่อเข้าถึงหนึ่ง URE มีบางอย่างที่ฉันไม่ได้มาที่นี่ การอ่านทำโดยหัวหน้าที่เกิดขึ้นในเซกเตอร์สิ่งที่สามารถทำให้การอ่านล้มเหลวคือทั้งหัวตายหรือเซกเตอร์ตาย มันอาจเป็นไปได้ว่าการอ่านไม่ทำงานด้วยเหตุผลอื่น (ฉันไม่รู้เหมือนการสั่นสะเทือนที่ทำให้หัวกระโดด ... ) ดังนั้นให้ฉันจัดการกับทั้ง 3 สถานการณ์: การอ่านไม่ทำงาน: นั่นไม่สามารถกู้คืนได้ใช่ไหม? สามารถลองได้อีกครั้ง หัวตาย: สิ่งนี้จะไม่สามารถกู้คืนได้อย่างแน่นอน แต่นั่นหมายความว่าแผ่นเสียงเต็มรูปแบบ (หรืออย่างน้อยด้านข้าง) จะอ่านไม่ได้มันน่ากลัวกว่านี้ไหม? เซกเตอร์เสียชีวิต: ไม่สามารถกู้คืนได้ทั้งหมด แต่ที่นี่ฉันไม่เข้าใจว่าทำไมดิสก์ 4TB ได้รับการจัดอันดับที่ 10 ^ …

2
UNC SMART เกิดข้อผิดพลาดร้ายแรงหรือไม่ จำเป็นต้องดำเนินการหรือไม่
ฉันมี 300G Western Digital Raptor เมื่อเร็ว ๆ นี้แสดง UNC SMART สงสัยว่าทุกคนที่มีประสบการณ์รู้ฉันควรแทนที่และได้รับแบบฟอร์มการรับประกัน WD? รายละเอียดของ smartctl -a ดังต่อไปนี้: smartctl 5.41 2011-06-09 r3365 [FreeBSD 8.2-RELEASE-p6 amd64] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF INFORMATION SECTION === Model Family: Western Digital VelociRaptor Device Model: WDC WD3000HLFS-01G6U0 Serial Number: WD-WXD0C79C8807 …

1
ฉันจะทราบได้อย่างไรว่าดิสก์ล้มเหลวใน ESXi / ข้อผิดพลาดเหล่านี้หมายถึงอะไร
ฉันมีเซิร์ฟเวอร์ที่ใช้งาน VMware ESXi v4.1.0 348481 แต่ก็มี RAID10 ฮาร์ดแวร์และไดรฟ์สำรอง SATA ฉันมี VM ที่ใช้ซึ่งมีบูตหลัก vmdk บนที่เก็บข้อมูล RAID10 และ 600 GB vmdk บนที่เก็บข้อมูลสำรองของไดรฟ์ SATA VM รัน Debian linux ด้วยเคอร์เนล FreeBSD และใช้ ZFS สำหรับไดรฟ์สำรอง แก้ไข:ไดรฟ์ไม่ได้เชื่อมต่อโดยตรงกับ VM มันถูกใช้เป็น VMware Datastore และ VM มี vmdk บนที่เก็บข้อมูลของไดรฟ์ SATA ที่เก็บข้อมูลไม่เต็ม (เต็ม 65% เท่านั้น) ฉันเข้าสู่เซิร์ฟเวอร์โดยใช้ SSH และพบว่าการสำรองข้อมูลเมื่อคืนที่ผ่านมาหยุดทำงานและzfs listหรือzpool listทั้งสองหยุดทำงาน …

4
ฮาร์ดไดรฟ์อ่านข้อผิดพลาดที่ ... หยุด?
เรื่องราวของฉันเริ่มต้นค่อนข้างง่าย ฉันมีเซิร์ฟเวอร์แบบเบาซึ่งใช้งาน Arch Linux ซึ่งเก็บข้อมูลส่วนใหญ่ไว้ใน RAID-1 ซึ่งประกอบด้วยไดรฟ์ SATA สองตัว มันทำงานได้โดยไม่มีปัญหาใด ๆ ประมาณ 4 เดือน ทันใดนั้นฉันก็เริ่มอ่านข้อผิดพลาดในหนึ่งในไดรฟ์ ข้อความดูเหมือนเป็นจำนวนมากเสมอ: Apr 18 00:20:15 hope kernel: [307085.582035] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Apr 18 00:20:15 hope kernel: [307085.582040] ata5.01: failed command: READ DMA EXT Apr 18 00:20:15 hope kernel: [307085.582048] …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.