กำลังมองหาประสบการณ์จริงของไดรฟ์ RAID 5 2 หรือไม่ [ปิด]


15

ฉันสงสัยว่าใครมีประสบการณ์ส่วนตัวของความล้มเหลวของไดรฟ์ RAID 5 2 กับไดรฟ์ขนาดใหญ่

ตามที่ฉันเข้าใจแล้วทฤษฎีก็คือว่าไดรฟ์ 1-2TB ขนาดใหญ่หากไดรฟ์ตัวหนึ่งล้มเหลวในชุดการจู่โจมมันต้องสร้างทุกอย่างใหม่ดังนั้นจึงตีไดรฟ์อื่นทั้งหมดยากมาก โดยเฉพาะอย่างยิ่งถ้าไดรฟ์มาจากชุดการผลิตเดียวกัน และถ้าคุณสูญเสียไดรฟ์อื่นคุณจะสูญเสียข้อมูลทั้งหมด

โดยปกติจะอธิบายได้หลังจากคำสั่ง "RAID ไม่ใช่การสำรองข้อมูล" ที่ฉันเห็นด้วย

ทฤษฎีเรื่องนี้สมเหตุสมผลและฉันเข้าใจ แต่มันเกิดขึ้นจริงหรือ


น่าเศร้าที่เราเพิ่งได้รับคำถามใหม่พร้อมประสบการณ์การใช้ชีวิตแบบนี้ :( superuser.com/questions/516844/...
Hennes

คำตอบ:


15

ใช่ฉันเกิดขึ้นกับฉันแล้ว ชุดไดร์ฟ WD 500 (ระดับผู้บริโภค) 4 ชุดนั้นแย่ในช่วงเวลาประมาณหนึ่งสัปดาห์ ฉันช้าที่จะแทนที่แรกและไม่ได้ใช้อาร์เรย์แบบออฟไลน์และสูญเสียข้อมูลทั้งหมดของฉันเมื่อที่สองล้มเหลว ฉันใช้ดี ๆ ที่เหลืออีกสองครั้งและหนึ่งในนั้นล้มเหลวภายในเดือนถัดไป พวกเขาทั้งหมดถูกระบายความร้อนอย่างเหมาะสมและได้รับการดูแล ฉันสามารถพูดได้ว่าตอนนี้ฉันเชื่อว่าสำนวน "ชุดที่ไม่ดี"

ในเหตุการณ์ที่แยกต่างหากฉันมีไดรฟ์ที่แตกต่างกัน 3 รุ่นและรุ่นต่าง ๆ ล้มเหลวภายในหนึ่งเดือนของกันและกันแม้ว่าฉันจะค่อนข้างแน่ใจว่าเหตุผลที่พวกเขาล้มเหลวก็เพราะการระบายอากาศที่ไม่เหมาะสม อย่าปรุงไดรฟ์ของคุณ!


3
ในฐานะที่เป็นข้อพิสูจน์ให้มีอะไหล่สำรองนั่งอยู่รอบ ๆ เมื่อไดรฟ์ไม่ดี นอกจากนี้ระวังการทุจริตอย่างเงียบ ๆ ... มันง่ายที่จะสูญเสียข้อมูลในไดรฟ์ที่แกล้งทำเป็นงานเท่านั้น
Paul McMillan

นี่คืออีกเหตุผลหนึ่งที่คุณไม่ควรติดตั้งไดรฟ์ที่มาจากชุดเดียวกันในอาเรย์ RAID - พวกเขามีเวลาที่ล้มเหลวที่มีความสัมพันธ์
Andrew Mao

4

สิ่งนี้เกิดขึ้นกับฉันแม้ว่ามันจะไม่ได้เป็นวิธีที่พบได้บ่อยที่สุดในการขับขี่ ฉันมีไดรฟ์ SATA ภายนอกขนาด 500GB 4 ตัวในการโจมตี 5 พวกเขาเชื่อมต่อกับเซิร์ฟเวอร์ที่ติดตั้งแร็ค IBM เก่าราคาถูก การตั้งค่าทั้งหมดถูกซ่อนอยู่ใต้บันไดและวันหนึ่งไม่ว่าจะเป็นหนูหรือกระต่าย แต่มีบางสิ่งที่เคี้ยวผ่านสายไฟและมีไดรฟ์ 2 ตัว ไดรฟ์ทั้งหมดอยู่ในกรอบภายนอกราคาถูกดังนั้นฉันคิดว่าฉันไม่ควรแปลกใจ


3

คุณกำลังถามว่าคุณจะสูญเสีย 2 ไดรฟ์กลับไปข้างหลังหรือไม่? แน่นอนว่าทุกสิ่งสามารถเกิดขึ้นได้ การโจมตี 5 ช่วยให้มีความพร้อมใช้งานและการเพิ่มประสิทธิภาพที่ยอดเยี่ยมสำหรับการเข้าถึงข้อมูล แต่การโจมตี 5 ไม่ได้สำรองข้อมูลอะไรเลย เพียงแค่ช่วยป้องกันการใช้ข้อมูลของคุณเนื่องจากการสูญเสียฮาร์ดแวร์ของไดรฟ์เดียว ไม่ใช่สำเนาข้อมูลของคุณ คุณไม่สามารถกู้คืนสำเนาเก่าการแก้ไขแบบเก่าหรือเพียงแค่สำเนางานปัจจุบันของคุณ ยังไม่ได้ป้องกันความเสียหายของข้อมูล มีหลายสิ่งที่อาจผิดพลาดได้มากกว่าเพียงแค่สูญเสียไดรฟ์ ไวรัสอาจทำให้ข้อมูลทั้งหมดของคุณเสียหายน้องสาวคนเล็กชอบดูถังขยะบนเดสก์ท็อปของคุณเต็มและว่างเปล่าเมื่อเธอโยนไฟล์ลงไปเพื่อนโง่ ๆ ก็หยดโซดาบนเครื่อง

นอกจากนี้โปรดจำไว้ว่าคุณสามารถสูญเสียการควบคุมการโจมตีฮาร์ดไดรฟ์ และคุณไม่สามารถย้ายอาเรย์ไปยังตัวควบคุมแบบสุ่มอื่นได้ ปกติคุณจะต้องใช้แบบเดียวกันแน่นอนและยังคงมีสิ่งที่ผิดพลาด คอนโทรลเลอร์การจู่โจมบางตัวจะเก็บข้อมูลไว้บนบอร์ดและส่งข้อมูลการกำหนดค่าไปยังอาร์เรย์ที่แนบมา มันเป็นเดิมพันเมื่อสถานการณ์นี้เกิดขึ้น

คำถามเดียวกันที่ SF: https://serverfault.com/questions/2888/why-is-raid-not-a-backup

ต้องการเหตุผลเพิ่มเติมหรือไม่

แก้ไข: ความคิดของคุณถูกต้องและสามารถเกิดขึ้นได้กับทุกคน ฉันเป็นคนไม่ได้เห็นมากกว่าหนึ่งไดรฟ์ล้มเหลว แต่ฉันได้เห็นบางคนตายใกล้กันจริงๆ ไม่มีใครอยู่ในหน้าต่างของการสร้างใหม่ แต่มีความเสี่ยงทางเทคนิค แต่คุณมีข้อมูลสำรองในกรณีที่มีบางอย่างเกิดขึ้นใช่ไหม ฮ่าฮ่า บางคนเรียนรู้วิธีที่ยากในบางครั้งนี้ Raid 6 ยกระดับไปอีกระดับด้วยพาริตี้คู่และสามารถสูญเสียไดรฟ์สูงสุด 2 ตัว ด้วยการตั้งค่าการจู่โจมความสามารถในการล้มเหลวจะเพิ่มขึ้นตามขนาด (จำนวนไดรฟ์) และความซับซ้อนของอาเรย์ ไดรฟ์เพิ่มเติม = จุดเพิ่มเติมของความล้มเหลวที่เป็นไปได้


ขอโทษฉันเข้าใจทุกอย่างแค่ถามว่ามันเกิดขึ้นกับใครและสถานการณ์เป็นอย่างไร
Brian

3

คุณถูกต้องในสถานการณ์จำลอง RAID-5 หากคุณทำดิสก์หายหนึ่งแผ่นจากนั้นสร้างใหม่ระบบจะต้องอ่านทุกเซกเตอร์ของไดรฟ์ที่ยังมีชีวิตอยู่ทั้งหมดในชุด RAID NetApp อ้างว่าสำหรับบางสถานการณ์ (พวกเขาสามารถทำชุด RAID ได้มากถึง 28 ไดรฟ์ในบางประเภท) โอกาสที่คุณจะล้มเหลวในการโจมตีครั้งที่สองอาจสูงถึงหนึ่งในสิบ ดังนั้นพวกเขาจึงทำ "Dual-Parity" ซึ่งฉันเชื่อว่าเกี่ยวข้องกับ RAID-6

เห็นได้ชัดว่ายิ่งคุณมีไดรฟ์ในชุด RAID มากเท่าไหร่ก็ยิ่งมีโอกาสมากขึ้นที่จะประสบปัญหา สำหรับชุด RAID ขนาดเล็ก (3-5 ดิสก์) อัตราต่อรองอาจไม่ได้เปลี่ยนไปไกลเกินไปเมื่อใช้ RAID-5

แต่ฉันจะทำ Raid-DP บน NetApps เสมอ


+1 ฉันไม่เคยคิดเกี่ยวกับ "ต้องอ่านทุกภาคส่วนของไดรฟ์ที่รอดตาย" ให้สำเร็จ
AaronLS

2

ไม่ ส่วนบุคคล ประสบการณ์ แต่ฉันได้ฟังเสียงกรีดร้องของผู้ที่เคยเกิดขึ้นกับพวกเขา ระบบจัดเก็บข้อมูลใด ๆ ไม่ว่าจะเป็นไดรฟ์เดียว, คีย์ USB, เทป, การติดตั้ง RAID ขนาดใหญ่หรือ Amazon S3 - ในที่สุดก็จะล้มเหลวในสิ่งที่ไม่สะดวกสำหรับคุณ ความล้มเหลวครั้งที่สองในขณะที่สร้างชุด RAID 5 ขึ้นใหม่เป็นเพียงหนึ่งในวิธีที่อาจเกิดขึ้นได้

นอกเหนือจากการสนับสนุน RAID แบบสามพาริตี้แล้ว รวมเข้ากับ OpenSolaris สองสามวันที่ผ่านมา - ผู้ขายอย่างน้อยหนึ่งรายคิดว่าการอนุญาตให้เกิดความล้มเหลวเพิ่มเติมสองครั้งในระหว่างการสร้างแพริตี RAID ใหม่นั้นคุ้มค่ากับความพยายามด้านวิศวกรรม


1

สิ่งนี้จะเกิดขึ้นจริงแน่นอน นี่คือเหตุผลที่โซลูชั่นสตอเรจ NetApp มีการใช้งาน RAID 6 นี่เป็นเพียงในกรณีที่คุณสูญเสียไดรฟ์ที่สองในระหว่างการสร้างใหม่

คุณสามารถคำนวณความน่าจะเป็นของความล้มเหลวโดยใช้สูตรมาตรฐานที่แสดงในหน้าต่อไปนี้ ข้อความลิงก์ เมื่อคุณปรับขนาดไดรฟ์ข้อมูลให้ใหญ่ขึ้นเรื่อย ๆ โอกาสที่จะเกิดความล้มเหลวก็จะสูงขึ้นเช่นกัน หากคุณมีดิสก์เพียงพอคุณสามารถส่งตัวเลขนี้ไปยังโซนกังวลหากคุณใช้ RAID 5 ที่มีปริมาณข้อมูลจำนวนมาก

ฉันสามารถบอกคุณได้จากประสบการณ์ส่วนตัวที่แน่นอนว่าคุณสามารถมีความล้มเหลวของไดรฟ์สองตัวในอาเรย์เดียวกันภายในกรอบเวลาวิกฤติเดียวกัน Raid 6 ช่วยฉันไม่ให้กู้คืนจากการสำรองข้อมูล

หวังว่านี่จะช่วยได้


1

นี่คือสถานการณ์: ไดรฟ์ล้มเหลวในอาร์เรย์ RAID5 ของคุณ แต่อะไหล่ของคุณมีอยู่แล้วไม่ว่าจะนั่งหรือไม่ก็สั่งซื้อฮาร์ดไดรฟ์ใหม่ในที่สุด คุณ (หรืออาจเป็น minion ระยะไกล) ไปกับไดรฟ์ใหม่ในมือเพื่อแทนที่ข้อบกพร่อง เนื่องจากการติดฉลากที่ไม่ดีความเหนื่อยล้าหรือความโง่เขลาธรรมดาหนึ่งในไดรฟ์ที่ดีที่เหลืออยู่จะถูกขับออกมาแทนที่จะเป็นความผิดพลาด ... และมีความล้มเหลวครั้งที่สองของคุณ


1

ฉันเคยเห็นมาแล้วหลายครั้งเพราะฉันอยู่ในธุรกิจกู้ข้อมูล และใช่พวกเขามักจะล้มเหลวในเวลาเดียวกัน แต่ฉันไม่เชื่อว่าสิ่งนี้เกี่ยวข้องกับเวลาที่พวกเขาถูกสร้างขึ้นตามที่ฉันเห็นด้วย บ่อยครั้งที่ความล้มเหลวประเภทนี้เกิดขึ้นไม่นานหลังจากเกิดพายุฝนฟ้าคะนองคลื่นไฟฟ้าขัดข้องหรือไฟฟ้าดับ

โดยทั่วไปแล้วไฟกระชากจะสร้างความเสียหายให้กับไดรฟ์หรือตัวควบคุม RAID และภายในไม่กี่วันพวกเขาก็จะเริ่มทำงานล้มเหลว ฉันกำลังทำงานจริง ๆ ตอนนี้ในการกู้คืนอาร์เรย์ที่มีสองไดรฟ์ล้มเหลวพร้อมกันหลังจากไฟฟ้าดับ (ดูสิ้นหวังในตอนนี้)

เคล็ดลับเล็กน้อย: อุปกรณ์ป้องกันไฟกระชากไม่ได้ปกป้องอุปกรณ์ของคุณจริงๆ เชื่อมต่อการโจมตี 5 ของคุณกับ UPS ที่ดีเสมอ ฉันไม่เคยเห็นสิ่งนี้เกิดขึ้นเมื่ออาร์เรย์อยู่บน UPS


1

การดึงไดรฟ์ที่ดีตัวที่สองออกจากชุดพาริตีเดียวโดยไม่ตั้งใจไม่ควรทำลายอาเรย์ด้วยการใช้ RAID ที่ดี ฉันรู้ว่า ZFS RAID-Z จะหยุด I / O ใด ๆ บนอาเรย์จนกว่าคุณจะออนไลน์อีกครั้ง


0

อีกสถานการณ์หนึ่ง: สมุนระยะไกลได้รับคำสั่งให้ดึงเทปสำรองออกจากเทปไดรฟ์ เธอไปที่ชั้นวางและไม่ดึงเทปออกมาจากเทปไดรฟ์ ... แต่ HDD (2) สองตัวออกจากไดรฟ์เบย์ในเวลาเดียวกันและ voila: 2 ไดรฟ์ล้มเหลว

คุณคิดว่าสิ่งนี้ถูกเรียกมาไกลขนาดไหน? ตอนนี้ฉันอยู่ที่ลูกค้าที่ทำอย่างนั้นและกำลังดูเซิร์ฟเวอร์ที่สร้างใหม่

สิ่งที่ดีเธอไม่ได้เผาเทปที่อยู่ในเทปไดร์ฟหรืออะไรก็ตาม ;-)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.