สิ่งใดที่นับว่าเป็นอาเรย์ 5 ขนาดใหญ่?


11

ปัญหาล่าสุดของ Buffalo TeraStation NAS ที่นี่ในสำนักงานของฉันทำให้ฉันได้ตรวจค้น Raid 5

ฉันได้พบบทความที่แตกต่างกันเล็กน้อยพูดคุยเกี่ยวกับความไม่เหมาะสมของการใช้ RAID 5 ในอาร์เรย์ขนาดใหญ่หรือดิสก์ขนาดใหญ่

นี่คือตัวอย่างบทความหนึ่งที่พูดถึงปัญหาเกี่ยวกับการสร้างอาร์เรย์ใหม่ด้วยไดรฟ์ผู้บริโภคขนาดใหญ่

ฉันกำลังพยายามหาสิ่งที่นับว่า 'ใหญ่'?

NAS ที่เรามีที่นี่คือการตั้งค่า Raid 5 4 ไดรฟ์แต่ละไดรฟ์คือ 1 TB ไดรฟ์ล้มเหลวและถูกแทนที่อาเรย์กำลังสร้างใหม่

การตั้งค่านี้มีขนาดใหญ่หรือไม่ในแง่ของการที่จะมีปัญหาระหว่างการสร้างใหม่หรือไม่?

การตั้งค่านี้น่าเชื่อถือเพียงใดสำหรับการใช้งานแบบวันต่อวัน?


2
เมื่อโหลดระบบตามปกติของคุณคอนโทรลเลอร์จะใช้เวลานานเท่าใดในการสร้างใหม่ MTBF ของ HDD คืออะไร หนึ่งในนั้นที่คุณมีตัวเลขสองตัวนั้นคุณรู้ว่ามีโอกาสเกิดความล้มเหลวครั้งที่สองและเกิดภัยพิบัติขึ้นในระหว่างการสร้าง RAID ใหม่ โปรดจำไว้ว่า HDDs จะถูกตรึงเครียดมากที่สุดในระหว่างการสร้างใหม่ดังนั้นผลลัพธ์ข้างต้นจะประเมินความเป็นไปได้ที่จะเกิดความล้มเหลวสองเท่า
MadHatter

3
คุณรู้หรือไม่ว่า RAID ไม่ได้ทำการสำรองข้อมูลใช่ไหม
cjc

5
@cjc คุณเพิ่มไข่มุกแห่งปัญญาให้กับคำถาม RAID ทุกข้อใน SF หรือไม่หรือบางสิ่งเกี่ยวกับสิ่งนี้ทำให้คุณคิดว่า OP คิดว่า RAID เป็นข้อมูลสำรองหรือไม่
BlueCompute

ใช่ฉันรู้แล้ว มันสำรองไว้ทั้งหมดฉันเพิ่งต้องการให้ยุ่งยากในการกู้คืนทั้งหมดเพราะอาร์เรย์การโจมตีไม่ได้ซ่อมแซมตัวเองอย่างถูกต้อง
Rob

คำตอบ:


18

การออกแบบความน่าเชื่อถือของดิสก์อาร์เรย์:

  1. ค้นหาอัตรา URE ของไดรฟ์ของคุณ (ผู้ผลิตไม่ต้องการพูดคุยเกี่ยวกับความล้มเหลวของไดรฟ์ดังนั้นคุณอาจต้องขุดหาสิ่งนี้ควรเป็น 1/10 ^ X โดยที่ X อยู่ที่ประมาณ 12-18 โดยทั่วไป)
  2. ตัดสินใจว่าอัตราความเสี่ยงที่ยอมรับได้สำหรับความต้องการพื้นที่เก็บข้อมูลของคุณคืออะไร โดยทั่วไปแล้วนี่คือโอกาสเกิดความล้มเหลว <0.5% แต่อาจมีหลายเปอร์เซ็นต์ในที่เก็บข้อมูล "เกา" และอาจเป็น <0.1 สำหรับข้อมูลสำคัญ
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    สำหรับอาร์เรย์ที่มีดิสก์ที่มีพาริตี้มากกว่าหนึ่งดิสก์หรือมิรเรอร์ที่มีดิสก์มากกว่าหนึ่งคู่ในมิเรอร์ให้เปลี่ยน1ไดรฟ์ใน Array เป็นจำนวนดิสก์ที่มีพาริตี้ / มิเรอร์

ดังนั้นฉันจึงมีไดรฟ์ WD Green ขนาด 1TB สี่ตัวในอาเรย์ พวกเขามีอัตรา URE 1/10 ^ 14 และฉันใช้พวกมันเป็นที่เก็บรอยขีดข่วน 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%ความเสี่ยงของความล้มเหลวในการสร้างอาร์เรย์ใหม่หลังจากไดรฟ์หนึ่งตัวตาย สิ่งเหล่านี้ยอดเยี่ยมสำหรับการจัดเก็บขยะของฉัน แต่ฉันไม่ได้ใส่ข้อมูลสำคัญลงไป

†การพิจารณาความล้มเหลวที่ยอมรับได้เป็นกระบวนการที่ยาวและซับซ้อน Budget = Risk * Costมันอาจจะสรุปเป็น ดังนั้นหากความล้มเหลวมีค่าใช้จ่าย $ 100 และมีโอกาสเกิดขึ้น 10% คุณควรมีงบประมาณ $ 10 เพื่อป้องกัน สิ่งนี้ช่วยลดความยุ่งยากของงานในการกำหนดความเสี่ยงค่าใช้จ่ายของความล้มเหลวต่าง ๆ และลักษณะของเทคนิคการป้องกันที่อาจเกิดขึ้น - แต่คุณได้รับแนวคิด [Data Drives] = [Total Drives] - [Parity Drives]ดิสก์ดิสก์สองตัว (RAID1) และ RAID5 มีไดรฟ์แบบพาริตี 1 ตัว สามดิสก์มิรเรอร์ (RAID1) และ RAID6 มีไดรฟ์ 2 พาริตี้ เป็นไปได้ที่จะมีไดรฟ์แบบพาริตี้มากขึ้นด้วย RAID1 และ / หรือโครงร่างที่กำหนดเอง แต่ผิดปรกติ


สมการทางสถิตินี้มาพร้อมกับคำเตือน:

  • อัตรา URE นั้นเป็นอัตราที่โฆษณาและโดยทั่วไปจะดีกว่าในไดรฟ์ส่วนใหญ่ที่กลิ้งออกจากสายการประกอบ คุณอาจได้รับโชคดีและซื้อไดรฟ์ที่มีขนาดเท่ากันดีกว่าโฆษณา ในทำนองเดียวกันคุณสามารถได้รับแรงผลักดันที่เสียชีวิตจากการเสียชีวิตของทารก
  • สายการผลิตบางแห่งมีการรันที่ไม่ดี (ซึ่งดิสก์จำนวนมากในการรันล้มเหลวในเวลาเดียวกัน) ดังนั้นการรับดิสก์จากแบตช์การผลิตที่แตกต่างกันจะช่วยกระจายโอกาสของความล้มเหลวพร้อมกัน
  • ดิสก์ที่มีอายุมากกว่ามีแนวโน้มที่จะตายภายใต้ความเครียดของการสร้างใหม่
  • ปัจจัยด้านสิ่งแวดล้อมต้องเสียค่าใช้จ่าย:
    • ดิสก์ที่มีการใช้ความร้อนร่วมกันมักมีแนวโน้มที่จะตาย (เช่นเปิดปิดเครื่องเป็นประจำ)
    • การสั่นสะเทือนสามารถทำให้ทุกชนิดของปัญหา - ดูวิดีโอบน YouTube ของไอทีตะโกนที่อาร์เรย์ดิสก์
  • "การโกหกมีสามแบบ: การโกหกการพูดปดและสถิติ" - Benjamin Disraeli

ไดรฟ์ที่ฉันถ่าย / ออก / ของอุปกรณ์นั้นเป็นไดรฟ์ Samsung HD103SI 1TB ฉันเชื่อว่าอีกสามไดรฟ์ที่เหลือเหมือนกัน ไดรฟ์ที่เปลี่ยนมานั้นมาจากผู้ผลิตรายอื่นฉันไม่มีรายละเอียดมาให้
Rob

ดูเหมือนว่าอัตราสำหรับไดรฟ์นี้คือ1/10
Rob

1
ฉันแค่แก้ไขสมการตัวอย่างก็ถูกต้องตอนนี้พวกเขาทั้งคู่ อาร์เรย์ของคุณจะเป็น1-(1-1099511627776*0.000000000000001)^3=> 0.00329 คุณมีวงเล็บอยู่ด้านนอกของ^3ตำแหน่งที่ควรอยู่ด้านใน และควรมีอีกหนึ่งศูนย์ในสิ่ง 1/10 ^ 15
Chris S

2
ไดรฟ์ 1TB จะเป็น 1000000000000 ไบต์ดังนั้นจึงสามารถใช้งานได้น้อยกว่า 3% | 0.3% ขึ้นอยู่กับอัตรา URE ของคุณ
user9517

1
@IanRingrose นี้ถูกต้องทางสถิติ ฉันแจ้งข้อกังวลเฉพาะของคุณไปแล้ว คุณมีสิ่งใดบ้างที่เกี่ยวข้องกับการเพิ่มนอกเหนือจากสิ่งที่ระบุไว้แล้ว
Chris S

9

เหตุผลที่บทความนี้มีอยู่เพื่อดึงดูดความสนใจไปยัง Bit Error Rate บน HDDs โดยเฉพาะดิสก์ 'พีซีที่บ้านราคาถูก' ของคุณ พวกเขามักจะมีข้อมูลจำเพาะของโรงงาน 1/10 ^ 14 นี่เป็นข้อมูลประมาณ 12.5TB ซึ่งถ้าคุณทำ RAID-5 ที่มีดิสก์ 2TB ... คุณจะได้รับผลกระทบอย่างรวดเร็ว

ซึ่งหมายความว่าคุณควร:

  • ใช้กลุ่ม RAID ที่มีขนาดเล็กลงและยอมรับพื้นที่ที่สิ้นเปลืองมากขึ้น
  • ใช้ RAID-6 และยอมรับการลงโทษการเขียนเพิ่มเติม (สูงกว่า RAID5 50%)
  • ซื้อดิสก์ราคาแพงกว่า - 'เกรดเซิร์ฟเวอร์' มีข้อมูลจำเพาะ UBER เป็น 1/10 ^ 16 ซึ่งหมายความว่านี่เป็นจุดที่สงสัย (1.2PB ดีกว่า 12.5TB)

ฉันมักจะแนะนำว่า RAID-6 เป็นวิธีการส่งต่อโดยทั่วไป แต่มันจะคุ้มค่ากับประสิทธิภาพ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.