ฉันควร 'เรียกใช้' ดิสก์หนึ่งคู่ของ RAID 1 ใหม่เพื่อลดโอกาสของความล้มเหลวที่คล้ายกันหรือไม่


19

ฉันกำลังตั้งค่าอาร์เรย์ RAID1 ของฮาร์ดไดรฟ์ 4TB ใหม่สองตัว

ฉันเคยได้ยินที่ไหนสักแห่งก่อนหน้านี้ว่าการสร้างอาร์เรย์ RAID1 ของฮาร์ดไดรฟ์ที่เหมือนกันใหม่ที่ซื้อในเวลาเดียวกันเพิ่มโอกาสที่พวกเขาจะล้มเหลวในเวลาเดียวกัน

ฉันจึงพิจารณาใช้หนึ่งในฮาร์ดไดรฟ์เป็นระยะเวลาหนึ่ง (อาจจะสองสามสัปดาห์) ด้วยตัวเองเพื่อลดโอกาสที่ทั้งสองจะล้มเหลวภายในระยะเวลาอันสั้น (ไดรฟ์ที่ไม่ได้ใช้จะถูกตัดการเชื่อมต่อในลิ้นชัก)

ดูเหมือนว่าวิธีการที่สมเหตุสมผลหรือฉันมีแนวโน้มที่จะเสียเวลามากขึ้นหรือไม่?


2
มันเป็นคำกล่าวอ้างที่ได้ยินบ่อยครั้ง แต่ฉันยังไม่เห็นเอกสารใด ๆ ที่สนับสนุน ความเสี่ยงที่แท้จริงยิ่งกว่านั้นคือดิสก์ตัวใดตัวหนึ่งของคุณอาจพัฒนาเซกเตอร์เสียบางส่วนซึ่งไม่มีใครสังเกตเห็นได้สักพัก แต่เมื่อดิสก์อื่นล้มเหลวคุณจะสังเกตเห็นว่าเซกเตอร์เสียระหว่างการสร้างใหม่
kasperd

8
หากคุณทำงานกับไดรฟ์หลายสิบตัวมันอาจคุ้มค่าที่จะพิจารณาการจัดหาจากแบตช์สองสามชุด สำหรับชุดไดรฟ์สองชุดมันไม่คุ้มกับความยุ่งยากในการทำเช่นนี้ อัตราความล้มเหลวนั้นไม่ใกล้เคียงกันหรือคาดเดาได้ ... หนึ่งสามารถทำได้ 3 เดือนที่ผ่านมาอีก 5 ปี
jlehtinen

โดยส่วนตัวฉันจะไม่โจมตีด้วยไดรฟ์เพียงสองตัว การใช้ไดรฟ์เพิ่มเติมให้ความจุที่ดีขึ้น ตัวอย่างเช่นไดรฟ์ 3 ตัวจะให้พื้นที่เก็บข้อมูลทั้งหมด 8 TB ซึ่งไม่เหมือนกับไดรฟ์ 2 ตัวซึ่งให้เพียง 4 TB ไดรฟ์ตัวใดตัวหนึ่งอาจล้มเหลวในชุดที่สามและถ้าพวกเขามาจากสามแหล่งโอกาสของความล้มเหลวในเวลาเดียวกันก็จะต่ำ
phyrfox

3
@phyrfox - RAID-5 (และ -6) มีคุณสมบัติด้านประสิทธิภาพที่แตกต่างจาก RAID-1 ที่อาจเข้ากันไม่ได้กับแอปพลิเคชันของเขา ด้วยไดรฟ์ขนาดใหญ่ (โดยเฉพาะไดรฟ์ที่มีคุณภาพสำหรับผู้บริโภค) ถ้าฉันจะใช้ระดับ RAID ที่สูงขึ้นฉันจะไปกับ RAID-6 เพื่อป้องกันความล้มเหลวของดิสก์ที่สองในขณะที่สร้างอาร์เรย์ขึ้นใหม่หลังจากดิสก์เกิดความล้มเหลว ฉันใช้อาร์เรย์ดิสก์ RAID-6 จำนวน 5 แผ่นเป็นเวลา 2 ปีโดยใช้ชุดไดรฟ์ที่ซื้อมาในเวลาเดียวกัน - ดิสก์หนึ่งแผ่นล้มเหลวในหนึ่งเดือนส่วนที่เหลือทั้งหมดไม่ได้แสดงปัญหาใด ๆ
Johnny

1
@phyrfox RAID5 จะลดค่าใช้จ่ายต่อเมกะไบต์ แต่จริงๆแล้วจะเพิ่มโอกาสที่จะประสบความล้มเหลวเนื่องจากมีไดรฟ์จำนวนมากที่จะล้มเหลว
Caltor

คำตอบ:


16

มันเสียเวลา

คุณจะไม่สามารถเหนี่ยวนำให้เกิดความล้มเหลวหรือความเครียดไดรฟ์ในลักษณะที่มีความหมาย คุณมี RAID และนั่นเป็นการเริ่มต้นที่ดี เพียงให้แน่ใจว่าคุณมีการตรวจสอบเพื่อตรวจสอบความล้มเหลวที่เกิดขึ้นจริงและการสำรองข้อมูลเพื่อป้องกันภัยพิบัติ


2
เห็นด้วยกับ HDS ทั่วไป แต่สำหรับ ssds เป็นเรื่องที่แตกต่างกันมาก คิดว่านี่เป็นสิ่งที่น่าสังเกตก่อนหน้านี้ก่อนที่จะมีราคาถูกและพร้อมใช้งานและผู้อ่านไม่ทราบว่าเรากำลังพูดถึงการเกิดสนิมที่นี่ แต่บางทีพวกเขาจะจัดการเขียนเพิ่มขึ้น
symcbean

3
ใช่ - แน่นอนไดรฟ์ 'องค์กร' ใด ๆ จะได้รับการทดสอบแล้วว่าผ่านพ้นความล้มเหลวของชีวิตเด็กในโค้งของอ่างอาบน้ำต่อไป แม้ว่าฉันจะรู้ว่าถ้าคุณซื้อเครื่องกำเนิดไฟฟ้าคู่คำแนะนำคือการเปลี่ยน 66% ถึง 33% เพราะวิธีการที่พวกเขาทั้งสองไม่ได้เสื่อมสภาพไปพร้อมกัน แม้ว่าจะมีไดรฟ์ แต่ MTBF นั้นมีค่าเบี่ยงเบนมาตรฐานค่อนข้างมากดังนั้นจึงเป็นเรื่องที่น่ากังวลน้อยกว่ามาก
Sobrique

5

อาจเป็นการดีกว่าถ้าใช้ยี่ห้อหรือชุดของดิสก์ที่ต่างกันถ้าคุณกังวลเกี่ยวกับเรื่องนี้

ฉันเคยเห็นดิสก์ประเภทและอายุที่คล้ายกันล้มเหลวในคลัสเตอร์ดังนั้น IMHO จึงไม่ใช่การให้ยืมในเมือง


1
ฉันยังมี แต่มันก็ลงเอยที่เฟิร์มแวร์หลบซึ่งเป็นอะไรที่เกี่ยวข้องกับ MTBF
Sobrique

2

คำถามที่ดี - อย่างไรก็ตามไม่เหมือนกับไฟหน้ารถยนต์นี่คือการเสียเวลา คะแนน MTBF [เวลาเฉลี่ยระหว่างความล้มเหลว] สำหรับไดรฟ์ 4 GB [WD Red ในตัวอย่างนี้] คือ 1,000,000 ชั่วโมง อัตราต่อรองของไดรฟ์สองตัวที่ไม่ดีในกระจกในเวลาเดียวกันนั้นหายากมาก เมื่อฉันได้เห็นสิ่งนี้เกิดขึ้นมันเป็นเพราะไดรฟ์แรกล้มเหลวโดยไม่มีใครสังเกตเห็น มีประโยชน์มากกว่าในการปกป้องด้วยการสำรองข้อมูลแทนที่จะรบกวนการเบิร์นอินหนึ่งไดรฟ์ก่อน หากคุณผสมประเภทไดรฟ์ตรวจสอบให้แน่ใจว่าไดรฟ์นั้นมีความเร็วเท่ากัน หากคุณหวาดระแวงระบบ RAID 10 นั้นเหมาะสำหรับคุณ


MTBF ถือว่าดิสก์นั้นมีความเป็นอิสระซึ่งไม่ได้อยู่ในชุด RAID เดียวกัน มีสาเหตุอื่นที่ทำให้เสียเวลา แต่ตัวเลขไร้สาระที่ออกโดยผู้ผลิตซึ่งมีความสัมพันธ์ที่อ่อนแอกับความเป็นจริงไม่ใช่หนึ่งในนั้น
HopelessN00b

5
หาก HDD มีเวลาเฉลี่ยตามที่ระบุจริง ๆระหว่างความล้มเหลวเหตุใดระยะเวลาการรับประกันจึงสั้นมาก 1M ชั่วโมง 114 ปีหรือให้ WD Red Pro (เพราะฉันเลือกหนึ่งจากล็อต) ดูเหมือนว่าจะมีการรับประกันห้าปี แม้ว่าคุณจะใช้เวลาครึ่งหนึ่งในการล้มเหลว แต่ Western Digital ยังไม่เชื่อว่าเชื่อถือได้นานกว่าหนึ่งในสิบของระยะเวลา MTBF ที่ระบุ ตอนนี้คุณอยากจะเชื่ออะไรมากกว่านี้ สถิติสุ่มไม่มีข้อผูกมัดหรือว่าเงินอยู่ที่ไหน? (การรับประกันคืน, คืนเงิน, refurbs และการทดแทนมีค่าเงินจริง)
CVn

1
@ MichaelKjörling: หากพวกเขารับประกัน MTBF พวกเขาจะแทนที่มากกว่า 50% (ใช่หางยาวเกินกว่าการกระจาย) ของไดรฟ์ภายใต้การรับประกัน แน่นอนว่าคุณควรดูว่าเงินอยู่ที่ใด แต่ฉันไม่เห็นเหตุผลที่จะเชื่อว่า MTBF ไม่ใช่คำสั่งที่มีขนาดยาวกว่าการรับประกันและอีกหลายคนเชื่อว่าเป็น
Ben Voigt

@ MichaelKjörlingฉันเห็นฮาร์ดแวร์ที่มี MTBF ที่เผยแพร่เป็นเวลา 100k ชั่วโมงซึ่งจะเสื่อมสภาพอย่างต่อเนื่องหลังจากใช้งานไป 1k ชั่วโมง รุ่นต่อไปของฮาร์ดแวร์มีการเผยแพร่ MTBF 200k ชั่วโมง เมื่อฮาร์ดแวร์ชุดใหม่ชุดแรกทำงานเป็นเวลา 48 ชั่วโมงมากกว่า 50% ของฮาร์ดแวร์ทั้งหมดล้มเหลว
kasperd

1

ในขณะที่มันสมเหตุสมผลในทางทฤษฎีข้อมูลไม่สนับสนุนความต้องการwork inไดรฟ์ของคุณ
ไม่กี่สัปดาห์เท่านั้นที่จะไม่ส่งผลกระทบ แต่อย่างใดเปอร์เซ็นต์ความล้มเหลวไม่ได้ผลจริง ๆ เมื่อดูที่ไดรฟ์สองตัวเท่านั้น

ในขณะที่มีการบ่งชี้ถึงอัตราความล้มเหลวปกติมากขึ้นเมื่อมันมาถึงไดรฟ์ของรุ่นเดียวกัน

ผลลัพธ์ที่เกี่ยวข้องกับอายุส่วนใหญ่ได้รับผลกระทบจากการขับขี่ของไดรฟ์ ... ที่น่าสนใจนี่ไม่ได้เปลี่ยนแปลงข้อสรุปของเรา ตรงกันข้ามกับผลลัพธ์ที่เกี่ยวข้องกับอายุเราทราบว่าผลลัพธ์ทั้งหมดที่แสดงในส่วนที่เหลือของกระดาษไม่ได้รับผลกระทบอย่างมีนัยสำคัญจากการผสมผสานของประชากร (เน้นที่เหมือง)

ด้วยเหตุนี้ความล้มเหลวที่เกี่ยวข้องกับอายุซึ่งเป็นเพียงส่วนเล็ก ๆ ของความล้มเหลวจึงมีความสัมพันธ์กันบ้างในการขับเคลื่อน vintages แต่ความล้มเหลวส่วนใหญ่ไม่สามารถทำได้
หากคุณเพิ่มเปอร์เซ็นต์ความล้มเหลวโดยรวมซึ่งอาจสูงสุดที่ 8% สำหรับปีหนึ่งโอกาสของทั้งสองไดรฟ์ที่ล้มเหลวในปีเดียวกันนั้นน้อยมากความล้มเหลวในสัปดาห์เดียวกันนั้นเล็กน้อย
และนี่คือถ้าคุณดูทุกสาเหตุที่เป็นไปได้ของความล้มเหลวไม่เพียง แต่อายุที่เกี่ยวข้องกับความล้มเหลว

หากคุณต้องการลดความเสี่ยงให้น้อยที่สุด แต่ไดรฟ์สองแบบของวินเทจที่แตกต่างกัน
หากคุณต้องการการรับรองซื้อประกัน
และตามคำตอบของ ewwhiteระบุไว้แล้วการสำรองข้อมูลและการตรวจสอบเป็นสิ่งที่จำเป็น


0

นี่เป็นข้อโต้แย้งสำหรับ SSD มากกว่า HDD ในประสบการณ์ของฉัน SSD มีรอบการเขียนที่ จำกัด ดังนั้นหากคุณใช้ RAID1 ที่มี SSD สองตัวในรุ่นเดียวกันทั้งคู่ควรหมดรอบการเขียนใกล้เคียงกัน

สำหรับความล้มเหลวทั่วไปเว้นแต่ว่าคุณมีปัญหาร้ายแรงเช่นการสั่นสะเทือนจำนวนมากคงที่หรือความร้อนสูง ฉันไม่คิดว่าคุณจะเห็น 2 จาก 2 ไดรฟ์ล้มเหลวในเวลาเดียวกัน

ข้อกังวลหลักของ RAID1 (และ RAID10) ที่มีไดรฟ์ขนาดใหญ่เช่น 4TB คือการสร้างใหม่ ด้วยกระจกไดรฟ์ 2 ตัวเมื่อไดรฟ์ตัวหนึ่งล้มเหลวไดรฟ์อีกตัวจะรับภาระงานสองเท่า จากนั้นเมื่อคุณสร้างใหม่ไดรฟ์นั้นก็จะได้รับภาระมากขึ้น หากมีสิ่งผิดปกติเกิดขึ้นกับไดรฟ์นั้นก็มีแนวโน้มที่จะล้มเหลวในเงื่อนไขเหล่านั้นโดยเฉพาะการพิจารณาการสร้างมิเรอร์ 4TB ภายใต้การโหลดอาจใช้เวลานาน


0

คุณสามารถทำได้ แต่มันจะไม่ช่วยมากเกินไป

ตัวอย่างเช่นหากมีเข็มอยู่ในกำลังไฟฟ้าเข็มเดียวกันจะฆ่าดิสก์ทั้งสอง

สิ่งสำคัญ: คุณต้องมีการสำรองข้อมูลที่ดี การโจมตีไม่ได้ทำขึ้นเพื่อการสำรองข้อมูลที่ดี ที่จริงแล้วถ้าคุณมีการสำรองข้อมูลที่ดีอาจจะไม่จำเป็นต้องทำการโจมตีแบบมิเรอร์ (ถ้าคุณสามารถทนต่อการล่มสลายของระบบได้ประมาณ 2-3 ปี)


3
RAID นั้นเกี่ยวกับความพร้อมใช้งานไม่ใช่เกี่ยวกับการสำรองข้อมูล ประเด็นคือเพื่อให้ระบบพร้อมใช้งานหากไดรฟ์ล้มเหลวไม่ใช่เพื่อปกป้องข้อมูลในไดรฟ์
HopelessN00b

@ HopelessN00b นี่คือสิ่งที่ฉันพยายามอธิบายในคำตอบบางทีฉันอาจจะไม่ชัดเจนเพียงพอหรือไม่
peterh กล่าวว่าคืนสถานะโมนิก้า

ประโยคของคุณในตอนท้ายจะมีน้ำโคลน
HopelessN00b

@ HopelessN00b Raid ยังช่วยป้องกันการสูญหายของข้อมูลที่เกิดจากความล้มเหลวของดิสก์ สิ่งนี้นำไปสู่ข้อสรุปที่ผิด ๆ ซึ่งสามารถใช้เป็นข้อมูลสำรองได้ แต่การใช้การโจมตีและการสำรองข้อมูลสิ่งเหล่านี้ขึ้นอยู่กับสถานการณ์ มีบางกรณีที่แม้แต่สภาพแวดล้อมระบบการดูแลมืออาชีพไม่ต้องการทั้งสองอย่าง ในความคิดของฉันเป้าหมายไม่ได้บังคับทั้งระบบมือใหม่ แต่เพื่อทำให้เขาชัดเจนว่าการทำมิเรอร์ดิสก์และการสำรองข้อมูลเป็นวิธีแก้ไขปัญหาที่แตกต่างกัน
peterh กล่าวว่าคืนสถานะโมนิก้า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.