เป็นการดีกว่าหรือไม่ที่จะซื้อดิสก์ RAID เป็นรายบุคคลเปรียบเทียบกับแบบกลุ่ม


96

นี่อาจฟังดูเป็นคำถามแปลก ๆ แต่ก็สร้างการสนทนาที่มีชีวิตชีวากับเพื่อนร่วมงานของฉันบางคน พิจารณาอาเรย์ RAID ที่มีขนาดปานกลางซึ่งประกอบด้วยบางอย่างเช่นดิสก์แปดหรือสิบสองแผ่น เมื่อซื้อชุดเริ่มต้นของดิสก์หรือซื้อการเปลี่ยนเพื่อขยายอาร์เรย์หรือรีเฟรชฮาร์ดแวร์จะมีวิธีการสองแบบที่ทำได้ดังนี้:

  1. ซื้อไดรฟ์ทั้งหมดในหนึ่งคำสั่งจากผู้ขายรายเดียวและรับกล่องขนาดใหญ่หนึ่งกล่องที่มีดิสก์ทั้งหมด
  2. สั่งซื้อหนึ่งชิ้นต่อหนึ่งดิสก์จากผู้ขายหลายรายและ / หรือกระจายออกไป (ในช่วงวันหรือสัปดาห์) หลายคำสั่งของหนึ่งชิ้นต่อหนึ่งดิสก์

เห็นได้ชัดว่ามีพื้นกลางบางส่วน แต่นี่เป็นความคิดหลักของฝ่ายตรงข้าม ฉันสงสัยอย่างแท้จริงว่าวิธีการใดที่เหมาะสมกว่าในแง่ของการลดความเสี่ยงของความล้มเหลวจากหายนะของอาเรย์ (ขอนิยามว่า "25% ของดิสก์ล้มเหลวภายในช่วงเวลาเท่ากับระยะเวลาที่ใช้ในการ resilver อาร์เรย์หนึ่งครั้ง)" ตรรกะคือถ้าดิสก์ทั้งหมดมาจากที่เดียวกันพวกมันอาจมีเหมือนกัน ข้อบกพร่องพื้นฐานที่รอการนัดหยุดงาน ช่วงเวลาเดียวกันกับการนับถอยหลังครั้งแรกที่เหมือนกันบนนาฬิกาหากคุณต้องการ

ฉันได้รวบรวมข้อดีและข้อเสียร่วมกันสองสามข้อสำหรับแต่ละวิธี แต่บางคนรู้สึกว่าสัญชาตญาณการคาดเดาและความกล้าหาญแทนที่จะเป็นข้อมูลที่ใช้หลักฐานเชิงประจักษ์

ซื้อทั้งหมดในครั้งเดียวข้อดี

  • ใช้เวลาน้อยลงในขั้นตอนการวิจัย / การสั่งซื้อ
  • ลดต้นทุนการจัดส่งหากผู้ขายคิดค่าใช้จ่าย
  • ดิสก์รับประกันได้ค่อนข้างมากว่ามีเฟิร์มแวร์รุ่นเดียวกันและ "นิสัยใจคอ" เดียวกันในลักษณะการใช้งาน (อุณหภูมิการสั่นสะเทือน ฯลฯ )
  • การเพิ่มขึ้นของราคา / การขาดแคลนสต็อกไม่น่าจะทำให้โครงการอยู่ตรงกลาง
  • ดิสก์แต่ละแผ่นติดตั้งมาพร้อมกับช่วงเวลาที่จำเป็นต้องทำการติดตั้ง
  • หมายเลขซีเรียลเป็นที่รู้จักทั้งหมดล่วงหน้าสามารถติดตั้งดิสก์ได้ในกล่องหุ้มเพื่อเพิ่มหมายเลขซีเรียล ดูเหมือนจู้จี้มากเกินไป แต่บางคนก็ให้คุณค่ากับมัน (ฉันเดาว่าอินเทอร์เฟซการจัดการของพวกเขาเรียงลำดับดิสก์ตามหมายเลขแทนการสั่งซื้อพอร์ตฮาร์ดแวร์ ... ?)

ซื้อทั้งหมดในครั้งเดียวข้อเสีย

  • ดิสก์ทั้งหมด (อาจ) มาจากโรงงานเดียวกันที่ทำในเวลาเดียวกันของวัสดุเดียวกัน พวกเขาถูกเก็บไว้ในสภาพแวดล้อมเดียวกันและอาจมีการละเมิดในระหว่างการขนส่ง ข้อบกพร่องหรือความเสียหายใด ๆ ที่มีอยู่ในหนึ่งมีแนวโน้มที่จะปรากฏในทุก
  • หากมีการเปลี่ยนไดรฟ์ทีละรายการเป็นอาเรย์ที่มีอยู่แล้วและดิสก์ใหม่แต่ละตัวจำเป็นต้องมีการปรับขนาดเป็นรายบุคคลอาจเป็นสัปดาห์ก่อนที่จะมีการติดตั้งดิสก์ล่าสุดและพบว่ามีข้อผิดพลาด หน้าต่างส่งคืน / เปลี่ยนกับผู้ขายอาจหมดอายุในช่วงเวลานี้
  • ไม่สามารถใช้ประโยชน์จากการลดราคาในอนาคตอันใกล้ที่อาจเกิดขึ้นระหว่างโครงการ

ซื้อทีละคนข้อดี

  • หากดิสก์หนึ่งล้มเหลวดิสก์จะแบ่งปันประวัติการผลิต / การขนส่งเพียงเล็กน้อยกับดิสก์อื่น ๆ หากความล้มเหลวเกิดจากบางสิ่งบางอย่างในการผลิตหรือการขนส่งสาเหตุที่เป็นไปได้นั้นอาจไม่เกิดขึ้นในดิสก์อื่น
  • หากดิสก์ตายเมื่อถึงหรือล้มเหลวในช่วงชั่วโมงแรกของการใช้งานดิสก์จะถูกตรวจพบหลังจากการจัดส่งมาถึงในไม่ช้าและกระบวนการส่งคืนอาจราบรื่นยิ่งขึ้น

ซื้อทีละข้อเสีย

  • ใช้เวลานานพอสมควรในการหาผู้ขายที่เพียงพอกับราคาที่น่าพอใจ การติดตามคำสั่งซื้อการส่งล้มเหลวการคืนสินค้าที่เสียหายและปัญหาอื่น ๆ อาจใช้เวลานานในการแก้ไข
  • ต้นทุนการขนส่งที่สูงขึ้น
  • มีความเป็นไปได้ที่แท้จริงคือมีความจำเป็นต้องใช้ดิสก์ใหม่ แต่ไม่มีในมือทำให้โครงการหยุดชะงัก
  • จินตนาการถึงผลประโยชน์ ไม่ว่าผู้ขายหรือวันที่สั่งซื้อดิสก์ทั้งหมดมาจากสถานที่เดียวกันและเป็นแผ่นเดียวกัน ข้อบกพร่องในการผลิตจะถูกตรวจพบโดยการควบคุมคุณภาพและดิสก์ที่ต่ำกว่ามาตรฐานจะไม่ถูกขาย ความเสียหายในการจัดส่งจะต้องเป็นอย่างมาก (และเห็นได้ชัดด้วยตาเปล่า) ซึ่งไดรฟ์ที่เสียหายจะเห็นได้อย่างชัดเจนเมื่อนำออกมา

หากเราไปง่ายๆด้วยการนับจำนวนกระสุน "การซื้อเป็นกลุ่ม" ชนะค่อนข้างชัดเจน แต่ข้อดีบางอย่างก็อ่อนแอและข้อเสียบางอย่างก็แข็งแกร่ง สัญลักษณ์แสดงหัวข้อย่อยหลายแห่งเพียงระบุความผกผันเชิงตรรกะของบางคนอื่น ๆ สิ่งเหล่านี้บางอย่างอาจเป็นเรื่องไสยศาสตร์ที่ไร้สาระ แต่ถ้าความเชื่อโชคลางทำงานได้ดีกว่าในการรักษาความสมบูรณ์ของอาร์เรย์ฉันคิดว่าฉันยินดีที่จะไปพร้อมกับมัน

กลุ่มใดที่เหมาะสมที่สุดที่นี่

อัปเดต:ฉันมีข้อมูลที่เกี่ยวข้องกับการสนทนานี้ อาร์เรย์สุดท้ายที่ฉันสร้างขึ้นเอง (ประมาณสี่ปีที่ผ่านมา) มีดิสก์แปดตัว ฉันสั่งจากผู้จำหน่ายรายเดียว แต่แยกการซื้อออกเป็นสองคำสั่งของดิสก์สี่ตัวแยกกันประมาณหนึ่งเดือน ดิสก์หนึ่งชุดของอาร์เรย์ล้มเหลวภายในชั่วโมงแรกของการทำงาน มันมาจากแบทช์แรกและหน้าต่างส่งคืนสำหรับออเดอร์นั้นปิดในเวลาที่มันหมุนทุกอย่าง

สี่ปีต่อมาดิสก์ดั้งเดิมเจ็ดตัวที่มีการทดแทนหนึ่งตัวยังคงทำงานโดยปราศจากข้อผิดพลาด (เคาะไม้)


6
+1 จากฉันสำหรับคำถามเพราะฉันต้องการทราบบางครั้งด้วยตัวเอง ฉันได้แน่นอนเห็นปรากฏการณ์ของฮาร์ดดิสก์ไดรฟ์ไฟล์เซิร์ฟเวอร์ขนาดใหญ่ทั้งหมดที่มาถึงจุดสิ้นสุดของเส้นโค้งอ่างอาบน้ำรอบในเวลาเดียวกัน แต่บ่อยครั้งจำนวนของผู้ขายได้รับการอนุมัติสำหรับเซิร์ฟเวอร์ดังกล่าวมีขนาดเล็กสวยดังนั้น 'ซื้อตำแหน่ง lotsa' วิธีสวย ยาก ฉันรอคอยที่จะเห็นคำตอบด้วยข้อมูลจริงในนั้น
MadHatter

2
เรื่อง การอัปเดตของคุณ: นี่คือจุดข้อมูลเดียว ทำซ้ำสิ่งนี้สำหรับดิสก์หลายพันรายการเพื่อรับเมทริกที่มีประโยชน์ นี่เป็นเรื่องยากที่จะทำโดยเฉพาะอย่างยิ่งกับวงจรผลิตภัณฑ์ที่สั้นของดิสก์ซึ่งส่งผลให้ขาดข้อมูลประเภทนี้
สเวน

1
ฉันดูเหมือนจะจำข้อตกลงในเมตาบางครั้งว่าคำถามที่ดีที่สุดอยู่ในหัวข้อหากพวกเขาไม่เพียงสร้างข้อมูลเล็ก ๆ น้อย ๆ ฉันหวังว่าคำถามนี้อาจมีคำตอบที่ดีและฉันคิดว่าเราควรให้โอกาสกับมัน
MadHatter

3
@Sven ขอบคุณคุณเป็นคนสุภาพ นี่คือความหวัง และเพื่อ answerers ที่อาจเกิดขึ้น: ข้อมูลเกร็ดเล็กเกร็ดน้อยไม่โปรด
MadHatter

2
ฉันจัดการเครื่องจำนวนมากด้วยการโจมตี ดิสก์ทั้งหมดล้มเหลวในที่สุดดังนั้นคุณจึงมีอะไหล่สำรองเพียงพอที่คุณสามารถแลกเปลี่ยนได้ในการแจ้งเตือนที่เร็วที่สุดซึ่งอาจเป็นรูปแบบล่วงหน้าแทนที่จะรอให้เกิดข้อผิดพลาดทั้งหมด
Criggie

คำตอบ:


56

ในทางปฏิบัติผู้ที่ซื้อจากผู้ขายที่องค์กร (HPE, Dell, ฯลฯ ) ไม่ต้องกังวลเกี่ยวกับเรื่องนี้

ไดรฟ์ที่มาจากผู้จำหน่ายเหล่านี้กระจายไปทั่วผู้ผลิตหลายรายภายใต้หมายเลขชิ้นส่วนเดียวกัน

ดิสก์ HP ภายใต้ SKU เฉพาะอาจเป็น HGST หรือ Seagate หรือ Western Digital

หมายเลขชิ้นส่วน HP เดียวกันการเปลี่ยนแปลงของผู้ผลิตหมายเลขล็อตและเฟิร์มแวร์ ป้อนคำอธิบายรูปภาพที่นี่

คุณไม่ควรพยายามที่จะฉลาดเกินกว่าที่จะเป็นไปได้ของความล้มเหลวของแบทช์ คุณยินดีที่จะลองถ้ามันให้ความสงบของจิตใจ แต่อาจไม่คุ้มค่ากับความพยายาม

แนวปฏิบัติที่ดีเช่นการทำคลัสเตอร์การจำลองแบบและการสำรองข้อมูลที่มั่นคงคือการป้องกันที่แท้จริงสำหรับความล้มเหลวของชุดงาน เพิ่มอะไหล่ร้อนและเย็น ตรวจสอบระบบของคุณอย่างใกล้ชิด ใช้ประโยชน์จากระบบไฟล์อัจฉริยะเช่น ZFS :)

และจำไว้ว่าความล้มเหลวของฮาร์ดไดรฟ์ไม่ได้เกิดจากกลไกเสมอไป ...


13
อย่างไรก็ตามด้านการจัดเก็บ / การจัดส่งยังคงอยู่ในการเล่น หากใครบางคนในห้องเก็บ HP หรือ FedEx วางกล่องที่เต็มไปด้วยดิสก์มันอาจส่งผลกระทบต่อชุดที่ได้รับทั้งหมด
smitelli

6
@smitelli โอเค สำรอง, RAID, การจำลองแบบ, DR, อะไหล่ โอกาสที่ฮาร์ดไดรฟ์ทั้งหมดของคุณจะล้มเหลวในคราวเดียวนั้นมีขนาดเล็กพอที่จะไม่เป็นปัญหาที่คนส่วนใหญ่ควรเตรียมพบ
ewwhite

3
สิ่งที่ต้องระวังฉันซื้อไดรฟ์เก็บข้อมูลระดับผู้บริโภค 5 ไดรฟ์สำหรับกล่อง SW RAID ในใบสั่งเดียวจากอเมซอน คนแรกล้มเหลวหลังจาก 48 เดือน ครั้งที่สอง 53 เดือน ที่สามและสี่ล้มเหลวภายในช่วง 2 สัปดาห์ที่เดือน 55 และสุดท้ายล้มเหลวที่ 57 เดือน โชคดีที่ฉันใช้ระบบสำรอง 3 ทาง แต่ก็ยัง ... ไม่ใช่สิ่งที่ฉันคาดไว้ ฉันไม่รู้ว่า serials เรียงตามลำดับหรือไม่ แต่ตัวไดรฟ์เองก็เหมือนกัน
MooseBoys

3
@ ขาวใช่แต่ถ้าคุณสั่งซื้อ 10 SKU เดียวกันในคราวเดียวพวกเขามีโอกาสน้อยที่จะมาจากซัพพลายเออร์หลายรายมากกว่าถ้าคุณสั่งซื้อที่ 1 ต่อเดือน นั่นคือจุดที่ฉันทำ
Kaithar

2
คำตอบนี้ดูเหมือนจะมีความเห็นเล็กน้อยและไม่ได้ให้เหตุผลว่าทำไมมันอาจเป็นความจริง ... คุณพูดกับทุกคนที่สั่งซื้อโดย Dell หรือไม่ "ฉลาด" เกี่ยวกับการเอาชนะความล้มเหลวของชุดงานคืออะไร? เป็นเรื่องที่ดีหรือไม่ที่คนทำในสิ่งที่คุณสมมติว่าพวกเขาทำ
AnoE

43

เพื่อเป็นการตอบสนองต่อคำตอบจาก ewwhite ผู้ดูแลระบบบางคนจะสั่งซื้อเป็นชุด ฉันจะไม่สั่งให้ตัวเองขับรถเป็นรายบุคคล แต่ตัวเลือกมาตรฐานในสถานที่สุดท้ายที่ฉันทำงานด้วยความสามารถเช่นนั้นคือการสั่งซื้อไดรฟ์เป็นชุด สำหรับเครื่องสิบสองไดรฟ์ SOP กำหนดให้ไดรฟ์แบ่งออกเป็นสามแบทช์ทำให้เครื่องมีโปรไฟล์การทำซ้ำซ้อนสามระดับ

อย่างไรก็ตามชุดเล็ก ๆ อื่น ๆ ที่ฉันได้ปรึกษาที่ได้ปฏิบัติตามโปรโตคอลที่แตกต่างกันบางคนไม่เกี่ยวข้องกับชุดและอื่น ๆ แยกชุดเป็นสองหรือสี่อาร์เรย์ คำตอบสั้น ๆ คือทำในสิ่งที่รู้สึกเหมาะสมกับระดับการบริการที่คุณต้องการเพื่อให้บรรลุ

หมายเหตุด้านข้าง: สถานที่สุดท้ายที่ฉันทำงานคือการทำสิ่งที่ถูกต้อง เครื่องเก็บข้อมูลแอปตัดสินใจที่จะล้มเหลวในชุดไดรฟ์ทั้งหมดและเราค้นพบว่าชุดงานนี้ทั้งหมดมีความผิดพลาดแบบเดียวกัน หากเราไม่ได้ปฏิบัติตามโปรโตคอลแบทช์เราจะประสบกับการสูญเสียข้อมูลอย่างรุนแรง


7
ฉันจะลองทำข้อความข้างขึ้น!
Oddthinking

38

คำตอบที่ตรงไปตรงมาจากคนที่ใช้เวลาส่วนใหญ่ในการจัดการกับอาร์เรย์ RAID ที่กำลังจะตายและฮาร์ดไดรฟ์: อย่ามีไดรฟ์ทั้งหมดของคุณจากชุดเดียวกันหากคุณสามารถหลีกเลี่ยงได้

ประสบการณ์ของฉันใช้กับดิสก์หมุนเท่านั้น SSD มีปัญหาและประโยชน์ของตนเองที่ต้องพิจารณาเมื่อสั่งซื้อจำนวนมาก

วิธีที่ดีที่สุดในการจัดการกับสิ่งต่าง ๆ ส่วนใหญ่ขึ้นอยู่กับว่าอาร์เรย์ที่คุณใช้ทำงานขนาดใหญ่คืออะไรถ้าคุณทำงานกับอาร์เรย์ 6 ไดรฟ์ที่มี 2 ไดรฟซ้ำซ้อนคุณอาจซื้อไดรฟ์ที่คล้ายกันได้อย่างปลอดภัยจากผู้ผลิต 3 ราย เช่นนั้น.

หากคุณใช้ไดรฟ์แปลก ๆ หรือคุณทำงานกับอาร์เรย์ที่ไม่สามารถแบ่งพาร์ติชันได้อย่างง่ายดายเช่นคุณสามารถลองวิธีอื่น ๆ เช่นการซื้อไดรฟ์เดียวกันจากผู้จำหน่ายรายอื่นหรือถ้าคุณซื้อเป็นกลุ่มคุณสามารถมองผ่าน และพยายามแยกไดรฟ์ตามความน่าจะเป็นที่จะผลิตด้วยกัน

หากคุณใช้งานอาเรย์เล็ก ๆ น้อย ๆ กับเทคโนโลยีพื้นฐานที่เหมาะสมมันอาจคุ้มค่ากับเวลาของคุณที่จะสร้างมันขึ้นมาจากดิสก์ที่ต่างกัน เริ่มต้นด้วยจำนวนไดรฟ์ขั้นต่ำที่คุณสามารถซื้อได้และซื้ออุปกรณ์ต่อไปในอีกหนึ่งหรือสองเดือนต่อมาหรือเมื่อคุณกรอกระบบ นอกจากนี้ยังช่วยให้คุณเข้าใจถึงปัญหาใด ๆ ที่อาจเกิดขึ้นกับรุ่นที่คุณเลือก

เหตุผลที่อยู่เบื้องหลังคำแนะนำนี้คือการรวมกันของสองไดรฟ์ที่แปลกประหลาด

  1. MTBF ถูกทำลายอย่างน่าทึ่งเมื่อคุณมีไดรฟ์ที่มีต้นกำเนิดคล้ายกันมากมาย ในสถิติเราเรียกมันว่าอคติสุ่มตัวอย่างเนื่องจากความคล้ายคลึงกันในตัวอย่างของคุณเอฟเฟกต์ค่าเฉลี่ยจะมีประโยชน์น้อยกว่า หากมีข้อผิดพลาดกับชุดหรือแม้กระทั่งกับการออกแบบตัวเองและมันเกิดขึ้นบ่อยกว่าที่คุณคิดไดรฟ์จากชุดนั้นจะล้มเหลวเร็วกว่า MTBF จะแนะนำ

    หากไดรฟ์กระจายออกไปคุณอาจได้รับ [50%, 90%, 120%, 200%] ของ MTBF แต่ถ้าไดรฟ์ทั้งหมดมาจากแบทช์ 50% นั้นคุณมีระเบียบอยู่ในมือ

  2. การรวบรวมอาเรย์อีกครั้งจะฆ่าดิสก์ ไม่มีจริงๆ. หากคุณได้รับความล้มเหลวของไดรฟ์และอาเรย์สร้างขึ้นใหม่มันจะทำให้โหลดเพิ่มเติมบนไดรฟ์อื่นในขณะที่มันสแกนข้อมูลออก หากคุณมีไดรฟ์ใกล้กับความล้มเหลวการสร้างใหม่อาจนำออกมาได้หรืออาจมีตำแหน่งความล้มเหลวที่คุณเพิ่งไม่ทราบเพราะส่วนนั้นไม่ได้ถูกอ่านเมื่อเร็ว ๆ นี้

    หากคุณมีไดรฟ์จำนวนมากจากชุดเดียวกันโอกาสของความล้มเหลวของน้ำตกประเภทนี้จะสูงกว่าโอกาสหากพวกเขาแตกต่างกันมาก คุณสามารถลดสิ่งนี้ได้ด้วยการสแกนลาดตระเวนขัดถู resilvering ตามปกติไม่ว่าวิธีปฏิบัติที่แนะนำสำหรับประเภทของอาร์เรย์ที่คุณใช้คืออะไร แต่ข้อเสียคือจะส่งผลกระทบต่อประสิทธิภาพและอาจใช้เวลาหลายชั่วโมงกว่าจะเสร็จสมบูรณ์

สำหรับบริบทบางอย่างเกี่ยวกับอายุการใช้งานที่ยาวนานของไดรฟ์ Backblaze ทำรายงานสถิติความล้มเหลวของไดรฟ์เป็นประจำ ... ฉันไม่ได้มีส่วนเกี่ยวข้องกับ บริษัท แต่อย่างใด แต่พวกเขาควรรู้ว่าพวกเขากำลังพูดถึงเรื่องความน่าเชื่อถือของไดรฟ์ . ตัวอย่างคือhttps://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... ชุดตัวอย่างของคุณน่าจะเล็กลงดังนั้นข้อมูลที่อยู่ห่างไกลสามารถรบกวนประสบการณ์ของคุณเองได้ การอ้างอิงที่ดี


2
นี่ควรเป็นคำตอบที่ยอมรับได้ การจู่โจมด้วยความคล้ายคลึงกัน (มาจากเฟิร์มแวร์ / แบทช์เดียวกันหรือซื้อด้วยกันและผิดพลาดในบางจุด) ดิสก์มีความเสี่ยงสูงกว่ามากในการเกิดความล้มเหลวจากภัยพิบัติ
Olivier Dulac

@ OlivierDulac และหากดิสก์มีความล้มเหลวในการออกแบบหายนะเช่นเดียวกับชีวิตของคุณได้รับความเจ็บปวดจริงๆ ไดรฟ์ซีรีส์ WD Raptor รุ่น 300GB / 600GB / 900GB 2.5 "มี / มีอัตราความล้มเหลวที่ต้องเชื่อมั่น
Kaithar

การอ้างอิง Backblaze ... ยอดเยี่ยม
O. Jones

9

ฉันต้องพิจารณาเรื่องนี้กับลูกค้าเมื่อสองสามปีก่อน ฉันมีการผสมผสานระหว่างประสบการณ์จริงและการวิจัยเพื่อสำรองข้อเสนอแนะไปยังแหล่งข้อมูลหลายแห่ง

การแยกข้อดีและข้อเสียของคุณในขณะนั้นรวมถึงคำตอบที่ยอดเยี่ยมของ ewwhiteความรอบคอบแสดงให้เห็นว่าหากคุณซื้อไดรฟ์ด้วยตัวคุณเอง ดูการอภิปรายวิกิพีเดียเกี่ยวกับจุดอ่อนของ RAID อย่างรวดเร็วชี้ไปที่การอ้างอิงที่น่าสนใจสองรายการ

การอ้างอิงแรกคือRAIDกระดาษ ACM : ที่เก็บข้อมูลสำรองที่มีประสิทธิภาพสูงและเชื่อถือได้ (เฉิน, ลี, กิบสัน, แคทซ์และแพตเตอร์สันการสำรวจการคำนวณคอมพิวเตอร์ ACM 26: 145-185) ในส่วน 3.4.4 ผู้เขียนชี้ให้เห็นว่าความล้มเหลวของฮาร์ดแวร์ไม่ได้เป็นเหตุการณ์ที่เกิดขึ้นตามสถิติอย่างอิสระเสมอไปและให้เหตุผลว่าทำไม ในขณะที่ฉันกำลังเขียนคำตอบนี้กระดาษจะพร้อมใช้งานออนไลน์ pp 19-22 หารือเกี่ยวกับความน่าเชื่อถือ ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 )

การอ้างอิงที่สองคือความล้มเหลวของดิสก์ในโลกแห่งความจริง: MTTF 1,000,000 ชั่วโมงมีความหมายต่อคุณอย่างไร? (Schroeder, Gibson การประชุม USENIX ครั้งที่ 5 เกี่ยวกับเทคโนโลยีการจัดเก็บและไฟล์) ผู้เขียนนำเสนอข้อมูลทางสถิติเพื่อสำรองข้อมูลยืนยันว่าความล้มเหลวของไดรฟ์อาจถูกรวมกลุ่มในเวลาที่สูงกว่าที่คาดการณ์ไว้สำหรับเหตุการณ์ที่เป็นอิสระ ในขณะที่ฉันกำลังเขียนคำตอบนี้กระดาษนี้ยังมีออนไลน์ ( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html )

Dell แนะนำอย่างชัดเจนกับ RAID 5 ย้อนกลับไปในปี 2012 เนื่องจากความล้มเหลวของดิสก์ที่สัมพันธ์กันในสภาพแวดล้อมดิสก์ขนาดใหญ่ RAID 6 ถูกคาดการณ์ว่าจะไม่น่าเชื่อถือด้วยเหตุผลที่คล้ายคลึงกันรอบปี 2019 (บทความ ZDNet ที่ชื่อ "Why-raid-6-stop-working-in-2019": http://www.zdnet.com/article/why-raid-6 -stops-working-in-2019 / ) ในขณะที่เป็นองค์ประกอบสำคัญของทั้งสองคนนี้เป็นขนาดของดิสก์และสร้างครั้งไดรฟ์ขนาดเล็กลงและmultisourcingได้รับการแนะนำให้เป็น Mitigator สำหรับปัญหา RAID 5

ใช่แล้วเลือกหลายไดรฟ์ถ้าคุณทำได้ หากคุณซื้อจากผู้จำหน่ายระดับองค์กรตามที่อธิบายไว้ในคำตอบของ ewwhiteสิ่งนี้อาจเกิดขึ้นกับคุณอย่างโปร่งใส อย่างไรก็ตาม ... ลูกค้าของฉันซื้อไดรฟ์ 2TB 16 ตัวจากผู้จำหน่ายระดับองค์กร พวกเขาเพิ่งมาจากผู้ผลิตรายเดียวกันและดูเหมือนว่าจะผลิตในเวลาเดียวกัน สองไดรฟ์ล้มเหลวภายในสองสัปดาห์ของการกำหนดค่าอาร์เรย์ RAID01 ดังนั้นตรวจสอบไดรฟ์เมื่อคุณได้รับ (คุณตรวจสอบแล้วใช่ไหม?)


ฉันไม่เข้าใจอาร์กิวเมนต์ของพวกเขาสำหรับ RAID6 ที่จะหายไปเนื่องจากความจุที่เพิ่มขึ้น อาร์เรย์ RAID ใด ๆ ขึ้นอยู่กับการบำรุงรักษาที่ดีเพื่อให้ทำงานได้อย่างถูกต้อง เรามีอาร์เรย์ขนาดใหญ่มากที่ใช้ RAID6 และไม่เคยพบ URE ในระหว่างการสร้างใหม่ที่ทำให้ข้อมูลสูญหาย เพียงแค่ทำการตรวจสอบปริมาณตามกำหนดเช่นเดียวกับ MFG ทุกคำแนะนำและคุณจะสบายดี
Brian D.

4

ข้อเสียที่อาจเป็นไปได้อีกประการหนึ่งสำหรับการสั่งซื้อไดรฟ์แยกต่างหากคือ

ฮาร์ดไดรฟ์แทบไม่เคยมีมาในบรรจุภัณฑ์ค้าปลีก หากคุณซื้อทีละครั้งพวกเขาจะถูกบรรจุใหม่โดยผู้ขาย ฉันได้พบการทำ repackaging นี้โดยตัวแปรสูง บางครั้งคุณได้กล่องสวย ๆ ที่มีช่องว่างภายใน แต่บางครั้งคุณก็ไม่ได้ช่องว่างใด ๆ เลย

กล่องขนาดเล็กก็มีความเสี่ยงต่อการถูกโยนโดยผู้ให้บริการโดยไม่มีความเสียหายภายนอกอย่างชัดเจน


2

หากคุณพยายามลดสถานการณ์ "แบทช์ไม่ดี" ซึ่งหมายความว่าทุกไดรฟ์ในชุดการซื้อสามารถ / จะล้มเหลวในเวลาใกล้เคียงกันสิ่งสำคัญคือต้องพิจารณาขนาดของอาเรย์และระดับ RAID ที่ใช้

หากคุณพิจารณาที่จะทำหลายออเดอร์จะไม่มีการกำหนดมาตรฐานใด ๆ ผู้คนแนะนำระดับการซื้อ 2 - 4 ควรถามตัวเองว่าถ้าทั้งไดรฟ์หนึ่งชั้นล้มเหลวอาร์เรย์จะยังคงออนไลน์อยู่หรือไม่ ดังนั้นสำหรับระดับ RAID ที่ซ้ำซ้อนเช่น 1/5/10/50 คุณจะต้องซื้อไดรฟ์ 1 ครั้ง สำหรับ RAID6 คุณสามารถซื้อ 2 ครั้ง

ฉันจะแนะนำโดยไม่คำนึงถึงวิธีการซื้อไดรฟ์ที่คุณสำรองข้อมูลเป็นประจำและซื้อสปาร้อน / เย็นที่เพียงพอสำหรับขนาดอาเรย์และประเภท RAID ของคุณ


2

ฉันมักจะซื้อมือสอง / จำนวนมาก คำสั่งซื้อที่ฉันติดตามเป็นอุปกรณ์รุ่นเดียวกันเกือบตลอดเวลาและการใช้งานอย่างน้อยก็ช่วยลดความกังวลเกี่ยวกับ "แบทช์ที่ไม่ดี" มีฮาร์ดแวร์ขายไฟจำนวนมากลอยอยู่บนเว็บที่ฉันมีเวลายากที่จะพิสูจน์ว่าซื้อไดรฟ์ใหม่ (หรือสิ่งอื่นใดสำหรับเรื่องนั้น) เว้นแต่ว่าจะเป็นภารกิจสำคัญสำหรับฮาร์ดแวร์ (และฮาร์ดแวร์สำรองของเราทั้งหมดยังคง refurb!)

+ PRO:การกำหนดราคาออนไลน์ที่แข่งขันได้และปัญหาน้ำท่วมอย่างต่อเนื่องของฮาร์ดแวร์จากสภาพแวดล้อมทางธุรกิจที่เปลี่ยนแปลงอย่างรวดเร็วหมายความว่าแทบไม่ต้องใช้ความพยายามใดเลยที่จะได้รับส่วนลด 50-80% จากการขายปลีกสำหรับสภาพแวดล้อมการทำงาน

+ PRO:ราคาต่ำทำให้มีงบประมาณในการซื้อมากเกินไปและบำรุงรักษาฮาร์ดแวร์สำรองที่แข็งแกร่ง

+ PRO:ความสัมพันธ์ของผู้ขายฉันมีผู้ขายออนไลน์จำนวนหนึ่งที่ฉันได้รับส่วนลดเล็กน้อยจากส่วนลดที่ใหญ่มากแล้วสำหรับการ refurb / ฮาร์ดแวร์ที่ใช้แล้ว มักจะไม่ได้รับ Monoprice เว้นแต่คุณจะซื้อในปริมาณมากหรือมี SLA กับพวกเขา โดยเฉพาะอย่างยิ่งกับฮาร์ดไดรฟ์เพียงแค่ให้แน่ใจว่าคุณทดสอบพวกเขาออกมาทันที ฉันไม่เคยมีปัญหากับผู้ขายที่ไม่คืนเงินหรือเปลี่ยนฮาร์ดแวร์ DOA (เว้นแต่จะเป็นการหลอกลวงที่ฉันไม่สามารถจับได้)

-CON:การรับประกันปัญหาด้านกฎหมายการรับประกันจะขึ้นอยู่กับวันที่ผลิตของอุปกรณ์คุณจะต้องคอยมองหา Huksters ออนไลน์ที่พยายามจะขายแบรนด์ใหม่โคลน ฯลฯ

-CON:การทดสอบจำเป็นต้องคำนึงถึงปัจจัยในการทดสอบ ไม่ว่าคุณจะทำการทดสอบฮาร์ดแวร์ใหม่หรือไม่

-CON:อายุการใช้งานยากที่จะตัดสิน; ไวต่อความล้มเหลวของดิสก์เล็กน้อย

หมายเหตุ:ถ้ามันเป็นลูกค้าสร้างและพวกเขาไม่ได้ร้องขอการ refurb / used อย่างชัดเจนเสมอโดยมันวาว / ใหม่!


โดยสิ้นเชิง ฉันซื้อดิสก์ HP ที่เลิกเช่าและนำไปผลิตใหม่เพราะ: ราคาถูก นอกจากนี้การรับประกันเซิร์ฟเวอร์ของ HP มีแนวโน้มที่จะครอบคลุมสิ่งที่อยู่ภายในแชสซีตราบใดที่มันเป็นส่วนที่ถูกต้องก็ดี
ewwhite

1

เป็นไปได้ที่จะมีความน่าเชื่อถือมากขึ้นโดยใช้ฮาร์ดไดรฟ์ที่มาจากแบตช์ที่แตกต่างกันและผู้ผลิตที่ดีเลิศ ไม่เช่นนั้นอาจล้มเหลวในเวลาใกล้เกินไป คำตอบที่ยอดเยี่ยมของ @Eliodorus อธิบายอย่างนี้เพียงพอ

แน่นอนว่าไม่สำคัญว่าใครสับไดรฟ์ หากผู้ให้บริการของคุณยืนยันว่าเป็นเช่นนั้นสำหรับคุณแล้วไม่จำเป็นต้องสนใจ อย่างไรก็ตามดูเหมือนว่ามันไม่สมเหตุสมผลที่จะทำการพิสูจน์ทางนิติเวชกับผู้ให้บริการที่แตกต่างกันและอาจสรุปได้ว่าใครบางคนทำเพื่อคุณถ้าคุณไม่ได้บอกโดยตรง ผู้ให้บริการมักจะไม่ขี้เกียจที่จะโฆษณามาตรการต่างๆที่พวกเขาใช้เพื่อเพิ่มความน่าเชื่อถือของไดรฟ์


1

ที่จริงแล้วมันขึ้นอยู่กับระดับRedundant ของระดับดิสก์ที่ไม่แพง (Raid) ใน Raid สอง, สาม, สี่, ห้าและหกมันช่วยให้มีไดรฟ์จากแบตช์ที่แตกต่างกันหลายอย่าง แต่มันก็ไม่ได้เด็ดขาด: อันที่จริงแล้วได้สูญเสียความน่าเชื่อถือและประสิทธิภาพในการใช้ระดับเหล่านี้

ทีนี้สำหรับตัวเลือกที่มีสติมักใช้การจู่โจม 1 (การทำมิเรอร์) หรือ 1 + 0 (การทำมิรเรอร์เหนือมิเรอร์) มันมีประโยชน์ที่จะมีไดรฟ์ที่แตกต่างกันในแต่ละด้านของมิเรอร์แต่ละตัว ไม่มีกระจกเงาล้มเหลวระหว่างการกู้คืน นอกจากนี้ควรมีอะไหล่ร้อนเพื่อลดหน้าต่างการกู้คืน

สำหรับข้อมูลเพิ่มเติมให้ตรวจสอบเว็บไซต์ Battle-F'2 (Baarf) ของลิ้นที่แก้ม แต่ให้ข้อมูลโดยเครือข่ายตาราง Oak ที่มีชื่อเสียงของ DBA อาวุโส วิกิพีเดียยังสรุปปัญหานี้เป็นอย่างดี


นี่ดูเหมือนจะเป็นเพียงความเห็น หากคุณมีแหล่งข้อมูลอ้างและเชื่อมโยงไปยังแหล่งที่มา
MadHatter

ที่จริงฉันพูดถึงแหล่งที่มา และฉันจะวางตัวมันเป็นตรรกะมากขึ้น (ธรรมชาติของการสะท้อนกับสตริปและการตรวจสอบ) กว่าความคิดเห็น
lfd

7
แหล่งที่คุณไม่ได้เชื่อมโยงหรืออ้างถึง การคาดหวังให้ผู้อื่นใช้ google สำหรับเว็บไซต์ต้นทางของคุณเพื่อค้นหาข้อมูลทั้งหมดเพื่อสนับสนุนข้อมูลไม่ได้ตอบคำถามที่น่าเชื่อถือ ในฐานะที่เป็นมันเป็นเรื่องของตรรกะในแผนผังผมคิดว่าเราสวยใสที่ handwavy มันก็ทำให้รู้สึกคำตอบของคำถามนี้โดยเฉพาะไม่ได้ไปจะดีได้รับการยกย่อง
MadHatter


4
@lfd การเชื่อมโยงไปยังเว็บไซต์ในขณะที่ใช้ "ตรรกะ" เพื่ออธิบายตำแหน่งของมันไม่ได้ให้ข้อมูล (ที่ฉันเห็นได้อย่างรวดเร็ว) ปัญหาเกี่ยวกับ "ตรรกะ" ก็คือมันเป็นเพียงชื่อสำหรับทฤษฎีในบริบทนี้ และปัญหาที่เกิดขึ้นกับทฤษฎีที่ยังไม่ผ่านการทดสอบนั้นก็หวังว่าจะชัดเจน โปรดทราบว่าทฤษฎีที่ยังไม่ทดลองที่สำรองข้อมูลโดยผู้เชี่ยวชาญยังคงมีปัญหาเช่นเดียวกับทฤษฎีที่ยังไม่ทดลองโดยทั่วไป
2460798

-1

เท่าที่ฉันทราบการตรวจสอบคุณภาพของการจัดเก็บดิสก์ที่โรงงานค่อนข้างสูงและโดยส่วนตัวฉันจะไม่กลัวความล้มเหลวของฮาร์ดแวร์จำนวนมากเนื่องจากเหตุผลการผลิต

และถ้าฉันหวาดระแวงเล็กน้อยฉันจะซื้อพื้นที่เก็บข้อมูลจากผู้ผลิตสองรายที่ฉันรู้จักไม่แชร์โรงงานผ่านผู้ขายรายเดียวกัน

ที่เก็บข้อมูลราคาถูกมากจนไม่สมเหตุสมผลในฐานะ บริษัท ที่จะไม่ซื้อเป็นจำนวนมากและคุณจะต้องเขียนภายในที่เก็บข้อมูลหลังจากสองสามปีที่ผ่านมาดังนั้นการลงทุนจึงไม่ค่อยดีนัก เวลาที่ใช้ในการซื้อจากผู้ค้าแต่ละรายอาจมีค่าใช้จ่ายมากขึ้นเนื่องจากใช้เวลา

หากคุณยังคงกลัวความล้มเหลวของดิสก์จำนวนมากซื้อมากกว่าที่คุณต้องการ ถ้าคุณรู้ว่าคุณต้องการดิสก์ 12 ตัวแทนที่จะซื้อ 5 ถึง 7 ชิ้นส่วนอะไหล่ นั่นจะเป็นเพียง $ 48 คูณ 5 ถึง 7 ต่อเทราไบต์และเรายังสามารถลดราคาลงได้โดยไม่ทำให้ระบบของเราไม่เสถียรหรือไม่ปลอดภัยเพราะถ้าส่วนลดเป็นกลุ่มหรือดิสก์มือสอง (ทำไมจึงปลอดภัย) กว่าที่เราพูดถึง resilver / การเริ่มต้นอาร์เรย์อีกครั้งตอนนี้ฉันไม่มีทางรู้ได้เลยว่าโซลูชันสตอเรจของคุณมีขนาดใหญ่แค่ไหน แต่ถ้าคุณใช้เวลาหลายสัปดาห์ในงานนี้ (สำหรับฉัน) มากกว่านี้คือการกำหนดค่าแบบพลาดมากกว่าอย่างอื่นไม่ทางใดก็ทางหนึ่ง

หากเรากลายเป็นหวาดระแวงจริงๆลองรับ 2x ของโซลูชั่นจัดเก็บข้อมูลที่คุณใช้อยู่โดยพิจารณาจากความอ่อนไหวขององค์กรของคุณต่อการจัดเก็บข้อมูลที่ไม่ถูกต้องนี่อาจไม่ใช่ตัวเลือกสำหรับ บริษัท ที่ติดอันดับ Fortune 500

และเรายังสามารถพูดคุยเกี่ยวกับการปิดการโหลดข้อมูลที่เราไม่ต้องการที่นี่และตอนนี้เช่น (ตัวอย่างสุ่ม) ปีของข้อมูลทางการเงินในอดีตกับผู้ขาย "คลาวด์" ที่เราเข้ารหัสเป็นครั้งแรก สิ่งนี้จะลบความต้องการพื้นที่เก็บข้อมูลออกจากที่จัดเก็บข้อมูลของเราซึ่งจะทำให้เราเป็นอิสระทางการเงินหรือในทางปฏิบัติ

ขึ้นอยู่กับว่าคุณเป็นใครคุณอยู่ที่ไหนและทำอะไรพวกเขาจะเป็นโซลูชั่นที่แตกต่างกันเพื่อการทำงานที่ดีที่สุดสำหรับคุณ


1
หากคุณ -1 อะไรมากกว่าที่คุณควรจะมีเหตุผลที่จะระบุว่าทำไม บางทีคุณอาจแพ้ความจริง
Cristian Matthias Ambæk
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.