มีเหตุผลที่จะเปลี่ยนฮาร์ดไดรฟ์ของเซิร์ฟเวอร์ก่อนที่มันจะผิดพลาดหรือไม่?


11

เพียงคำถามสั้น ๆ : มีเหตุผลที่จะเปลี่ยนฮาร์ดไดรฟ์ของเซิร์ฟเวอร์หลังจาก x ปีก่อนที่จะเกิดข้อผิดพลาด (ในที่สุดจะเกิดขึ้นในบางจุด) หรือฉันควรทิ้งไว้จนกว่าจะเกิดความผิดพลาดหรือไม่? ฉันมีประสบการณ์เล็กน้อยกับการดูแลเซิร์ฟเวอร์ที่แท้จริงดังนั้นฉันจึงสงสัย ...


ฉันไม่ได้คาดหวังว่าจะได้คำตอบมากมายว้าว :) หลังจากตรวจสอบทั้งหมดและพิจารณาว่า a) ฮาร์ดไดรฟ์ของเซิร์ฟเวอร์นั้นเพียงพอสำหรับวัตถุประสงค์ b) การสำรองข้อมูลรับประกันอย่างแน่นอน (ใช้ RAID + Replication Slave + การสำรองข้อมูลรายวัน แหล่งภายนอก) ฉันไม่พบเหตุผลที่จะแนะนำให้เปลี่ยนไดรฟ์ ขอบคุณทุกคน!
Spiros

คำตอบ:


8

เหตุผลที่ดีในการเปลี่ยนแปลงคือถ้าคุณต้องการเพิ่มงานอื่นลงในรายการสิ่งที่ต้องทำของคุณในขณะที่เพิ่มโอกาสในการเกิดสิ่งผิดปกติ

ทุกคนพูดเล่นกันไม่มีเหตุผลใด ๆ ที่ฉันเคยได้ยินว่าจะเปลี่ยนไดรฟ์ล่วงหน้า หากคุณมี RAID ในสถานที่คุณมีการป้องกันอยู่แล้ว (สมมติว่าคุณมีการสำรองข้อมูลที่เหมาะสม) และคุณไม่ได้สร้างของเสียในรูปแบบของไดรฟ์ที่ตายแล้วเพื่อกำจัดและคุณไม่จำเป็นต้องกำจัดทิ้งโดยไม่จำเป็น ข้อมูลที่สำคัญจากไดรฟ์ คุณจะไม่ใช้จ่ายเงินเพิ่มในไดรฟ์ใหม่และคุณจะไม่ได้รับการปกป้องเชิงรุกจากสิ่งต่าง ๆ ที่อาจยังคงผิดพลาดอยู่เช่นตัวควบคุมไดรฟ์ที่ผิดปกติซึ่งไม่ได้เป็นแหล่งความผิดปกติของไดรฟ์

ในทางกลับกันสิ่งนี้อาจช่วยให้คุณค้นพบข้อผิดพลาดของไดรฟ์ที่ไม่สามารถกู้คืนได้ซึ่งไม่ก่อให้เกิดการเตือนภัยในหน่วย RAID เนื่องจากเราเกิดขึ้นกับ RAID 5 เราถูกกัดโดยสิ่งนี้และจบลงด้วยความต้องการ ในกรณีนั้นการสำรองข้อมูลที่เหมาะสมจะช่วยให้คุณกู้คืน) ระดับ RAID ที่คำนึงถึงความจุของไดรฟ์ที่ใหญ่ขึ้นในปัจจุบันและการยอมรับข้อผิดพลาดที่ไม่สามารถกู้คืนได้จะช่วยให้เราสำรองข้อมูลไม่ได้

ผู้ดูแลระบบส่วนใหญ่มีแผน RAID และการสำรองข้อมูลที่ดีดังนั้นจึงไม่จำเป็นต้องสร้างขยะเพิ่มเติมโดยการเปลี่ยนไดรฟ์โดยไม่จำเป็น


6

ครั้งเดียวที่ฉันอาจพิจารณาเรื่องนี้คือถ้าฉันมีดิสก์จำนวนมากจากชุดเดียวกันและอื่น ๆ ในชุดเริ่มล้มเหลวจากนั้นฉันอาจพิจารณามัน

ถ้าฉันว่างในอวกาศแน่นอนว่าฉันจะทำ - แต่ไม่มีเหตุผลอื่นนอกจากเพียงเพราะมันเก่า ไม่มีเพราะโดยเฉลี่ยอัตราความล้มเหลวในปีแรกจะคล้ายกับอัตราความล้มเหลวปีอื่น(โปรดทราบว่ากราฟแบ่งออกเป็นปีแรกในช่วง 3 เดือน, 6 เดือน, 1 ปี แต่คุณต้องรวมทั้งหมดเข้าด้วยกันเพื่อให้มีโอกาสล้มเหลวใน 1 ปี) และเมื่อดูที่การใช้ประโยชน์ดิสก์สูงมีแนวโน้มที่จะล้มเหลวในปีแรกมากกว่าในสามปีถัดไปรวมกัน

ความสัมพันธ์เดียวกับความล้มเหลวของไดรฟ์ล่าช้าคือในห้องร้อนและเราทำให้ห้องเซิร์ฟเวอร์ของเราเย็น


5

ฉันทุกคนเป็นคนเริ่มรุก แต่ฉันไม่เคยทำเลยและไม่เคยได้ยินใครทำ สันนิษฐานว่าคุณมีการตั้งค่า RAID บางประเภทและเกิดขึ้นเป็นประจำสำรองข้อมูลที่ถูกต้องสำหรับระบบที่เป็นปัญหา


5
+1 ไม่เคยคิดเลย การใส่ดิสก์ใหม่และในกรณีที่ตั้งใจการทริกเกอร์การสร้างอาร์เรย์นั้นไม่ได้เป็นวิธีที่ดีที่สุดในการ "ออกกำลังกาย" ดิสก์การผลิตที่เหลืออยู่ อธิบายให้เจ้านายฟังยากขึ้นว่าทำไมระบบไม่ทำงานหากการสร้างใหม่ล้มเหลว
jscott

3
ฉันแทนที่ดิสก์ที่มีข้อผิดพลาด SMART แต่ฉันจะพิจารณาว่าล้มเหลวแม้ว่าจะยังคงใช้งานได้ในทางเทคนิค
Chris S

4

ใช่ประสิทธิภาพและความจุ หากฮาร์ดไดรฟ์เก่าทำ 70MB / วินาทีสำหรับการอ่านอย่างต่อเนื่องและ 100 IOPS และการเปลี่ยนที่อาจเกิดขึ้นนั้นจะเป็น 200MB / วินาทีสำหรับการอ่านอย่างต่อเนื่องและ 175 IOPS และมีความจุ 3 เท่าคุณอาจได้รับการจัดซื้อไดร์ฟใหม่ เหตุผลด้านประสิทธิภาพ / ความจุ (และตัวเลขเหล่านั้นถูกสร้างขึ้นทั้งหมดจุดใหม่อาจเร็วกว่าอย่างมาก)

ตอนนี้คุณทำอะไรกับไดรฟ์เก่า คุณอาจใช้มันในเซิร์ฟเวอร์ทดสอบหรือเพิ่มลงในการสำรองข้อมูลไปยังดิสก์อาร์เรย์หรือเก็บไว้เป็นอะไหล่ฉุกเฉิน หรือคุณอาจแค่เช็ดพวกมันแล้วส่งไปทิ้ง

เซิร์ฟเวอร์โดยเฉลี่ยของคุณในวันนี้คือ IO ที่เชื่อมโยงมากกว่าตัวประมวลผลที่ถูกผูกไว้ (หรืออย่างน้อยฉันทั้งหมด) ดังนั้นหากคุณมีเซิร์ฟเวอร์เก่าที่ไม่มีปัญหาเกี่ยวกับเวลา CPU หรือการขาดแคลนหน่วยความจำคุณอาจมีโอกาสที่จะปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญโดยการเปลี่ยนฮาร์ดไดรฟ์ที่มีหลายรุ่นที่อยู่ด้านหลังสิ่งที่คุณสามารถซื้อได้ง่าย


3

มันขึ้นอยู่กับผลกระทบหากฮาร์ดไดรฟ์ผิดปกติ

หากคุณไม่มี RAID
หากคุณไม่สนใจเกี่ยวกับความพร้อมใช้งานของเซิร์ฟเวอร์เนื่องจากบริการสามารถหยุดทำงานหรือเนื่องจากอยู่ในสถานะพร้อมใช้งานสูงและหากคุณมีข้อมูลสำรองที่ใช้งานได้ ฉันจะบอกว่าตกลงปล่อยให้ไดรฟ์ตายและเปลี่ยนและคืนค่าข้อมูลเมื่อมันจะล้มเหลว
หากคุณสนใจเกี่ยวกับความพร้อมฉันจะบอกว่าใช้ RAID;)

หากคุณมี RAID (1, 5, 6, ... )
ฉันจะบอกว่าทำไมเปลี่ยนฮาร์ดไดรฟ์ก่อนเกิดข้อผิดพลาด? RAID (และการสำรองข้อมูล) มีไว้สำหรับสิ่งนี้ การเปลี่ยนฮาร์ดไดรฟ์ในกรณีที่อาจล้มเหลวนั้นเป็นความเสี่ยงที่จะทำให้บางสิ่งเสียหาย (การสร้าง RAID ใหม่นั้นมีความเสี่ยงเสมอ)

แต่มันเป็นเพียงมุมมองของฉัน! หากคุณคิดว่าไดรฟ์ของคุณอาจแก่เกินไปคุณอาจต้องการเปลี่ยนเซิร์ฟเวอร์ของคุณด้วย


2

ดิสก์บางตัวตายใน 1 ชั่วโมงส่วนอีก 2 ทศวรรษที่ผ่านมา

ถ้ามันไม่ล้มเหลวหรือล้มเหลว (บางสิ่งที่คุณสามารถสร้างได้จากการตรวจสอบสมาร์ทหรือปัญหาด้านประสิทธิภาพ) เหตุผลอื่นที่คุณควรพิจารณาคือถ้ามันไม่ใหญ่พอหรือเร็วพอสำหรับวัตถุประสงค์ของคุณ


1
เพียงแค่ตรวจสอบไดรฟ์ด้วย SMART และโดยปกติจะแสดงอาการของความล้มเหลวก่อนที่จะสายเกินไป
ศ. โมริอาร์ตี

@Prof การศึกษาดิสก์จำนวนมากของ Google แสดงให้เห็นว่าสมาร์ทเป็น "ปกติ" ที่เชื่อถือได้ 44% -72% ของเวลา static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott

2

ด้วยดิสก์คำถามไม่ใช่ว่าพวกเขาจะล้มเหลว แต่เมื่อใด พวกเขาเป็นอุปกรณ์เชิงกล (เว้นแต่ใช้ SSD แต่มีข้อแม้ของตัวเอง) ดังนั้นพวกเขาจะล้มเหลวไม่ช้าก็เร็ว

ผู้จำหน่ายดิสก์มักจะปรับกระบวนการผลิตให้มีราคาถูกที่สุดเท่าที่จะเป็นไปได้เพราะแม้แต่การบันทึกหนึ่งเซ็นต์ต่อดิสก์อาจมีความสำคัญมากเมื่อคุณผลิตและจำหน่ายหลายพันรายการ แต่แน่นอนว่าพวกเขาไม่ต้องการให้ดิสก์ของพวกเขาล้มเหลวก่อนที่จะสิ้นสุดระยะเวลาการรับประกันหรือพวกเขาจะแทนที่พวกเขาฟรีตลอดเวลา; ดังนั้นพวกเขาจะใช้จ่ายอย่างมีความสุขเท่าที่จำเป็นเพื่อให้พวกเขาใช้งานได้นานตราบเท่าที่การรับประกันครอบคลุมพวกเขา ... แต่ไม่มากไปกว่าร้อยละ

ผลลัพธ์ที่ได้คือ: ดิสก์ส่วนใหญ่มักจะล้มเหลวในไม่ช้าหลังจากสิ้นสุดระยะเวลาการรับประกัน นี่ไม่ใช่กฎทั่วไปมันเป็นเพียงสถิติและดิสก์ของคุณอาจล้มเหลวในขณะนี้หรือครั้งสุดท้ายจนกว่าคุณจะไม่ต้องการมันอีกต่อไป ... แต่สถิติมีดิสก์จำนวนมากที่ล้มเหลวไม่กี่วันหรือหลายเดือนหลังจากนั้น การรับประกันหมดอายุ

แน่นอนว่าการซื้อสินค้าใหม่เมื่อคุณยังไม่ต้องการพวกเขาอาจมีค่าใช้จ่ายสูง แต่การแทนที่พวกเขาหลังจากการรับประกันหมดอายุและพวกเขาล้มเหลวจะมีราคาแพงอยู่ดี

ตอนนี้ถ้าคุณสามารถหาวิธีที่จะทำให้พวกเขาล้มเหลวในขณะที่ยังรับประกัน (และไม่สูญเสียข้อมูลในกระบวนการเช่นมี RAID ที่ดีและสำรอง) ดีนั่นจะดีที่สุด ;-)


2

ฉันจะไม่เปลี่ยนไดรฟ์ที่ใช้งานได้มากกว่าที่ฉันจะใช้แทนแหล่งจ่ายไฟที่ใช้งานได้ ในที่สุดทั้งสองจะล้มเหลว แต่ก็ไม่สมเหตุสมผลทั้งทางด้านเทคนิคและทางการเงินเพื่อแทนที่พวกเขาโดยไม่มีสาเหตุที่ดี แทนที่พวกเขาเมื่อพวกเขาเริ่มแสดงสัญญาณของปัญหา

ในกรณีของฮาร์ดไดรฟ์แนวโน้มคือว่าหากฮาร์ดไดรฟ์กำลังจะล้มเหลวในช่วงต้นจะเป็นไปได้มากกว่าในปีแรก ไดรฟ์ที่มีปัญหาในการใช้งานฟรีเป็นเวลา 6 ปีสามารถพึ่งพาเพื่อทำงานต่อไปได้อีกอย่างน้อยสองสามปี เห็นได้ชัดว่ามีข้อยกเว้นมากมาย แต่นั่นเป็นแนวโน้มทั่วไป


1
คุณ (ปกติ) ทำข้อมูลไม่สูญเสียเมื่อแหล่งจ่ายไฟล้มเหลว ...
Massimo

1
@Massimo - จริง แต่บนเซิร์ฟเวอร์คุณมักจะไม่สูญเสียข้อมูลเมื่อไดรฟ์หนึ่งล้มเหลว ในความคิดของฉันถ้าไม่มีความซ้ำซ้อนมันเป็นเพียงเวิร์กสเตชันที่น่ายกย่องไม่ใช่เซิร์ฟเวอร์จริง
John Gardeniers

1

นอกจากนี้โปรดทราบว่าไดรฟ์คลาสเซิร์ฟเวอร์ส่วนใหญ่มีข้อกำหนดด้านการผลิตที่เข้มงวดกว่าและมักเชื่อถือได้มากกว่าไดรฟ์เดสก์ท็อปราคาประหยัด / งบประมาณ ดังนั้นนอกเหนือจากอันตรายของการเปลี่ยนไดรฟ์ 'ดี' ในกรณีที่อาจล้มเหลวการทำเช่นนี้สำหรับอาร์เรย์ขนาดใหญ่สามารถเพิ่มเงินจำนวนมากได้

นอกจากนี้เมื่อใช้ RAID นั่นเป็นเหตุผลว่าทำไมจึงเป็นความคิดที่ดีที่มี hot spare อย่างน้อยหนึ่งตัวในเซิร์ฟเวอร์ดังนั้นจึงสามารถเริ่มต้นสร้างใหม่ได้อย่างรวดเร็วและยังคงมีสุขภาพดีจนกว่าคุณจะซื้ออุปกรณ์ทดแทนตามต้องการ


1

ฉันได้ทำในระบบ "zero-downtime" แม้ว่าจริง ๆ แล้วคุณมีแนวโน้มที่จะสูญเสียไดรฟ์ที่แตกต่างกันเมื่อ RAID สร้างขึ้นใหม่ ... ฉันสลับหนึ่งครั้งแล้วจบลงด้วยการสลับกลับมาเมื่อไดรฟ์อื่นเริ่มโยนข้อผิดพลาดระหว่างการสร้างใหม่

มันเป็นคำถามปรัชญาจริง ๆ : ถ้าคุณเชื่อในการทดสอบความเครียดแบบแอคทีฟ (ทั้งอาเรย์และระบบหัวใจและหลอดเลือดของคุณ) คุณควรสลับไดรฟ์ของคุณ แต่จริงๆแล้วคุณจะไม่มีทางรู้ว่าไดรฟ์ใดกำลังจะแย่ลงต่อไป ไม่น่าเป็นไปได้เลยที่คุณจะสูญเสียไดรฟ์ที่เปลี่ยนใหม่ก่อนที่คุณจะสูญเสียไดรฟ์รุ่นเก่าที่ผ่านการพิสูจน์แล้ว

ที่ถูกกล่าวว่าฉันจะเสียเวลาในการทดสอบความเครียดสำรองโซลูชั่นของฉันและออกจากไดรฟ์อย่างสงบสุขจนกว่าพวกเขาจะเริ่มโยนข้อผิดพลาดจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.