ฉันมีเซิร์ฟเวอร์ Ubuntu ขนาดเล็กที่ทำงานที่บ้านพร้อมฮาร์ดไดรฟ์ 2 ตัว มีการค้นพบซอฟต์แวร์สองรายการ (raid1) บนดิสก์ที่จัดการโดย mdadm ซึ่งฉันเชื่อว่าไม่เกี่ยวข้อง แต่พูดถึงมันต่อไป
ฮาร์ดไดรฟ์ทั้งคู่เป็น Western Digital และใช้งานมานานประมาณ 2 ปีเมื่อหนึ่งในนั้นเริ่มมีเสียงคลิกแล้วก็ตาย ฉันคิดว่าอาจเป็นเรื่องปกติหลังจาก 2 ปีดังนั้นฉันจึงซื้อใหม่และ resynced arrays arrays หลังจากนั้นประมาณหนึ่งเดือนไดรฟ์อื่นก็ตายเช่นกัน
ฉันไม่ได้สงสัยเนื่องจากทั้งสองไดรฟ์ได้ถูกซื้อพร้อมกันจึงไม่น่าแปลกใจที่ได้เห็นพวกเขาทั้งสองอยู่ใกล้กันดังนั้นฉันจึงซื้ออีก
จนถึงตอนนี้ 2 ไดรฟ์เก่าล้มเหลวและ 2 แบรนด์ใหม่ในระบบ หลังจากหนึ่งเดือนไดรฟ์ใหม่ตัวหนึ่งเสียชีวิต นี่คือเมื่อมันเริ่มสงสัย เนื่องจากพีซีถูกประกอบเข้าด้วยกันจากชิ้นส่วนที่เก่าแก่จริงๆ (คิดว่า AthlonXP) ฉันคิดว่าบางทีคอนโทรลเลอร์ SATA ของเมนบอร์ดอาจเป็นตัวการ แน่นอนว่าคุณไม่สามารถสลับชิ้นส่วนได้อย่างง่ายดายในพีซีเครื่องเก่าเช่นนี้ดังนั้นฉันจึงซื้อทั้งระบบ MB ใหม่ CPU ใหม่ RAM ใหม่ ใช้เวลาขับรถกลับล้มเหลวเนื่องจากมันอยู่ภายใต้การรับประกันและได้รับมันแทนที่
ดังนั้นจึงเป็นไดรฟ์ที่ล้มเหลวสูงสุด 2 ตัวจากรุ่นเก่าและอีก 1 ไดรฟ์ที่ล้มเหลวจากไดรฟ์ใหม่ ไม่มีปัญหาเป็นเวลา 1 เดือน หลังจากข้อผิดพลาดนั้นคลานขึ้นอีกครั้งใน / var / log / ข้อความและ mdadm กำลังรายงานความล้มเหลวของอาร์เรย์การโจมตี ฉันเริ่มสระผม ทุกอย่างเป็นของใหม่ในระบบมันขึ้นอยู่กับฮาร์ดไดรฟ์ใหม่อันดับสามมันเป็นไปไม่ได้เลยที่ไดรฟ์ใหม่ทั้งหมดที่ฉันซื้อมาผิดปกติ
ลองดูสิ่งที่ยังคงเป็นเรื่องปกติ ... สายเคเบิล โอเคลองมาลองเปลี่ยนสาย SATA นำฮาร์ดไดรฟ์กลับมายิ้มกับชายที่เคาน์เตอร์และบอกว่าฉันโชคร้ายจริงๆ เขาแทนที่ฮาร์ดไดรฟ์ ฉันกลับมาบ้านหนึ่งเดือนผ่านไปและหนึ่งในฮาร์ดไดรฟ์ล้มเหลวอีกครั้ง ฉันไม่ได้ล้อเล่น.
ฮาร์ดไดรฟ์ใหม่สองตัวล้มเหลว อาจเป็นข้อผิดพลาดในระบบปฏิบัติการ มาดูกันว่าเครื่องมือทดสอบของผู้ผลิตพูดอะไร ดาวน์โหลดเครื่องมือทดสอบเขียนลงซีดีรีบูตทิ้งการทดสอบฮาร์ดไดรฟ์ข้ามคืน การทดสอบบอกว่าไดรฟ์ผิดปกติและฉันควรสำรองข้อมูลทุกอย่างถ้าทำได้ ฉันไม่ทราบว่าเกิดอะไรขึ้น แต่ดูเหมือนว่าจะไม่เกิดปัญหาด้านซอฟต์แวร์
ฉันควรพูดถึงตอนนี้ว่าระบบทั้งหมดอยู่ในกล่องรองเท้า เนื่องจากมีสิ่งของมากมาย "สร้างเคสอิเกียของคุณเอง" ฉันจึงคิดว่าไม่ควรมีปัญหาในการขว้างสิ่งของใส่ในกล่อง กล่องระบายอากาศได้ดี แต่ฉันคิดว่าบางทีไดรฟ์อาจร้อนเกินไป ไม่มีคำตอบอื่นที่เป็นไปได้สำหรับเรื่องนี้ ดังนั้นฉันจึงนำฮาร์ดไดรฟ์กลับมาและได้รับการแทนที่ (เป็นครั้งที่ 3) และซื้อตู้แช่ฮาร์ดไดรฟ์
และตอนนี้ฉันได้ยินเสียงแห่งความหายนะแล้ว คลิกคลิก whizzzzzzzzz SSH เข้าไปในกล่อง:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg เอาท์พุท:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
สรุป:
- ไม่มีความเป็นไปได้ของความร้อนสูงเกินไป
- ไดรฟ์ล้มเหลว 6 ตัว 4 ตัวเป็นของใหม่ ฉันไม่แน่ใจว่าตอนนี้ต้นฉบับดั้งเดิมมีข้อบกพร่องหรือได้รับความทุกข์ทรมานจากสิ่งใหม่
- ไม่มีอะไรที่พบได้บ่อยในระบบนอกเหนือจากระบบปฏิบัติการซึ่งเป็น Ubuntu Karmic ตอนนี้ (เริ่มต้นด้วย Jaunty) ใหม่ MB, CPU ใหม่, RAM ใหม่, สาย SATA ใหม่
- ไม่ได้รูเล็ก ๆ ของฮาร์ดไดรฟ์ไม่ได้รับการคุ้มครอง
ฉันกำลังร้องไห้. จริงๆ. ฉันไม่มีใบหน้าที่จะกลับไปที่ร้านตอนนี้มันเป็นไปไม่ได้ที่ 4 ไดรฟ์จะล้มเหลวภายใน 4 เดือน
ความคิดเล็กน้อยที่ฉันคิด: เป็นไปได้หรือไม่ที่ฉันจะทำบางสิ่งบางอย่างเมื่อฉันแบ่งพาร์ติชันและซิงค์ไดรฟ์อีกครั้ง มันจะแย่ขนาดนั้นหรือเปล่าที่ทำให้ร่างกายทำลายไดรฟ์? (เนื่องจากผู้จำหน่ายระบุเครื่องมือบอกว่าไดรฟ์เสียหาย) ฉันทำการแบ่งพาร์ติชันด้วย fdisk และใช้ขนาดบล็อกเดียวกันสำหรับพาร์ติชั่น raid1 (ฉันตรวจสอบขนาดบล็อกที่แน่นอนด้วย fdisk -lu)
เป็นไปได้ไหมที่เคอร์เนล Linux หรือ mdadm หรือบางอย่างไม่สามารถใช้งานร่วมกับฮาร์ดไดรฟ์ยี่ห้อนี้ได้
เป็นไปได้หรือไม่ที่มันอาจเป็นกล่องรองเท้า? ลองวางไว้ที่อื่นไหม ตอนนี้อยู่ภายใต้ชั้นวางของดังนั้นความชื้นจึงไม่เป็นปัญหาเช่นกัน เป็นไปได้ไหมว่าเคสพีซีปกติจะแก้ปัญหาของฉัน (ฉันจะยิงตัวเอง)? พรุ่งนี้ฉันจะถ่ายรูป
ฉันแค่ถูกสาป?
ความช่วยเหลือหรือการเก็งกำไรใด ๆ ที่ชื่นชมอย่างมาก
แก้ไข : รางปลั๊กไฟได้รับการป้องกันแรงดันไฟฟ้าเกิน
แก้ไข 2 : ฉันย้ายไปมาระหว่าง 4 เดือนนี้ดังนั้นความเป็นไปได้ของการเกิดไฟฟ้า "สกปรก" ในทั้งสองแห่งต่ำมาก
แก้ไข 3 : ฉันได้ตรวจสอบแรงดันไฟฟ้าใน BIOS (ไม่สามารถยืมมัลติมิเตอร์ได้) และพวกเขาก็ดูเหมือนจะถูกต้องความแตกต่างที่ใหญ่ที่สุดคือใน 12V เพราะมันให้ 11.3 ฉันควรกังวลเกี่ยวกับเรื่องนี้หรือไม่?
แก้ไข 4 : ฉันใส่ PSU ของพีซีเดสก์ท็อปลงในเซิร์ฟเวอร์ BIOS รายงานการอ่านค่าแรงดันไฟฟ้าที่แม่นยำยิ่งขึ้นและยังสร้างอาร์เรย์ RAID 1 อีกครั้งซึ่งใช้เวลา 3-4 ชั่วโมงดังนั้นฉันจึงรู้สึกว่าเป็นบวก จะได้รับ PSU ใหม่ในวันพรุ่งนี้เพื่อทดสอบกับสิ่งนั้น นอกจากนี้การแนบรูปภาพเกี่ยวกับกล่อง: (ไม่สนใจไดรฟ์ที่ 3)