ข้อผิดพลาดของดิสก์เหล่านี้ใน syslog หมายถึงอะไร


13

ฉันเพิ่งรีบูตเซิร์ฟเวอร์การมอนิเตอร์ของฉันเป็นครั้งแรกและการเริ่มต้นดังต่อไปนี้จะเต็มหน้าจอ:

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

ฉันรู้แล้วว่าฉันต้องเปลี่ยน HDD (ค่าใช้จ่ายของข้อมูล> ราคา HDD) แต่ฉันต้องการทราบความรู้ของตัวเองว่ามีอะไรผิดปกติจริง

ใช่เซิร์ฟเวอร์การตรวจสอบของเราไม่มี RAID เพียง HDD เดียว ... อย่ามองฉัน ...


3
"ใช่เซิร์ฟเวอร์การตรวจสอบของเราไม่มี RAID เพียง HDD เดียว ... อย่ามองฉัน ... " - อย่ามองมากเกินไปถ้าคุณมีการสำรองข้อมูลที่ดี
Janne Pikkarainen

2
ฉันหวังว่าคุณจะมีการสำรองข้อมูลที่ดี คุณอาจจะต้องการพวกเขา หากเซิร์ฟเวอร์การมอนิเตอร์มีความสำคัญเช่นนั้นค่าใช้จ่ายในการเปลี่ยนฮาร์ดไดรฟ์ด้วยอย่างน้อย RAID 1 น่าจะสมเหตุสมผลได้ง่าย
Michael Hampton

1
แม้ว่าคุณจะไม่มี RAID คุณควรตรวจสอบข้อมูล SMART สำหรับดิสก์ทั้งหมดของคุณ
James Youngman

คำตอบ:


16
sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

ดูเหมือนว่าไดรฟ์มีเซกเตอร์เสียและไม่สามารถจัดสรรใหม่ได้ (อาจเป็นเพราะเซกเตอร์สำรองหมด) ผลลัพธ์ของsmartctl -a /dev/sdaจะให้ข้อมูลเพิ่มเติมเกี่ยวกับสถานะของไดรฟ์


ฉันเคยเห็นข้อผิดพลาดนี้เกิดขึ้นในการอ่านง่าย ๆ (จากพูดพยายามcpไฟล์) ในกรณีนั้นความเสียหายของไฟล์ในส่วนที่ไม่ดีนั้นรุนแรงพอที่จะไม่สามารถสร้างข้อมูลใหม่ได้ดังนั้นความล้มเหลวในการ "จัดสรรคืน" จึงเกิดขึ้นจริง ๆ ก่อนที่จะพยายามจัดเก็บข้อมูลที่อื่น
Randall

12

Lassie กำลังพูดว่า "arf! arf arf! arf!" ซึ่งเป็นใบ้เพราะไม่มีส่วนเกี่ยวข้องกับ Timmy หรือ Wells นี่คือเหตุผลที่คุณไม่รับคำแนะนำดูแลระบบจากสุนัข

ไดรฟ์กำลังให้คุณ "ข้อผิดพลาดการอ่านที่ไม่สามารถกู้คืนได้ - การจัดสรรอัตโนมัติใหม่ล้มเหลว" ซึ่งโดยทั่วไปหมายถึง "ฉันพยายามอ่านฉันล้มเหลวฉันพยายามกู้คืน (อ่านภาคอีกสองสามครั้งใช้ ECC บางส่วนและย้ายข้อมูลไป ภาคที่ไม่เสียหาย) และใช้งานไม่ได้ " นี่อาจหมายถึง (ตามที่ mgorven พูด) ว่าดิสก์นั้นเต็มไปด้วยเซกเตอร์ที่ถูกจัดสรรใหม่แล้วเพราะดิสก์กำลังจะตายไประยะหนึ่งแล้ว แต่ฉันก็คิดว่ามันอาจหมายความว่ามันไม่สามารถกู้คืนเซกเตอร์ทั้งหมดได้ + ECC ไม่สามารถบล็อกข้อมูลที่ดูดี)

ไม่ว่าจะด้วยวิธีใดก็ตามไดรฟ์แคคตัสมากมาก ข้อมูลของคุณไม่ได้ดูดีจริง ๆ เช่นกัน


1
ถูกต้อง - ข้อมูล SMART อาจบอกคุณได้ว่ามีการจัดสรรหลายส่วนใหม่แล้ว
James Youngman

3

ฉันรู้ว่ามันเก่า แต่ในกรณีที่มีคนยังอ่านโพสต์นี้: "DD จะพยายามอ่านเซกเตอร์ที่เสียหาย" - gddrescue มีประโยชน์ที่นี่ มันไม่ได้ (ก็โอเค แต่เพียงครั้งเดียวเท่านั้น)


1

ทำให้ภาพ DD หรือ rsync คัดลอกดิสก์ที่ตอนนี้ ++ ถ้าคุณมีการสำรองข้อมูลเต็มรูปแบบที่ช่วยให้สะดวกในการเรียกคืนจากกล่องที่ และเริ่มมองหาดิสก์ที่เข้ากันได้และใช้งานได้

BTW, UDMA / 66, นั่นคือดิสก์ PATA อายุสิบปีหรือไม่?


2
DD จะพยายามอ่านเซกเตอร์ที่ใช้งานไม่ได้ด้วย
Hennes

3
มักจะไม่ให้ผลที่ดีที่สุด ... มีรุ่นขั้นสูงที่เรียกว่า ddrescue พร้อมการควบคุมพฤติกรรมการผิดพลาดได้ดีขึ้น
rackandboneman

มีอยู่เสมอconv=noerrorแต่ฉันไม่แน่ใจว่าทำงานได้ดีกับสิ่งที่จะกลายเป็นระบบไฟล์ที่เสียหายได้ อาจไม่เลวร้ายยิ่งกว่าการอ่านไฟล์ข้อมูลด้วยไฟล์ แต่แน่นอนว่าจะไม่ดีไปกว่านี้ ...
CVn

0

ดังที่ได้กล่าวไปแล้วอาจหมายถึงว่าไดรฟ์ของคุณใกล้หมดอายุการใช้งาน แต่ไม่จำเป็นต้องใช้ในทันที - คุณควรเรียกใช้fsckบนดิสก์และพยายามซ่อมแซมข้อผิดพลาด (ดูsmartmontools wikiสำหรับคำแนะนำในการแก้ไขบล็อกที่ไม่ดี) และดิสก์อาจตกลง ในขณะที่อีกต่อไป

แต่คุณควรเริ่มต้นทำงานsmartd(ซึ่งเป็นส่วนหนึ่งของsmartmontoolsแพ็คเกจ) และคอยดูรายงานและ / หรือตั้งค่าการแจ้งเตือนทางอีเมล นอกจากนี้คุณสามารถเพิ่มการแจ้งเตือนที่กำหนดเองของคุณเองโดยการสร้างสคริปต์ (ใน/etc/smartmontools/run.d/) smartd-runnerที่เรียกโดย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.