เรามีกลุ่มผู้ใช้ปลายทางที่ติดตั้ง Linux, เว็บเซิร์ฟเวอร์ในพื้นที่และติดตั้ง PostgreSQL เรากำลังรับรายงานภาคสนามของเครื่องที่มีปัญหาและเมื่อตรวจสอบดูเหมือนว่าไฟฟ้าดับและตอนนี้มีบางอย่างผิดปกติกับดิสก์
ฉันสันนิษฐานว่าปัญหาจะเกิดขึ้นกับฐานข้อมูลที่เสียหายหรือไฟล์ที่มีการเปลี่ยนแปลงเมื่อเร็ว ๆ นี้มีสัญญาณรบกวน แต่มีรายงานแปลก ๆ อื่น ๆ
- ไฟล์ที่มีสิทธิ์ที่ไม่ถูกต้อง
- ไฟล์ที่กลายเป็นไดเร็กทอรี (ตัวอย่างเช่น
index.php
ตอนนี้เป็นไดเร็กทอรี) - ไดเรกทอรีที่เป็นไฟล์
- ไฟล์ที่มีข้อมูลที่มีสัญญาณรบกวน
มีปัญหาเกี่ยวกับฐานข้อมูลที่ได้รับความเสียหาย แต่นั่นเป็นสิ่งที่ฉันคาดหวัง สิ่งที่ฉันประหลาดใจมากขึ้นคือปัญหาพื้นฐานของระบบไฟล์ - ตัวอย่างเช่นการอนุญาตหรือการเปลี่ยนไฟล์เป็นไดเรกทอรี ปัญหายังเกิดขึ้นในไฟล์ที่ไม่ได้เปลี่ยนเมื่อเร็ว ๆ นี้ (ตัวอย่างเช่นรหัสซอฟต์แวร์และการกำหนดค่า)
นี่เป็น "ปกติ" สำหรับความเสียหายของ SSD หรือไม่ เดิมเราคิดว่ามันเกิดขึ้นกับ SSD ราคาถูกบางตัว แต่เรามีสิ่งนี้เกิดขึ้นกับแบรนด์เนม (ระดับผู้บริโภค)
FWIW เราไม่ได้ทำ autofsck ในการบูตที่ไม่สะอาด (ไม่รู้ว่าทำไม - ฉันใหม่) เรามีการติดตั้ง UPS ในบางสถานที่ แต่บางครั้งก็ไม่ได้ทำอย่างถูกต้อง ฯลฯ สิ่งนี้ควรได้รับการแก้ไข แต่ถึงอย่างนั้นคนก็สามารถปิดเครื่องได้อย่างไม่สะอาด ฯลฯ - ดังนั้นจึงไม่ใช่เรื่องโง่ ระบบไฟล์คือ ext4
คำถาม: มีอะไรที่เราสามารถทำได้เพื่อบรรเทาปัญหาในระดับระบบหรือไม่?
ฉันพบบทความบางบทความที่อ้างถึงการปิดแคชของฮาร์ดแวร์หรือติดตั้งไดรฟ์ในโหมดซิงค์ แต่ฉันไม่แน่ใจว่าจะช่วยได้ในกรณีนี้หรือไม่ ฉันยังอ่านข้อมูลอ้างอิงเกี่ยวกับการติดตั้งระบบไฟล์ในโหมดอ่านอย่างเดียว เราทำไม่ได้เพราะเราต้องเขียน แต่เราสามารถสร้างพาร์ติชันแบบอ่านอย่างเดียวสำหรับรหัสและการกำหนดค่าหากสิ่งนั้นจะช่วยได้
นี่คือตัวอย่างของไดรฟ์sudo hdparm -i /dev/sda1
:
Model=KINGSTON RBU-SMS151S364GG, FwRev=S9FM02.5, SerialNo=<deleted>
Config={ Fixed }
RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=0
BuffType=unknown, BuffSize=unknown, MaxMultSect=16, MultSect=16
CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=125045424
IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
PIO modes: pio0 pio3 pio4
DMA modes: mdma0 mdma1 mdma2
UDMA modes: udma0 udma1 udma2 udma3 udma4 udma5 *udma6
AdvancedPM=yes: disabled (255) WriteCache=enabled
Drive conforms to: Unspecified: ATA/ATAPI-3,4,5,6,7
WriteCache=enabled
. นี่เป็นปัญหาใหญ่ แคชการเขียนไม่ควรเปิดใช้งานบนฮาร์ดไดรฟ์ที่มีฐานข้อมูล ยกตัวอย่างเช่นผู้ค้าบางรายของ HP ป้องกันการเปิดใช้งานการแคชการเขียนฮาร์ดไดรฟ์ด้วยเหตุผลอย่างนี้