สรุป
ฉันได้รับข้อความที่เป็นความลับเหล่านี้ใน syslog ตั้งแต่ฉันติดตั้งฮาร์ดแวร์ใหม่และฉันไม่สามารถเข้าใจได้ว่าปัญหาคืออะไรถ้ามันร้ายแรงหรือจะทำอย่างไรกับมัน
พวกเขามาจาก SATA HBA ใหม่และพวกเขาทำตามรูปแบบ ฉันจะได้รับข้อความแรกหลายข้อความจากนั้นตามด้วยข้อความที่สองในอีก 5-30 วินาทีต่อมา พวกเขามาใน blobs ที่เข้าสู่ระบบในวินาทีเดียวกันและจำนวนที่แน่นอนของแต่ละแตกต่างกันระหว่างประมาณ 2 และ 35 มันอาจเป็นนาทีหรือชั่วโมงระหว่างลักษณะของรายการ
ตัวอย่างของข้อความทั้งสอง:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
เป็น 0x31120303 เสมอตามด้วย 0x31110d01
mpt2sas เป็นไดรเวอร์สำหรับอะแดปเตอร์บัสโฮสต์ SATA ที่ฉันใช้ แต่เนื้อหาข้อผิดพลาดนั้นมีความลับมากเกินไป มันไม่ได้บอกฉันว่าปัญหาคืออะไรดิสก์หรือพอร์ตมันอยู่กับหรือรุนแรงแค่ไหน
ฮาร์ดแวร์
Supermicro X9SCLพร้อมXeon E3-1220และ 8GB ของ RAM
Supermicro ที่อิง LSI SAS2008 AOC-USAS2-L8I SAS / SATA HBA เชื่อมต่อกับ Supermicro CSE-M35T-1Bชุดถาดดิสก์ มันมี Western Digital WD30EZRXสามตัวและสองSegate ST3000DM001เสียบอยู่ ไดรฟ์ 3TB ทั้งหมด (จริง ๆ แล้วมีจำนวนเซกเตอร์เหมือนกัน) ไม่มีตัวขยายพอร์ตที่ใช้งานอยู่
HBA, ถาดดิสก์และ 4 ไดรฟ์เป็นของใหม่ หนึ่งใน WD30EZRXes ได้รับในเดือนที่ผ่านมาไม่มีปัญหากับมัน หากเชื่อมต่อกับคอนโทรลเลอร์ Intel SATA ในตัวก่อนหน้านี้ให้ย้ายไปยังช่องไดรฟ์ด้วยการตั้งค่าใหม่นี้
มีปัญหากับ HBA จำเป็นต้องรีเซ็ตบ่อยครั้งและรับประสิทธิภาพที่แย่มาก อัปเดตเฟิร์มแวร์ / ไบออสเป็น "ระยะ 12" รุ่นล่าสุดพร้อมใช้งานจาก Supermicro และเปลี่ยนประเภทเป็น IT (เช่น passthrough จาก IR สำหรับการโจมตีแบบรวมตั้งแต่ฉันจะใช้การจู่โจมซอฟต์แวร์ทั้งหมด): 2008IT12.FW การอัปเดตนั้นจะแก้ไขปัญหาที่เกิดขึ้นในตอนต้นทั้งหมดและฉันไม่ได้รับข้อความข้างต้นจนกระทั่งภายหลัง (ดูด้านล่าง)
สี่ดิสก์แรกที่ฉันเพิ่มมีอยู่ในพอร์ต SFF-8087 แรก (แยกเป็น 4 สาย SATA) ดิสก์ล่าสุดที่ฉันเพิ่มอยู่บนพอร์ตอื่นหากเป็นเช่นนั้น
ดิสก์อื่นในระบบประกอบด้วยระบบปฏิบัติการและเป็น Intel 80GB SSD รุ่นเก่าที่ต่อเข้ากับคอนโทรลเลอร์ SATA ในตัว
ซอฟต์แวร์
Ubuntu 11.10 (oneiric) Linux 3.0.0-14-server x86_64 การใช้ไดรเวอร์ mpt2sas ที่มาพร้อมกับระบบปฏิบัติการ
กำลังพยายามสร้างอาร์เรย์ RAID6 โดยใช้ Linux md กับดิสก์ห้าตัวนั้น เริ่มต้นด้วยอาร์เรย์ที่เสื่อมโทรมเป็น 3 ดิสก์ทั้งสอง Segates และหนึ่งในไดรฟ์ WD ใหม่ นี่เป็นไปอย่างรวดเร็วและไปได้ดีมากไม่มีข้อความในบันทึกหลังจากฉันอัปเดตเฟิร์มแวร์ ในขณะเดียวกันฉันยังคงใช้ดิสก์ WD เก่าบนพอร์ต 0 ของคอนโทรลเลอร์เดียวกัน
เพิ่มดิสก์ WD ใหม่อีกตัวลงในอาร์เรย์ เริ่มการสร้างใหม่และตอนนี้ฉันได้รับข้อความเหล่านั้นใน syslog เป็นระยะ ฉันไม่แน่ใจว่าควรจะใช้เวลานานเท่าใดในการเพิ่มดิสก์ลงในอาร์เรย์ แต่ช่วงเวลาโดยประมาณ (cat / proc / mdstat) มีช่วงตั้งแต่พันถึงสิบหมื่นนาทีนานกว่าดิสก์สามแผ่นแรก ฉันเข้าใจว่าดิสก์ WD นั้นช้ากว่ามาก ฉันมีรูปแบบที่แตกต่างกันเพื่อลดโอกาสของความล้มเหลวของดิสก์หลายตัวและเป็นรุ่นที่ถูกที่สุด 3TB
หมายเหตุ
SMART ไม่ได้รายงานปัญหาใด ๆ กับดิสก์ใด ๆ ไม่มีข้อผิดพลาดบันทึกในดิสก์ใด ๆ และไม่มีสถิติความล้มเหลวใด ๆ ใกล้เกณฑ์
ข้อความที่บันทึกเริ่มปรากฏเมื่อฉันเพิ่มดิสก์ล่าสุดซึ่งแสดงว่าอาจมีปัญหา แต่ฉันไม่มีอะไรชี้ไปที่
ฉันค้นหาไฟล์ส่วนหัวที่ดูเหมือนจะสอดคล้องกับข้อความบันทึกจากไดรเวอร์นี้ ข้อความแรกดูเหมือนจะเป็นการยกเลิก (รหัส 12) สำหรับ "รหัสย่อย" 0303 ที่ไม่มีอยู่ในรายการ ข้อความที่สองเป็นการรีเซ็ต (รหัส 11) ด้วยเหตุผลที่ไม่ชัดเจน ถ้าฉันสามารถระบุได้ว่า 0303 และ 0d01 หมายถึงอะไรมันจะมีประโยชน์จริงๆ
ฉันรู้ว่า 4 ดิสก์ใน 5 ดิสก์ RAID6 เป็นอาร์เรย์ที่ไม่สมบูรณ์ ฉันวางแผนที่จะคัดลอกเนื้อหาของดิสก์เก่าไปยังอาร์เรย์เมื่อเสร็จสิ้นการรวมดิสก์ที่ 4 แล้วเพิ่มดิสก์เก่าลงในอาร์เรย์เช่นกัน