การถอดรหัสข้อความ syslog mpt2sas อย่างต่อเนื่อง

15

สรุป

ฉันได้รับข้อความที่เป็นความลับเหล่านี้ใน syslog ตั้งแต่ฉันติดตั้งฮาร์ดแวร์ใหม่และฉันไม่สามารถเข้าใจได้ว่าปัญหาคืออะไรถ้ามันร้ายแรงหรือจะทำอย่างไรกับมัน

พวกเขามาจาก SATA HBA ใหม่และพวกเขาทำตามรูปแบบ ฉันจะได้รับข้อความแรกหลายข้อความจากนั้นตามด้วยข้อความที่สองในอีก 5-30 วินาทีต่อมา พวกเขามาใน blobs ที่เข้าสู่ระบบในวินาทีเดียวกันและจำนวนที่แน่นอนของแต่ละแตกต่างกันระหว่างประมาณ 2 และ 35 มันอาจเป็นนาทีหรือชั่วโมงระหว่างลักษณะของรายการ

ตัวอย่างของข้อความทั้งสอง:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

เป็น 0x31120303 เสมอตามด้วย 0x31110d01

mpt2sas เป็นไดรเวอร์สำหรับอะแดปเตอร์บัสโฮสต์ SATA ที่ฉันใช้ แต่เนื้อหาข้อผิดพลาดนั้นมีความลับมากเกินไป มันไม่ได้บอกฉันว่าปัญหาคืออะไรดิสก์หรือพอร์ตมันอยู่กับหรือรุนแรงแค่ไหน

ฮาร์ดแวร์

Supermicro X9SCLพร้อมXeon E3-1220และ 8GB ของ RAM

Supermicro ที่อิง LSI SAS2008 AOC-USAS2-L8I SAS / SATA HBA เชื่อมต่อกับ Supermicro CSE-M35T-1Bชุดถาดดิสก์ มันมี Western Digital WD30EZRXสามตัวและสองSegate ST3000DM001เสียบอยู่ ไดรฟ์ 3TB ทั้งหมด (จริง ๆ แล้วมีจำนวนเซกเตอร์เหมือนกัน) ไม่มีตัวขยายพอร์ตที่ใช้งานอยู่

HBA, ถาดดิสก์และ 4 ไดรฟ์เป็นของใหม่ หนึ่งใน WD30EZRXes ได้รับในเดือนที่ผ่านมาไม่มีปัญหากับมัน หากเชื่อมต่อกับคอนโทรลเลอร์ Intel SATA ในตัวก่อนหน้านี้ให้ย้ายไปยังช่องไดรฟ์ด้วยการตั้งค่าใหม่นี้

มีปัญหากับ HBA จำเป็นต้องรีเซ็ตบ่อยครั้งและรับประสิทธิภาพที่แย่มาก อัปเดตเฟิร์มแวร์ / ไบออสเป็น "ระยะ 12" รุ่นล่าสุดพร้อมใช้งานจาก Supermicro และเปลี่ยนประเภทเป็น IT (เช่น passthrough จาก IR สำหรับการโจมตีแบบรวมตั้งแต่ฉันจะใช้การจู่โจมซอฟต์แวร์ทั้งหมด): 2008IT12.FW การอัปเดตนั้นจะแก้ไขปัญหาที่เกิดขึ้นในตอนต้นทั้งหมดและฉันไม่ได้รับข้อความข้างต้นจนกระทั่งภายหลัง (ดูด้านล่าง)

สี่ดิสก์แรกที่ฉันเพิ่มมีอยู่ในพอร์ต SFF-8087 แรก (แยกเป็น 4 สาย SATA) ดิสก์ล่าสุดที่ฉันเพิ่มอยู่บนพอร์ตอื่นหากเป็นเช่นนั้น

ดิสก์อื่นในระบบประกอบด้วยระบบปฏิบัติการและเป็น Intel 80GB SSD รุ่นเก่าที่ต่อเข้ากับคอนโทรลเลอร์ SATA ในตัว

ซอฟต์แวร์

Ubuntu 11.10 (oneiric) Linux 3.0.0-14-server x86_64 การใช้ไดรเวอร์ mpt2sas ที่มาพร้อมกับระบบปฏิบัติการ

กำลังพยายามสร้างอาร์เรย์ RAID6 โดยใช้ Linux md กับดิสก์ห้าตัวนั้น เริ่มต้นด้วยอาร์เรย์ที่เสื่อมโทรมเป็น 3 ดิสก์ทั้งสอง Segates และหนึ่งในไดรฟ์ WD ใหม่ นี่เป็นไปอย่างรวดเร็วและไปได้ดีมากไม่มีข้อความในบันทึกหลังจากฉันอัปเดตเฟิร์มแวร์ ในขณะเดียวกันฉันยังคงใช้ดิสก์ WD เก่าบนพอร์ต 0 ของคอนโทรลเลอร์เดียวกัน

เพิ่มดิสก์ WD ใหม่อีกตัวลงในอาร์เรย์ เริ่มการสร้างใหม่และตอนนี้ฉันได้รับข้อความเหล่านั้นใน syslog เป็นระยะ ฉันไม่แน่ใจว่าควรจะใช้เวลานานเท่าใดในการเพิ่มดิสก์ลงในอาร์เรย์ แต่ช่วงเวลาโดยประมาณ (cat / proc / mdstat) มีช่วงตั้งแต่พันถึงสิบหมื่นนาทีนานกว่าดิสก์สามแผ่นแรก ฉันเข้าใจว่าดิสก์ WD นั้นช้ากว่ามาก ฉันมีรูปแบบที่แตกต่างกันเพื่อลดโอกาสของความล้มเหลวของดิสก์หลายตัวและเป็นรุ่นที่ถูกที่สุด 3TB

หมายเหตุ

SMART ไม่ได้รายงานปัญหาใด ๆ กับดิสก์ใด ๆ ไม่มีข้อผิดพลาดบันทึกในดิสก์ใด ๆ และไม่มีสถิติความล้มเหลวใด ๆ ใกล้เกณฑ์

ข้อความที่บันทึกเริ่มปรากฏเมื่อฉันเพิ่มดิสก์ล่าสุดซึ่งแสดงว่าอาจมีปัญหา แต่ฉันไม่มีอะไรชี้ไปที่

ฉันค้นหาไฟล์ส่วนหัวที่ดูเหมือนจะสอดคล้องกับข้อความบันทึกจากไดรเวอร์นี้ ข้อความแรกดูเหมือนจะเป็นการยกเลิก (รหัส 12) สำหรับ "รหัสย่อย" 0303 ที่ไม่มีอยู่ในรายการ ข้อความที่สองเป็นการรีเซ็ต (รหัส 11) ด้วยเหตุผลที่ไม่ชัดเจน ถ้าฉันสามารถระบุได้ว่า 0303 และ 0d01 หมายถึงอะไรมันจะมีประโยชน์จริงๆ

ฉันรู้ว่า 4 ดิสก์ใน 5 ดิสก์ RAID6 เป็นอาร์เรย์ที่ไม่สมบูรณ์ ฉันวางแผนที่จะคัดลอกเนื้อหาของดิสก์เก่าไปยังอาร์เรย์เมื่อเสร็จสิ้นการรวมดิสก์ที่ 4 แล้วเพิ่มดิสก์เก่าลงในอาร์เรย์เช่นกัน

— Chris Smith
แหล่งที่มา

5

โอกาสที่ดีที่สุดของคุณคือปัญหาฮาร์ดแวร์ระหว่างดิสก์ของคุณและมากถึงและรวมถึงคอนโทรลเลอร์ RAID ของคุณ ฉันขอแนะนำให้ลอง:

เรียกใช้เครื่องมือวินิจฉัยใด ๆ จากผู้ขาย / ถ้ามี
ตรวจสอบ / เปลี่ยนที่นั่ง / เปลี่ยนสายเคเบิล
ถอดส่วนประกอบของฮาร์ดแวร์ออกและสลับฮาร์ดแวร์ในสายโซ่ที่เชื่อมต่อดิสก์กับตัวควบคุมการจู่โจมของคุณรวมถึงตัวควบคุม (เช่นสำหรับคุณลองสิ่งอื่นนอกเหนือจากการจู่โจมแบบรวมของเมนบอร์ด)

ฉันมีหนึ่งในสองของ Dell PowerEdge R515 ที่เหมือนกันที่ให้ข้อความที่คล้ายกันมาก (บันทึกเป็นระยะเติมข้อความ mpt2sas0 แม้ว่าฉันจะไม่มีรหัสตัวเลขที่แน่นอน) การวินิจฉัยที่สามารถบูตได้ของ Dell เองเลือกสิ่งเหล่านี้เป็น "ข้อผิดพลาดของฮาร์ดแวร์" และการเปลี่ยนแบ็กเพลน RAID sas แก้ปัญหาได้

เมื่อฉันตรวจสอบฉันไม่สามารถค้นหาทรัพยากรที่ครอบคลุมของรหัสข้อผิดพลาด mpt2sas0 ที่หลากหลาย ฉันสงสัยว่าพวกเขาอาจเป็นผู้จำหน่ายเฉพาะฮาร์ดแวร์ (คนที่รู้เพิ่มเติมเกี่ยวกับ SAS ต้องยืนยันหรือปฏิเสธสิ่งนี้) ดังนั้นรหัสข้อผิดพลาดของคุณอาจหมายถึงสิ่งที่แตกต่างกันอย่างกว้างขวาง แต่ถ้า SMART สะอาดแล้วก็ยากที่จะจินตนาการถึงเหตุผลที่ดีอื่น ๆ สำหรับ mpt2sas0 ในการรายงานรหัสข้อผิดพลาด

ข้อผิดพลาดเหล่านี้อาจร้ายแรงมาก ดูเหมือนว่า R515 ของฉันจะทำงานได้ดีกับข้อความเหล่านี้เป็นเวลาหนึ่งสัปดาห์โดยมีซอฟต์แวร์ Ubuntu Linux 12 ดิสก์จำนวน 6 ดิสก์ แต่จากนั้นก็นำดิสก์ทั้ง 12 แผ่นออกจากอาร์เรย์อย่างไม่ถูกต้อง (!)

ในกรณีของฉันสมาร์ทสำหรับดิสก์ทั้งหมดก็สะอาดอย่างสมบูรณ์ การตรวจสอบที่ดีคือการทดสอบการวินิจฉัยสมาร์ทด้วยตนเอง: แล้วผลการตรวจสอบเกี่ยวกับวันที่ในภายหลังด้วยsmartctl -t long /dev/sdX smartctl -l selftest /dev/sdXหากทั้งหมดเป็นปกติการทดสอบควรพูดCompletedและLBA_first_errคอลัมน์ควรว่างเปล่า

— Rickard Armiento
แหล่งที่มา

หมายเหตุ: คอนโทรลเลอร์ RAID (HBA จริงๆ) เป็นการ์ดแยกต่างหากอยู่แล้ว คอนโทรลเลอร์ SATA ออนบอร์ดทำงานได้ดี ฉันมีสายเคเบิล SFF-8087 สำหรับเปลี่ยนตามสั่งควรมาที่นี่ในวันพรุ่งนี้ นั่นเป็นข้อสงสัยอันดับต้น ๆ ของฉันในตอนนี้

— Chris Smith

สายเคเบิลไม่ดีเป็นปัญหา! ฉันแทนที่ทั้งสองนั้น (สองพอร์ต SFF) ด้วยสายเคเบิลคุณภาพสูงกว่าและไม่มีปัญหาใด ๆ ! ฉันยอมรับคำตอบของคุณเนื่องจากยาวที่สุดและแนะนำสายเคเบิลที่ไม่ดี ป.ล. ฉันทำแบบทดสอบ SMART ที่ยาวนาน ไม่มีปัญหากับดิสก์ใด ๆ

— Chris Smith

ดีใจที่ได้ยินว่าคุณพบปัญหา ขอบคุณสำหรับการยอมรับ

— Rickard Armiento

สำหรับฉันมันแปลกมากที่ฉันพบปัญหานี้มาก่อนในกรณีของแพลตฟอร์ม Dell PowerEdge ผลเดียวกันเป็นปัญหากับสาย ...

— Mazeryt

3

ว้าวคนที่แข็งแกร่ง

ดูเหมือนว่านี่เป็นการระบุว่า 0x31120303 เป็นการรีเซ็ตบัสเนื่องจากอุปกรณ์ของคุณมีภาระมาก นอกจากนี้ยังบอกว่าคุณไม่จำเป็นต้องกังวลกับมัน (ฮ่าฮ่าใช่เลย)

สิ่งนี้บ่งชี้ว่าข้อความบันทึกเหล่านี้เกิดขึ้นเนื่องจากอุปกรณ์ตัวใดตัวหนึ่งของคุณใช้เวลานานเกินไปในการตอบกลับคำสั่ง สิ่งนี้บอกสิ่งเดียวกันและยังระบุว่าเกิดขึ้นภายใต้ภาระหนัก

แม้ว่านี่จะไม่ใช่คำตอบที่สมบูรณ์ แต่หวังว่าจะนำคุณไปสู่ทิศทางที่มีประโยชน์

— Michael Hampton
แหล่งที่มา

ฉันเห็นการโพสต์เหล่านั้น แต่ไม่สามารถหาข้อความที่แน่นอนได้รับ กลายเป็นสายเคเบิล SFF-8087- ที่แย่> ขอบคุณสำหรับความช่วยเหลือ!

— Chris Smith

0

ซึ่งหมายความว่าคุณมีข้อผิดพลาดบางอย่างบนดิสก์เป็นดิสก์ SATA ในตัวควบคุม SAS จาก LSI และเนื่องจากข้อผิดพลาดคำขอที่ค้างอยู่ทั้งหมดถูกยกเลิก

ในกรณีส่วนใหญ่คุณมีข้อผิดพลาดปานกลางบนดิสก์ซึ่งเป็นทริกเกอร์สำหรับข้อผิดพลาดนี้ ข้อผิดพลาดนี้ไม่ได้หมายความว่ามีข้อผิดพลาดปานกลางและคุณจะต้องตรวจสอบบันทึกเพื่อหาคำแนะนำอื่น ๆ เพื่อค้นหาสาเหตุของความล้มเหลวของดิสก์ต้นฉบับ

รุ่นที่มีเนื้อหาเพิ่มเติมเล็กน้อยที่: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— บารุคแม้
แหล่งที่มา

โพสต์ที่น่าสนใจขอบคุณสำหรับการแบ่งปัน! SATA เป็นโปรโตคอลเส็งเคร็ง แต่ดิสก์มีราคาถูกและทำในสิ่งที่ฉันต้องการ ข้อความไม่ปรากฏขึ้นอีกครั้งเนื่องจากฉันเปลี่ยนสายเคเบิลที่ผิดพลาด

— Chris Smith

1

การถอดรหัส LSI Loginfo เพิ่มเติมสามารถพบได้ผ่านยูทิลิตี้ที่ฉันสร้างขึ้นเพื่อถอดรหัส: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch แม้