ยังคงได้รับ aacraid: อะแดปเตอร์โฮสต์ยกเลิกข้อผิดพลาดคำขอหลังจากทำตามขั้นตอนที่แนะนำ


9

ฉันได้รับ aacraid ที่น่าอับอาย: ข้อผิดพลาดในการยกเลิกอะแดปเตอร์โฮสต์กับ Adaptec RAID Controller ใหม่ภายใต้ I / O ระดับสูง ฉันได้อ่านฟอรัมต่าง ๆ แล้วแม้แต่Adaptecsที่การตั้งค่า / sys / block / sdX / อุปกรณ์ / ไทม์เอาต์เป็น 45 จะแก้ไขปัญหานี้ อย่างไรก็ตามฉันใช้ Ubuntu Server 12.04 ซึ่งมีค่านี้อยู่ที่ 45 โดยปริยาย ฉันยังลองข้อเสนอแนะต่อไปซึ่งเป็นการอัพเดตไบออสของ mobo เป็นรุ่นล่าสุดซึ่งฉันทำ

ฉันไม่แน่ใจว่ามีคนอื่นที่ใช้งานข้อผิดพลาด "aacraid: Host adapter abort request" ก่อนหน้านี้แม้หลังจากทำตามขั้นตอนเหล่านี้แล้ว

นี่คือสิ่งที่ฉันเห็นใน syslog ของฉัน:

kernel: [ 5493.523282] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523309] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523375] aacraid: Host adapter reset request. SCSI hang ?

นี่เป็นชื่อของฉัน -a

Linux server 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

ขอบคุณทุกคน

จิม

คำตอบ:


1

ในกรณีที่คุณยังไม่สามารถแก้ไขปัญหานี้ได้ฉันเพิ่งต่อสู้กับปัญหาเดียวกันซึ่งเพิ่มขึ้นอย่างรวดเร็วไปยังอาร์เรย์ที่แขวนอยู่ทุก 5 นาทีเป็นเวลาสองสามนาทีเนื่องจาก IO เพิ่มขึ้น Ubuntu โดยค่าเริ่มต้นใช้ตัวกำหนดตารางเวลา CFQ ซึ่งไม่เหมาะสำหรับ RAID แบบฮาร์ดแวร์ สลับตัวกำหนดตารางเวลาเป็น noop ด้วย:

echo noop > /sys/block/<blockdevice>/queue/scheduler

ส่วนตัวฉันติดอยู่กับเคอร์เนลเก่า แต่ฉันบอกว่ายังอัพเกรดเป็นไดรเวอร์ aacraid ล่าสุดควรแก้ไขปัญหา - ไม่สามารถตรวจสอบว่าแม้ว่า แต่ถึงอย่างนั้นก็ให้เปลี่ยนเป็น noop เนื่องจาก sysfs ไม่ถาวรดังนั้นคุณอาจต้องการตั้งตัวกำหนดตารางเวลาใน/etc/rc.localหรือใช้elevator=พารามิเตอร์การบูต

ฉันให้ความสนใจกับพารามิเตอร์เคอร์เนลอื่น ๆ รวมถึงการตั้งค่าบน Ubuntu เป็นค่าเริ่มต้นที่เหมาะสมสำหรับฮาร์ดแวร์ทั่วไปส่วนใหญ่ แต่เซิร์ฟเวอร์เวลาส่วนใหญ่จำเป็นต้องได้รับการดูแลเป็นพิเศษไม่ว่าคุณจะอยู่ที่ใด


1

หากคอนโทรลเลอร์ Adaptec RAID ของคุณมีเฟิร์มแวร์ / BIOS ของตัวเองคุณอาจต้องอัปเดต เราประสบปัญหาในช่วง I / O สูงและได้รับ "aacraid: Host adapter ยกเลิกคำขอ" และเห็นเฟิร์มแวร์รุ่นใหม่กว่ารุ่นปัจจุบันของเราซึ่งกล่าวว่า http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b18937_asm-18837.pdf

บันทึกย่อประจำรุ่นด้านบนแสดงรายการรุ่น Adaptec ต่อไปนี้: 2045, 2405, 2405Q, 2805, 5085, 5405, 5405Z, 5445, 5445Z, 5805, 5805Q, 5805Z, 5805ZQ, 51245, 51645, 52445)

นอกจากนี้เรายังได้รับสายบันทึกเช่น:

sd 0:0:0:0: timing out command, waited 360s

และ

Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT,SUGGEST_OK

ในการค้นหาออนไลน์เพื่อดูคนอื่นที่มีปัญหาคล้ายกันเราพบการ์ดอีกชุดหนึ่งซึ่งมีปัญหาต่อไปนี้ที่แก้ไขโดยเฟิร์มแวร์ซึ่งอาจเกี่ยวข้อง:

  • "แก้ไขปัญหาที่อาจส่งผลให้เกิดข้อผิดพลาดของ Host IO การเปลี่ยนแปลงสถานะของโวลุ่ม RAID ระบบที่ไม่ตอบสนองและการรีบูตระบบหรือรีเซ็ตในกรณีที่ไม่ค่อยพบซึ่งมีการโหลด IO สูงมากให้บริการเกือบทั้งหมดจากแคชคอนโทรลเลอร์" http: //download.adaptec .com / ไฟล์ PDF / README / relnotes_arc_fw-b30862_msm-20942.pdf
  • "แก้ไขปัญหาที่ I / O ช้าและในที่สุดก็ส่งผลให้ตัวควบคุมรีเซ็ต" http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b30612_msm-20618.pdf

ทั้งสองข้างต้นใช้กับ Adaptec รุ่น 7805, 7805Q, 78165, 71605E, 71605, 71605Q, 71685, 72405, 8805, 8885, 8885Q และ 81605ZQ


ฉันคิดว่าคอนโทรลเลอร์ของฉันจะหยุดทำงานเมื่อฉันใช้arcconfยูทิลิตีบรรทัดคำสั่งเพื่อค้นหาสถานะของอาร์เรย์ซึ่งเป็นส่วนหนึ่งของสคริปต์ติดตาม Nagios ปกติของเรา ตามที่ระบุในหมายเหตุเฟิร์มแวร์การใช้arcconfอาจทำให้ตัวควบคุมหยุดทำงาน
Stefan Lasiewski
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.