เซิร์ฟเวอร์ Xen ของฉันคือ openSUSE 11.1 พร้อม open-iscsi ไปยังคลัสเตอร์ iSCSI SAN ของเรา โมดูล SAN อยู่ในกลุ่ม IP failover หลัง IP เสมือนที่ผู้เริ่มต้นเชื่อมต่อ
ในกรณีที่เซิร์ฟเวอร์ SAN หลักหยุดทำงานรองจะหยิบบทบาทการให้บริการเป็นเป้าหมาย ทั้งหมดนี้จัดการโดยซอฟต์แวร์ LeftHand SAN / iQ และทำงานได้ดีในสถานการณ์ส่วนใหญ่
ปัญหาที่ฉันมีคือบางครั้ง Xen DomUs ของฉันบางคนจะมีระบบไฟล์รูทของพวกเขาอ่านได้อย่างเดียวหลังจากที่ IP ล้มเหลว มันไม่สอดคล้องกันและเกิดขึ้นกับเซตย่อยที่แตกต่างกันในแต่ละครั้งที่เกิดความล้มเหลว พวกเขากำลังเรียกใช้อิมเมจซอฟต์แวร์ openSUSE 11.1 เดียวกันทั้งหมด
ระบบไฟล์รูทสำหรับแต่ละ DomU ถูกเมาท์โดย open-iscsi ใน Dom0 จากนั้น Xen ใช้ไดรเวอร์อุปกรณ์บล็อกมาตรฐานเพื่อแสดงมันไปยัง DomU
อาการที่แน่นอนก็คือในฐานะที่รูทขณะที่ทำงานอยู่touch /test
จะส่งกลับข้อผิดพลาด "ระบบไฟล์แบบอ่านอย่างเดียว" อย่างไรก็ตามเอาต์พุตของmount
แสดงว่าถูกเมานต์อ่าน - เขียน แน่นอนว่า I / O อื่น ๆ ทั้งหมดใน domU ก็ล้มเหลวเช่นกันในขณะนี้ดังนั้นเครื่องจึงทำงานหนัก เพียงเริ่มต้นใหม่ด้วยxm
จาก Dom0 โดยไม่ต้องเชื่อมต่อเซสชัน iSCSI อีกครั้งทำให้ทุกอย่างทำงานได้อีกครั้ง
ที่ด้าน Dom0 ข้อความ syslog ในระหว่างการล้มเหลวมีลักษณะดังนี้:
kernel: connection1:0: iscsi: detected conn error (1011)
iscsid: Kernel reported iSCSI connection 1:0 error (1011) state (3)
iscsid: connection1:0 is operational after recovery (1 attempts)
ฉันมีเวลายากที่จะหาว่าเลเยอร์ใดที่จะแก้ไขปัญหานี้มันเป็นสิ่งที่อยู่ในเคอร์เนล DomU หรือไม่? หรือที่ระดับ Dom0 หรือ Xen ฉันคิดว่ามีบางพารามิเตอร์ที่ต้องการปรับแต่งเพื่อเพิ่มการหมดเวลาบางประเภท แต่ฉันไม่แน่ใจว่าจะดูที่ไหน
ฉันไม่คิดว่ามันเป็นปัญหาของ open-iscsi เพียงเพราะอุปกรณ์บล็อกที่เชื่อมต่อนั้นยังคงสามารถอ่านและเขียนได้จาก Dom0