เรามีเซิร์ฟเวอร์ Proxmox สองสามเครื่อง (Proxmox ทำงานบน Debian) และประมาณเดือนละครั้งหนึ่งในนั้นจะมีเคอร์เนลที่ตื่นตระหนกและล็อค ส่วนที่แย่ที่สุดเกี่ยวกับการล็อกอัพเหล่านี้คือเมื่อเป็นเซิร์ฟเวอร์ที่อยู่บนสวิตช์ที่แยกต่างหากจากหลักของคลัสเตอร์เซิร์ฟเวอร์ Proxmox อื่น ๆ ทั้งหมดบนสวิตช์นั้นจะหยุดตอบสนองจนกว่าเราจะพบเซิร์ฟเวอร์ที่ล้มเหลวและรีบูต
เมื่อเรารายงานปัญหานี้ในฟอรัม Proxmox เราได้รับคำแนะนำให้อัปเกรดเป็น Proxmox 3.1 และเราอยู่ในขั้นตอนการทำเช่นนั้นในช่วงหลายเดือนที่ผ่านมา น่าเสียดายที่หนึ่งในเซิร์ฟเวอร์ที่เราโอนย้ายไป Proxmox 3.1 ถูกล็อกด้วยเคอร์เนลที่ตื่นตระหนกในวันศุกร์และเซิร์ฟเวอร์ Proxmox ทั้งหมดที่อยู่ในสวิตช์เดียวกันนั้นไม่สามารถเข้าถึงเครือข่ายได้จนกว่าเราจะสามารถค้นหาเซิร์ฟเวอร์ที่ล้มเหลวและรีบูตได้
เอาล่ะเซิร์ฟเวอร์ Proxmox เกือบทั้งหมดบนสวิตช์ ... ฉันพบว่ามันน่าสนใจที่เซิร์ฟเวอร์ Proxmox บนสวิตช์เดียวกันนั้นที่ยังคงอยู่บน Proxmox เวอร์ชัน 1.9 นั้นไม่ได้รับผลกระทบ
นี่เป็นภาพหน้าจอของคอนโซลของเซิร์ฟเวอร์ที่เสียหาย:
เมื่อเซิร์ฟเวอร์ล็อคส่วนที่เหลือของเซิร์ฟเวอร์ที่อยู่บนสวิตช์เดียวกันกับที่เรียกใช้ Proxmox 3.1 ก็ไม่สามารถเข้าถึงได้และได้พ่นสิ่งต่อไปนี้:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname -a เอาต์พุตของเซิร์ฟเวอร์ที่ถูกล็อค:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v เอาท์พุท (ตัวย่อ):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
สองคำถาม:
เบาะแสอะไรที่ทำให้เคอร์เนลตกใจ (ดูภาพด้านบน)?
เหตุใดเซิร์ฟเวอร์อื่น ๆ ที่ใช้สวิตช์และรุ่นเดียวกันของ Proxmox จึงถูกปิดการใช้งานเครือข่ายจนกว่าเซิร์ฟเวอร์ที่ถูกล็อคจะรีบูต? (หมายเหตุ: มีเซิร์ฟเวอร์อื่น ๆ บนสวิตช์เดียวกันกับที่รัน Proxmox เวอร์ชัน 1.9 ที่เก่ากว่าซึ่งไม่ได้รับผลกระทบนอกจากนี้ไม่มีเซิร์ฟเวอร์ Proxmox อื่นในคลัสเตอร์ 3.1 เดียวกันที่ได้รับผลกระทบที่ไม่ได้อยู่บนสวิตช์เดียวกันนั้น)
ขอบคุณล่วงหน้าสำหรับคำแนะนำใด ๆ