ก่อนอื่นฉันต้องถามว่า: "shutdowns"? คุณหมายความว่าเครื่องรีบูทหรือหยุดจริงหรือ หากหยุดทำงานอาจเป็นการกำหนดค่าผิดพลาด (อาจเป็นใน BIOS) หรือมีบางอย่างกำลังปิดเครื่อง (เช่น init 0)
หากไม่มีผู้สมัครหลักของคุณจะเป็น / var / log / syslog และ /var/log/kern.log เนื่องจากปัญหาของคุณดูเหมือนเคอร์เนลที่น่าตื่นตระหนกหรือความผิดพลาดของฮาร์ดแวร์ที่เกิดจากซอฟต์แวร์ แน่นอนถ้าเซิร์ฟเวอร์ใช้บริการบางอย่าง (เช่น Apache) อาจให้เบาะแสคุณ
บ่อยครั้งในสถานการณ์เช่นนี้มีการสร้างรายการบันทึก แต่เนื่องจากเครื่องมีปัญหาจึงไม่สามารถเขียนรายการลงดิสก์ได้ หากกล่องมีการกำหนดสีไว้โอกาสที่จะถูกเชื่อมต่อกับคอนโซลแบบอนุกรมโดยพันธมิตร colo นั่นคือที่ฉันจะดูว่าฉันไม่พบสิ่งที่น่าสงสัยในบันทึกข้างต้น
หากเครื่องไม่ได้เชื่อมต่อกับคอนโซลอนุกรมและไม่มีอะไรในบันทึกคุณอาจต้องการพิจารณาส่ง syslog ไปยังกล่องอื่นผ่านเครือข่าย บางทีอินเทอร์เฟซเครือข่ายอาจใช้เวลานานขึ้นเล็กน้อยและข้อความบันทึกสามารถอ่านได้บนเซิร์ฟเวอร์ syslog ดู rsyslog หรือ syslog-ng
UPDATE:
ฉันเห็นด้วยกับ @Johann ด้านล่าง สาเหตุที่เป็นไปได้มากที่สุดของการหยุดชะงักคือสุนัขเฝ้าบ้านอุณหภูมิโปรเซสเซอร์ ลองตรวจสอบ / พล็อตอุณหภูมิในกล่องโดยใช้ lmsensors หรือ smartctl (มักจะเป็นวิธีที่ง่ายที่สุด) ฉันพบว่า collectd นั้นหาตัวจับยากในการติดตามตัวแปรจำนวนมากตลอดเวลา มันสามารถทำได้ทั้ง IPMI และ lm-sensors และ hddtemp นอกจากนี้ BIOS บางตัว: อุณหภูมิบันทึกเหตุการณ์หยุดชะงัก