วิธีการตรวจสอบเซิร์ฟเวอร์ลินุกซ์ที่ไม่คาดคิดปิดตัวลง?


16

ในเซิร์ฟเวอร์ Xeon 55XX ใหม่ที่มี 4xSSD ที่ raid 10 กับ Debian 6 ฉันได้พบกับการปิดระบบแบบสุ่ม 2 ครั้งภายในสองสัปดาห์หลังจากเซิร์ฟเวอร์ถูกสร้างขึ้น การดูล็อกแบนด์วิดท์ก่อนที่จะปิดเครื่องไม่ได้แสดงว่ามีอะไรผิดปกติ โหลดเซิร์ฟเวอร์มักจะต่ำมาก (ประมาณ 1) และอยู่ไกลกันมากดูเหมือนจะไม่มีไฟฟ้าดับในขณะที่เซิร์ฟเวอร์หยุดทำงาน

ฉันรู้ว่าฉันดู / var / log แต่ไม่แน่ใจว่าฉันควรตรวจสอบบันทึกใดและควรมองหาอะไร ขอบคุณคำแนะนำของคุณ


คุณพบสิ่งที่เป็นปัญหาหรือไม่
cherouvim

คำตอบ:


11

ก่อนอื่นฉันต้องถามว่า: "shutdowns"? คุณหมายความว่าเครื่องรีบูทหรือหยุดจริงหรือ หากหยุดทำงานอาจเป็นการกำหนดค่าผิดพลาด (อาจเป็นใน BIOS) หรือมีบางอย่างกำลังปิดเครื่อง (เช่น init 0)

หากไม่มีผู้สมัครหลักของคุณจะเป็น / var / log / syslog และ /var/log/kern.log เนื่องจากปัญหาของคุณดูเหมือนเคอร์เนลที่น่าตื่นตระหนกหรือความผิดพลาดของฮาร์ดแวร์ที่เกิดจากซอฟต์แวร์ แน่นอนถ้าเซิร์ฟเวอร์ใช้บริการบางอย่าง (เช่น Apache) อาจให้เบาะแสคุณ

บ่อยครั้งในสถานการณ์เช่นนี้มีการสร้างรายการบันทึก แต่เนื่องจากเครื่องมีปัญหาจึงไม่สามารถเขียนรายการลงดิสก์ได้ หากกล่องมีการกำหนดสีไว้โอกาสที่จะถูกเชื่อมต่อกับคอนโซลแบบอนุกรมโดยพันธมิตร colo นั่นคือที่ฉันจะดูว่าฉันไม่พบสิ่งที่น่าสงสัยในบันทึกข้างต้น

หากเครื่องไม่ได้เชื่อมต่อกับคอนโซลอนุกรมและไม่มีอะไรในบันทึกคุณอาจต้องการพิจารณาส่ง syslog ไปยังกล่องอื่นผ่านเครือข่าย บางทีอินเทอร์เฟซเครือข่ายอาจใช้เวลานานขึ้นเล็กน้อยและข้อความบันทึกสามารถอ่านได้บนเซิร์ฟเวอร์ syslog ดู rsyslog หรือ syslog-ng

UPDATE:

ฉันเห็นด้วยกับ @Johann ด้านล่าง สาเหตุที่เป็นไปได้มากที่สุดของการหยุดชะงักคือสุนัขเฝ้าบ้านอุณหภูมิโปรเซสเซอร์ ลองตรวจสอบ / พล็อตอุณหภูมิในกล่องโดยใช้ lmsensors หรือ smartctl (มักจะเป็นวิธีที่ง่ายที่สุด) ฉันพบว่า collectd นั้นหาตัวจับยากในการติดตามตัวแปรจำนวนมากตลอดเวลา มันสามารถทำได้ทั้ง IPMI และ lm-sensors และ hddtemp นอกจากนี้ BIOS บางตัว: อุณหภูมิบันทึกเหตุการณ์หยุดชะงัก


เครื่องดับลงและกลับมามีชีวิตอีกครั้งหลังจากที่ฉันขอการสนับสนุนเพื่อเริ่มต้นด้วยตนเอง
ปลาทอง

หากอุณหภูมิเป็นปัญหาให้ติดตั้ง munin เพื่อติดตามข้อมูลอุณหภูมิเมื่อเวลาผ่านไปเพื่อหาแนวโน้ม
pkhamre

ปัญหาอุณหภูมิ +1 มีสิ่งเดียวกันกับหนึ่งในเซิร์ฟเวอร์ของฉันในดาต้าเซ็นเตอร์ - ปรากฎว่าพวกเขาลืมที่จะเชื่อมต่อหนึ่งในแฟน ๆ ของ CPU เมื่อพวกเขาสร้างระบบ
แกรนท์

9

/var/log/syslogครั้งแรกที่คุณต้องการตรวจสอบ หากคุณไม่แน่ใจว่าสิ่งที่จะมองหาคุณสามารถเริ่มต้นโดยการมองหาคำerror, และpanicwarning

grep -i error /var/log/syslog

หากคุณมีกราฟระบบให้ใช้งาน (เช่น Munin) ตรวจสอบพวกเขาและมองหารูปแบบที่ผิดปกติ หากคุณไม่ได้ติดตั้ง munin อาจเป็นความคิดที่จะติดตั้ง ( apt-get install munin munin-node)

คุณควรตรวจสอบรูทเมลเพื่อหาข้อความที่น่าสนใจที่อาจเกี่ยวข้องกับระบบล่ม

ไฟล์บันทึกอื่น ๆ ที่คุณควรตรวจสอบคือแอปพลิเคชันบันทึกข้อผิดพลาด เช่น/var/log/apache2/error.logหรือคล้ายกัน พวกเขาอาจมีข้อมูลที่นำคุณไปสู่ปัญหา


6

จากประสบการณ์ของฉัน "หยุดกะทันหัน" มักเกิดจากความร้อนสูงเกินไป ตรวจสอบอุณหภูมิและความเร็วพัดลมของคุณผ่าน lm_sensors และตรวจสอบให้แน่ใจว่ามันดี

เมื่อเร็ว ๆ นี้เรามีรูปแบบเดียวกัน: เซิร์ฟเวอร์หยุดประมาณหนึ่งชั่วโมงหลังจากการสนับสนุนเริ่มต้นด้วยตนเอง หลังจากเวลานี้อุณหภูมิ CPU ถึงขีด จำกัด ที่กำหนดใน BIOS (iirc 60 หรือ 70 ° C) และหยุดระบบ ปัญหาเหล่านี้ทั้งหมดที่เกิดจากแฟนซีพียูเสีย หลังจากเปลี่ยนพัดลมทุกอย่างกลับสู่ปกติ


2

มีไฟล์บันทึกจำนวนมากในไดเรกทอรี / var / log (และเป็นไดเรกทอรีย่อย) รวมถึง

/var/log/boot

และ

/var/log/boot.log

เริ่มด้วยไฟล์ด้านบน


และมองหา "อะไร"?
Pierre.Vriens

ขึ้นอยู่กับประเภทของความล้มเหลวที่เกิดขึ้น สาเหตุส่วนใหญ่สาเหตุหลักมาจากความผิดพลาดของเคอร์เนลความล้มเหลวของระบบไฟฟ้าหรือการปิดระบบซีพียูที่ร้อนเกินไปซึ่งหมายความว่าไม่มีใครเขียนรายการไปยังล็อกไฟล์และล้างข้อมูลลงบนดิสก์ดังนั้นจึงไม่มีข้อความเลย .
asdmin

1

มี 2 ​​วิธีในการตรวจสอบสิ่งที่ปิดการทำงานก่อนตรวจสอบคอนโซลการจัดการนอกวงความถี่สำหรับปัญหาใด ๆ ในฮาร์ดแวร์ฉันขอแนะนำให้กำหนดค่า SNMP และรับอีเมลหรือเพิ่มกับดักในซอฟต์แวร์การตรวจสอบสำหรับการแจ้งเตือนใด ๆ

จากนั้นผ่านระบบปฏิบัติการคุณสามารถตรวจสอบ/var/log/messages(RedHat based distros) หรือ/var/log/syslog(Debian Based distros)


0

ระบบย่อยของดิสก์นั้นซับซ้อนพอที่จะได้รับผลกระทบเมื่อเกิดปัญหาเนื่องจากคุณแทบจะไม่ได้อะไรเลยในไฟล์บันทึกของคุณ

ลองเข้าสู่ระบบผ่านคอนโซลอนุกรม สิ่งนี้ต้องการการเดินสายและระบบอื่น ๆ เพื่อรับสาย แต่คุณมีโอกาสที่ดีกว่าในการจับปัญหา

แน่นอนว่าโหนดของคุณมีระบบการจัดการในตัวคล้ายกับ ALOM / ILOM ของ Oracle คุณสามารถตรวจสอบปัญหาที่อาจเกิดขึ้นและล็อกไฟล์ที่นั่น


-1

คุณสามารถค้นหาว่าระบบทราบเกี่ยวกับข้อเท็จจริงที่ว่ามันจะลงไปด้วยคำสั่งต่อไป

sudo last -1x reboot
sudo last -1x shutdown

หากไม่มีข้อมูล => แสดงว่าอาจสูญเสียพลังงานหรือสิ่งอื่นใดภายนอก

หากคุณมีข้อมูล => ค้นหาในบันทึกรอบเวลารีบูต / ปิดเครื่อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.