คุณมอนิเตอร์เซิร์ฟเวอร์การมอนิเตอร์ได้อย่างไร?


14

ดังนั้นเราจึงเรียกใช้ Groundworks (กับ Nagios) บน CentOS เพื่อตรวจสอบเซิร์ฟเวอร์และกระบวนการต่างๆของเรา ฉันได้ตั้งค่าให้ส่งอีเมลและข้อความ SMS โดยอัตโนมัติเมื่อสิ่งต่างๆเข้าสู่สถานะคำเตือนหรือวิกฤต โดยปกติจะใช้งานได้อย่างสมบูรณ์แบบ อย่างไรก็ตามสองครั้งเรามีปัญหากับ Postfix บนเซิร์ฟเวอร์นั้นที่ Postfix ตัดสินใจหยุดส่งอีเมล เวลาล่าสุดใช้เวลา 4 วันเพราะไม่มีใครสังเกตเห็น

นั่นทำให้ฉันมีคำถามสำคัญ: ฉันจะตรวจสอบเซิร์ฟเวอร์การมอนิเตอร์ของฉันได้อย่างไร


5
ผู้ดูแลระบบ ipsos custodes?
James L

หึ ฆู เล่นได้ดีมาก
organicveggie

ใครเป็นผู้เฝ้าดู : D
Florent Courtay

1
@organicveggie, เซิร์ฟเวอร์การมอนิเตอร์เป็นเซิร์ฟเวอร์ด้วย ... คุณมีปัญหาอะไรบ้างในการใช้เซิร์ฟเวอร์การมอนิเตอร์เพื่อมอนิเตอร์เซิร์ฟเวอร์การมอนิเตอร์?
Pacerier

คำตอบ:


12

ด้วยเซิร์ฟเวอร์การตรวจสอบที่สองแน่นอน สิ่งที่สองนั้นง่ายกว่ามากเนื่องจากสิ่งที่ต้องทำก็คือตรวจสอบสิ่งแรก และควรได้รับการตรวจสอบจากระบบตรวจสอบหลักในทางกลับกันแน่นอน

หากกลุ่มของคุณเป็นส่วนหนึ่งขององค์กรขนาดใหญ่ที่มีโครงสร้างพื้นฐานด้านไอทีแยกต่างหากคุณอาจสามารถจัดการบริการติดตามตรวจสอบของกลุ่มอื่นเพื่อดูคุณได้

คุณสามารถตรวจสอบให้แน่ใจว่าเซิร์ฟเวอร์ส่งข้อความ "ไม่เป็นไร" ทุกวันและติดนิสัยในการค้นหา (นั่นจะมีประสิทธิภาพก็ต่อเมื่อคุณยังไม่ได้รับข่าวสารประจำ)


14

คนอื่น ๆ แนะนำให้ส่งข้อความธรรมดาว่ามีอะไรดี แต่โดยส่วนตัวแล้วฉันไม่เห็นด้วย การตรวจสอบควรเงียบถ้าไม่มีปัญหาและไม่ควรพึ่งพาผู้ใช้สังเกตว่ามีบางอย่างผิดปกติเช่น "โอ้ฉันไม่ได้รับอีเมลรายวันในสองสามวัน" โดยเฉพาะอย่างยิ่งหากคุณมีคนตอบรับการแจ้งเตือนมากกว่าหนึ่งคนแต่ละคนอาจคิดว่าอีกคนหนึ่งได้ลบข้อความ "ฉันโอเค" ทุกวัน

เรามีบริการภายนอก (ซึ่งมีหลายร้อย แต่เราใช้เวิร์ม ) เพื่อทำการตรวจสอบ HTTP ของเซิร์ฟเวอร์การตรวจสอบของเราเพื่อให้แน่ใจว่ามันขึ้นและสามารถเข้าถึงอินเทอร์เน็ต นั่นคือความกังวลหลักของเราในการตรวจสอบ จากนั้นเซิร์ฟเวอร์ Nagios ของเราจะตรวจสอบเซิร์ฟเวอร์ Nagios ของลูกค้าทั้งหมด

แต่คุณนำมาซึ่งจุดที่ดี เราอาจจะเพิ่ม URL ของ HTTP ที่ตรวจสอบคิว postfix และถ้ามันแสดงให้เห็นถึงจำนวนที่ผิดปกติของข้อความซึ่งอาจหมายความว่ามีใด ๆในคิวแล้วยกระดับการแจ้งเตือน อีกตัวเลือกหนึ่งคือใช้วิธีการต่าง ๆ สำหรับการแจ้งเตือนพูดตัวแทนส่ง SMS ไม่ใช่ SMTP รวมถึง SMTP ที่เราใช้อยู่ในปัจจุบัน

ในกรณีของเราฉันไม่สามารถจำได้ว่าเราเคยมีเซิร์ฟเวอร์อีเมลตาย แน่นอนว่าเมลเซิร์ฟเวอร์ทั้งหมดที่ใช้สำหรับส่งการแจ้งเตือนของ Nagios ดังนั้นการกำหนดค่านั้นง่ายมากและแทบไม่เคยเปลี่ยนแปลงเลย


2
ข้อความตกลงปกติไม่เป็นประโยชน์: คุณไม่สามารถกำหนดเงื่อนไขให้บุคคลดำเนินการได้อย่างน่าเชื่อถือหากไม่มีสิ่งกระตุ้น
ทิม Williscroft

@Tim: ขออภัย แต่ "ขาดสิ่งเร้า" ไม่ได้อธิบายถึงสถานการณ์ที่ไม่ได้รับอีเมลที่คาดการณ์ไว้ ในกรณีเช่นนี้ฉันเชื่อว่าฉันจะ "ถูกกระตุ้น" เพื่อตรวจสอบว่าทำไมข้อความถึงมาไม่ถึง แต่นั่นอาจเป็นเพียงฉัน :)
Steven จันทร์

1
ฉันคิดว่าฉันเขียนโดยใช้คำศัพท์ทางจิตวิทยาที่ไม่ได้หมายความว่าคุณคิดว่าพวกเขาหมายถึงอะไร จิตวิทยาพฤติกรรมและจิตวิทยาการบินมีจำนวนมากที่จะบอกวิศวกรระบบ สนามได้รับการพัฒนาอย่างมากในสงครามโลกครั้งที่สองเพื่อให้ลูกเรืออายุ 18-20 ปีบินเครื่องบินที่ทันสมัยโดยไม่พังและยังคงให้ความสนใจกับภารกิจทางทหารที่แท้จริงของพวกเขา นั่นเป็นเหตุผลว่าทำไมเครื่องบินจึงมีแสงเตือนต้นแบบไม่ใช่แสง "ทุกอย่างโอเค" TLDR (ฉันไม่คิดว่าคำที่หมายถึงสิ่งที่คุณคิดว่ามันหมาย)
ทิม Williscroft

1
ฉันเห็นด้วยอย่างยิ่งว่าระบบไม่ควรส่งเสียงดังหากไม่มีสิ่งที่ต้องการความสนใจจากมนุษย์ เรามีความสนใจ จำกัด และคอมพิวเตอร์สามารถเอาชนะเราได้อย่างง่ายดายด้วยการกะพริบเล็กน้อยเช่น "ฉันยังมีชีวิตอยู่!" นอกจากนี้สิ่งต่าง ๆ ที่ผ่านเข้ามาซึ่งไม่ได้บ่งบอกปัญหาทำให้คนนึกถึงสิ่งที่ไม่สนใจ ฉันทำงานหนักมากเพื่อให้แน่ใจว่าเมื่อมีบางสิ่งมาถึงมนุษย์มันเป็นสิ่งที่พวกเขาต้องการเห็นจริงๆ ฉันทำงานกับคนที่มีบันทึกทุกประเภทที่มาหาเขาทุกวันที่เขาตรวจสอบ แน่นอนเขายุ่งมากเขาไม่สามารถออกไปทานอาหารกลางวัน ...
Sean Reifschneider

1
ฉันยอมรับว่าบริการไม่ควรส่งข้อความมากเกินไปหรือผู้คนเริ่มเพิกเฉยอย่างรวดเร็ว อย่างไรก็ตามหากระบบการตรวจสอบติดตั้งอย่างถูกต้องคุณไม่ควรได้รับข้อความมากนัก แน่นอนเรามีนโยบายเกี่ยวกับการยอมรับการแจ้งเตือนจาก Groundworks / Nagios ซึ่งหยุดข้อความอย่างมีประสิทธิภาพเป็นระยะเวลาหนึ่ง หากการหยุดชะงักในระยะยาวเราจะปิดการตรวจสอบระบบหรือบริการ ดังนั้นข้อความ "ฉันยังมีชีวิต" รายวันค่อนข้างสมเหตุสมผล
organicveggie

5

เห็นได้ชัดว่า postfix ของคุณควรถูกตรวจสอบด้วยเช่นกัน แต่นั่นเป็นอีกหัวข้อหนึ่ง;)

ฉันใช้ปลั๊กอินตัวตรวจสอบของ Nagios สำหรับ Firefoxมันจะทำงานในแถบสถานะบนคอมพิวเตอร์ทุกเครื่องที่ฉันใช้เป็นประจำ

นอกจากนี้ฉันมีสคริปต์ที่กำหนดเองในโฮสต์ภายนอกที่ส่ง Ping โฮสต์ nagios และส่ง SMS หากไม่ตอบสนองต่อ Ping

จนถึงตอนนี้ (5+ ปี) มันใช้งานได้ดี (เคาะไม้)


2

สำหรับการมอนิเตอร์เซิร์ฟเวอร์การตรวจสอบ (nagios ในกรณีของเรา), แผนพื้นฐานของ Pingdom หรือ alertfox ฟรีหรือใช้งานได้ดี


คำแนะนำที่ดี แต่ในกรณีนี้เซิร์ฟเวอร์การตรวจสอบของเราไม่สามารถเข้าถึงได้นอกไฟร์วอลล์ ดังนั้น Pingdom และ Alertfox จึงไม่ได้ผลสำหรับเรา
organicveggie

1

สิ่งแรก: ปล่อยให้มันส่งข้อความ "ฉันยังมีชีวิตอยู่" วันละครั้งหรือสองครั้ง ประการที่สองฉันเรียกใช้เครื่องเก่าเพียงเพื่อจุดประสงค์นี้ซึ่งมีโมเด็ม GSM อื่น UPS ขนาดเล็ก ฯลฯ และการเชื่อมต่อ (โดยตรง) เฉพาะกับเซิร์ฟเวอร์การตรวจสอบหลัก สิ่งนี้ช่วยในจุดที่สามด้วย: ตรวจสอบให้แน่ใจว่าคุณตรวจสอบสถานะของระบบการตรวจสอบของคุณเป็นประจำ ระบบตรวจสอบติดตามขนาดเล็กแสดงหน้าสถานะของระบบหลักในสำนักงานของฉันตลอดเวลา


1

หากเซิร์ฟเวอร์การตรวจสอบของคุณสามารถเข้าถึงได้จากอินเทอร์เน็ตคุณควรให้เซิร์ฟเวอร์การตรวจสอบนั้นตรวจสอบโดยผู้ให้บริการภายนอก (เช่น websitepulse และ al.)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.