คำถามติดแท็ก monitoring

แอพพลิเคชั่นหรืออุปกรณ์ที่สังเกตเครื่องจักรระบบและเครือข่ายเพื่อค้นหาปัญหาและแจ้งผู้ดูแลระบบ

6
คำเตือนและค่าที่สำคัญใดที่จะใช้สำหรับ check_load
ตอนนี้ฉันกำลังใช้ค่าเหล่านี้: # y = c * p / 100 # y: nagios value # c: number of cores # p: wanted load procent # 4 cores # time 5 minutes 10 minutes 15 minutes # warning: 90% 70% 50% # critical: 100% 80% 60% command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4 แต่ค่าเหล่านี้เป็นเพียงการสุ่มเลือกเกือบ …

2
ตรวจจับผู้ส่งอีเมลขยะบนเซิร์ฟเวอร์ของฉัน
ฉันเพิ่งได้รับหนึ่งUndelivered Mail Returned to Senderในขณะที่ส่งจดหมายข่าวของฉันไปยังหนึ่งใน 1,500 ลูกค้าของฉัน เว็บไซต์ของฉันใช้ขั้นตอนการเลือกเข้าคู่เพื่อให้แน่ใจว่าผู้ใช้ต้องการรับจดหมายข่าวของฉันอย่างชัดเจน ข้อความแสดงข้อผิดพลาด: smtp; 554 ... Swisscom AG IP: 94.130.34.42, You are not allowed to send us mail. Please refer to xyz.com if you feel this is in error. ฉันได้รับตัวอย่างจดหมายขยะ (จากผู้ให้บริการจดหมายของผู้รับอีเมล): Received: from mail.com ([94.130.34.42]) by smtp-27.iol.local with SMTP id itOWeYZ6O42IFitOWe35TR; Tue, 13 Feb …

1
ทางเลือกฟรีสำหรับอินเตอร์เฟส M / Monit สำหรับระบบการจัดการระบบ Monit [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับข้อบกพร่องของเซิร์ฟเวอร์ ปิดให้บริการใน6 ปีที่ผ่านมา ฉันชอบระบบการจัดการของMonitแต่ฉันไม่มีงบประมาณด้านไอทีในการซื้ออินเทอร์เฟซ M / Monit ซึ่งใช้ในการจัดการโฮสต์หลายรายการสำหรับห้องปฏิบัติการมหาวิทยาลัยขนาดเล็กของเรา ฉันได้ลองดูmonittrจาก Ruby แล้วและฉันเห็นว่าคน Django กำลังทำอาหารอยู่ ใครสามารถให้คำแนะนำกับ wrapper ง่าย ๆ ซึ่งช่วยฉันดึงข้อมูลจากเซิร์ฟเวอร์หลาย ๆ ตัวได้ไหม แก้ไข:คำถามนี้ซ้ำกันอย่างไร ฉันไม่ได้ถามเกี่ยวกับเครื่องมือตรวจสอบ ฉันประเมินว่าอาจมีครึ่งโหลในสองสัปดาห์ที่ผ่านมา ฉันถามคำถามที่เฉพาะเจาะจงเกี่ยวกับเครื่องมือตรวจสอบที่เฉพาะเจาะจงมาก ฉันยอมรับว่าไม่เป็นที่พอใจเพราะอาจเป็นความคิดเห็นที่ฉันได้รับจาก ewwhiteเป็นการสังเกตที่ถูกต้อง
12 monit  monitoring 

1
มีใครใช้ SNMP และ / หรือ WMI poller เพื่อส่งเมตริกที่กำหนดเองไปยัง Amazon CloudWatch และถ้าเป็นเช่นนั้น
Amazon CloudWatch มีคอนโซลที่ดีและระบบเตือนภัยซึ่งใช้ Amazon SNS สำหรับการแจ้งเตือน แต่เดิมมันให้เฉพาะการวัด AWS เช่นการใช้ CPU ของอินสแตนซ์ EC2 เท่านั้น เมื่อเร็ว ๆ นี้พวกเขาเพิ่มเมตริกที่กำหนดเอง คุณสามารถใช้ CloudWatch REST API เพื่อผลักดันเมตริกของคุณเอง ฉันสงสัยว่าใครเคยลองใช้ตัวแทนที่จะสำรวจเซิร์ฟเวอร์ต่างๆ (บางแห่งที่ EC2 แต่ไม่ใช่) ผ่าน SNMP และ / หรือ WMI และผลักตัวอย่างเหล่านั้นเป็นตัวชี้วัดที่กำหนดเองไปยัง CloudWatch? ดังนั้นใน CloudWatch คุณสามารถดูการวัดทั้งหมดของคุณ (ทั้ง AWS และไม่รวม) ในที่เดียว หมายเหตุ: ฉันเข้าใจว่าเครื่องมือการตรวจสอบบางอย่างสามารถดึงมาจาก EC2 ซึ่งเป็นอีกวิธีหนึ่งในการรับทุกสิ่งในที่เดียวและอาจดีกว่าสำหรับบางคนด้วยเหตุผลหลายประการ แต่ฉันถามเกี่ยวกับวิธีที่ CloudWatch เป็นที่เดียว หากใครทำสิ่งนี้คุณใช้อะไรเป็นตัวแทน

5
วิธีการตรวจสอบปริมาณ glusterfs
Glusterfs ในขณะที่เป็นระบบไฟล์แบบกระจายที่ดีแทบไม่มีวิธีที่จะตรวจสอบความสมบูรณ์ของมัน เซิร์ฟเวอร์สามารถไปมาได้ก้อนอิฐอาจเหม็นอับหรือล้มเหลวและฉันกลัวที่จะรู้ว่าเมื่อมันอาจจะสายเกินไป เมื่อเร็ว ๆ นี้เรามีความล้มเหลวที่แปลกเมื่อทุกอย่างปรากฏว่าทำงาน แต่อิฐก้อนหนึ่งหล่นออกมาจากปริมาณ (พบโดยบังเอิญบริสุทธิ์) มีวิธีที่ง่ายและเชื่อถือได้ (สคริปต์ cron หรือไม่) ที่จะแจ้งให้ฉันทราบเกี่ยวกับสถานะสุขภาพของปริมาณGlusterFS 3.2ของฉัน

5
คุณจะตรวจสอบสุขภาพของดิสก์ที่ทำมิเรอร์ใน Windows ได้อย่างไร?
ฉันมีดิสก์ไดรฟ์แบบไดนามิกบนเซิร์ฟเวอร์ Windows 2003 ของฉัน คุณติดตามสุขภาพของปริมาตรได้อย่างไร? มีวิธีให้เซิร์ฟเวอร์ส่งอีเมลเมื่อมีปัญหาเกี่ยวกับปริมาณหรือไม่ มีวิธีให้เซิร์ฟเวอร์รันการทดสอบ SMART หรือไม่ แก้ไข: ไม่มีอะไรบอกว่า WTF เช่นการเข้าสู่เซิร์ฟเวอร์ลูกค้าเรียกใช้ DISKPART LIST VOLUME และเห็นสิ่งนี้ Volume ### Ltr Label Fs Type Size Status Info ---------- --- ----------- ----- ---------- ------- --------- -------- Volume 0 X xDrive NTFS Mirror 233 GB Failed Rd Volume 1 C NTFS Simple 57 …

9
เซิร์ฟเวอร์เก่าควรถูกยกเลิก
ฉันมีเซิร์ฟเวอร์ที่ยังใช้งานได้ดี แต่มีอายุมากกว่า 5 ปี พวกเขายังคงทำงานได้อย่างสมบูรณ์และจะไม่มีประโยชน์ในการอัพเกรดเซิร์ฟเวอร์ฉันควรปล่อยให้พวกเขาทำงานตลอดไปหรือฉันควรกำหนดเวลาการบำรุงรักษาเพื่อแทนที่เซิร์ฟเวอร์หรือชิ้นส่วนด้วยฮาร์ดแวร์ใหม่หรือไม่ ฉันกลัวว่าความล้มเหลวของเซิร์ฟเวอร์อาจทำให้ข้อมูลสูญหายและเสียเวลามากกว่าการบำรุงรักษาตามกำหนดเวลา เซิร์ฟเวอร์เหล่านี้ใช้สำหรับข้อมูล ณ จุดขายการบัญชี CRM และการจัดการออนไลน์ การบำรุงรักษาเชิงป้องกันเช่นการเปลี่ยนพัดลมและการดูดฝุ่นออกไม่สามารถทำได้เนื่องจากตำแหน่งระยะไกลของเซิร์ฟเวอร์ โปรดจำไว้ว่า "โค้งอ่างอาบน้ำ" ของอัตราความล้มเหลวกับเวลา ฮาร์ดแวร์ใหม่มีแนวโน้มที่จะล้มเหลวมากกว่าฮาร์ดแวร์ที่ได้รับการเผาไหม้ในขณะที่ คุณจะบอกลูกค้าที่มีความสุขมากกับเซิร์ฟเวอร์ที่ปราศจากปัญหาเป็นเวลานานได้อย่างไรตอนนี้เขาต้องใช้เงินเพื่อแทนที่มันเพราะมันเก่าเกินไป ท้ายสุดมีเครื่องมือตรวจสอบใด ๆ สำหรับปัญหาฮาร์ดแวร์เช่นแรงดันไฟฟ้าอุณหภูมิและความเร็วพัดลมที่สามารถเรียกใช้จากระยะไกลได้หรือไม่

1
เคียวรีการมอนิเตอร์ WQL ทั่วไป
คุณใช้แบบสอบถาม WQL ใดในการตรวจสอบปัญหาคอขวดของ Windows คุณต้องการใช้เพื่อรับข้อมูลใดที่คล้ายกับ 'top' หรือ 'netstat' ช่วงเวลาใดที่คุณจะสำรวจความคิดเห็นที่? นี่คือบางสิ่งที่ฉันเห็นว่ามีประโยชน์ SELECT PercentDiskTime, AvgDiskQueueLength, DiskReadBytesPerSec, DiskWriteBytesPerSec FROM Win32_PerfFormattedData_PerfDisk_PhysicalDisk SELECT Caption, CommittedBytes, AvailableBytes, PercentCommittedBytesInUse, PagesPerSec, PageFaultsPerSec FROM Win32_PerfFormattedData_PerfOS_Memory SELECT PercentProcessorTime FROM Win32_PerfFormattedData_PerfOS_Processor SELECT Caption, WorkingSet, PageFaultsPerSec,IOReadBytesPerSec, IOWriteBytesPerSec, ThreadCount, HandleCount FROM Win32_PerfFormattedData_PerfProc_Process SELECT Caption, BytesReceivedPerSec, BytesSentPerSec FROM Win32_PerfFormattedData_Tcpip_NetworkInterface
12 monitoring  wmi 

2
การกระจายทางภูมิศาสตร์ทนต่อความผิดพลาดและระบบตรวจสอบแอปพลิเคชัน / โฮสต์ที่“ ชาญฉลาด”
ทักทาย, ฉันต้องการถามความคิดเห็นของกลุ่มและมุมมองเกี่ยวกับระบบการตรวจสอบแบบกระจายคุณใช้อะไรและคุณตระหนักถึงสิ่งใดที่อาจทำเครื่องหมายในช่องของฉัน ความต้องการค่อนข้างซับซ้อน ไม่มีจุดล้มเหลวเดียว จริงๆ. ฉันตายไปแล้ว! ต้องสามารถทนต่อความล้มเหลวของโหนดเดี่ยว / หลายโหนดได้ทั้ง 'ต้นแบบ' และ 'ผู้ปฏิบัติงาน' และคุณอาจคิดว่าไม่มีตำแหน่งการตรวจสอบ ("ไซต์") ที่มีหลายโหนดอยู่ในนั้นหรืออยู่ในเครือข่ายเดียวกัน ดังนั้นสิ่งนี้อาจเป็นกฎของเทคนิค HA ดั้งเดิมเช่น DRBD หรือ Keepalive ตรรกะการกระจายฉันต้องการที่จะปรับใช้ 5+ โหนดในหลายเครือข่ายภายในหลายศูนย์ข้อมูลและในหลายทวีป ฉันต้องการมุมมอง "Birds Eye" ของเครือข่ายและแอปพลิเคชันของฉันจากมุมมองของลูกค้าของฉันคะแนนโบนัสสำหรับตรรกะการตรวจสอบจะไม่จมเมื่อคุณมี 50+ โหนดหรือแม้กระทั่ง 500+ โหนด ต้องมีความสามารถในการจัดการเช็คโฮสต์ / บริการจำนวนพอสมควรพอสมควรลากานิโอสำหรับตัวเลขของ ballpark ถือว่ามีโฮสต์ 1,500-2500 โฮสต์และบริการ 30 รายการต่อโฮสต์ มันจะดีมากถ้าเพิ่มโหนดการตรวจสอบมากขึ้นช่วยให้คุณสามารถขยายขนาดเชิงเส้นบางทีในเวลา 5 ปีฉันอาจมองตรวจสอบโฮสต์ 5000 และ 40 บริการต่อโฮสต์! เพิ่มในจากบันทึกของฉันข้างต้นเกี่ยวกับ 'ตรรกะกระจาย' …
12 monitoring  nagios  sla 

17
เครื่องมือตรวจสอบ MySQL
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ คุณใช้เครื่องมืออะไรในการตรวจสอบสถานะของอินสแตนซ์เซิร์ฟเวอร์ MySQL ของคุณ พวกเขามีอิสระหรือเชิงพาณิชย์?
12 mysql  monitoring 

6
ตรวจสอบ Windows Server โดยใช้ SNMP
สิ่งนี้ยากเหลือเกิน ฉันต้องการรับประสิทธิภาพของ CPU ในปัจจุบันจากเครื่อง Win 2k3 ระยะไกล ฉันต้องใช้ SNMP เพราะเครื่องอยู่หลังไฟร์วอลล์ สมมติฐาน: ฉันเข้าใจระบบเครือข่าย / สามารถกำหนดค่าที่อยู่ IP / การส่งต่อพอร์ต / ไฟร์วอลล์ / สิ่งใด ๆ ฉันเข้าใจ SNMP - ฉันรู้วิธีใช้เครื่องมือของฉันเพื่อรับค่าจาก OID บนเครื่องเป้าหมาย ฉันรู้ว่าฉันต้องการทำอะไรกับผลลัพธ์ที่ได้จากการร้องขอ SNMP ของฉัน ฉันเปิดใช้งาน SNMP บน Windows Server แล้วกำหนดค่าความปลอดภัย / ชุมชน IP ที่เกี่ยวข้อง ฉันสามารถถามสิ่งมาตรฐานเซิร์ฟเวอร์ Windows โดยใช้ SNMP เกี่ยวกับจำนวนดิสก์ / เชื่อมต่อเครือข่ายที่มี ฯลฯ คำถาม: …

8
ความแตกต่างที่สำคัญระหว่าง Nagios และ Open NMS คืออะไร?
ฉันกำลังมองหาระบบตรวจสอบที่ครอบคลุมกับผู้จัดการของฉันและกำลังพิจารณา OpenNMS อยู่ อย่างไรก็ตามฉันได้เห็นการสรรเสริญของ Nagios ที่นี่และฉันหวังว่าคนที่มีประสบการณ์จะช่วยให้เห็นความแตกต่างที่สำคัญสำหรับฉัน ความสนใจของพวกเขาแตกต่างกันหรือว่าพวกเขาเป็นแค่คู่แข่ง? หากพื้นหลังบางอย่างช่วยเราเรียกใช้เซิร์ฟเวอร์ในสถานที่ 6 แห่ง (ไฟล์เซิร์ฟเวอร์ PBX พร็อกซีแอปพลิเคชั่น ฯลฯ ) และเซิร์ฟเวอร์นอกสถานที่สองแห่ง (เว็บไซต์ / การพัฒนา) พร้อมสวิตช์และเราเตอร์สองตัว บริการตรวจสอบสถานะที่เราติดตั้งจะทำงานบนเดสก์ท็อปที่ได้รับการแปลงแยกต่างหากที่รัน FreeBSD ทุกสิ่งของเราทำงานได้ทั้ง Linux หรืออนุพันธ์ BSD เรากำลังมองหาที่จะใช้จ่ายเงินเพื่อดำเนินการนี้ (ถอนหายใจ) ขอบคุณสำหรับความช่วยเหลือ แก้ไข ดูเหมือนว่า openNMS นำเสนอโซลูชั่นที่ครอบคลุมมากขึ้นใกล้กับสิ่งที่ฉันต้องการ อย่างไรก็ตามเนื่องจากเขียนเป็นภาษาจาวาและพอร์ตไม่ได้อยู่ในทรีของพอร์ตอย่างเป็นทางการจึงถูกคัดค้าน ตอนนี้เริ่ม Nagios ของฉันจะดีกว่าเพียงแค่แคมเปญ MRTG ขอบคุณสำหรับคำตอบที่รวดเร็ว -โอกาส

5
Salt (Saltstack) สามารถรวบรวมและถ่ายทอดข้อมูลสำหรับ Graphite, Ganglia หรือ Zenoss ได้หรือไม่?
ฉันเริ่มต้นโครงการใหม่และพิจารณาใช้AnsibleหรือSaltสำหรับการปรับใช้อัตโนมัติและบางทีอาจมีการประสานที่ซับซ้อนกว่าเดิม (การจัดการเซิร์ฟเวอร์และการรวมกลุ่ม) ด้วย Salt ฉันสงสัยว่ามีการรวมกันระหว่างนั้นกับGraphiteหรือZenossหรือGanglia ... โดยใช้การเชื่อมต่อSalt 0mqเพื่อถ่ายทอดข้อมูลจาก "minions" Salt ไปยังฐานข้อมูลการติดตาม / การสะสม / การติดตาม มีคนอื่นดูที่นี่หรือไม่

2
Monit แสดงรายการ Apache เป็น Not Noteded
ผมเพิ่งติดตั้งและกำหนดค่า monit ตามเอกสาร monit บริการทั้งหมดนอกเหนือจาก Apache มีการระบุไว้เล่น แต่ Apache กล่าวว่าไม่ได้ตรวจสอบ บรรทัดที่เกี่ยวข้องในการกำหนดค่าของ monit คือ: check process apache with pidfile /var/run/httpd.pid group www start program = "/etc/init.d/httpd start" stop program = "/etc/init.d/httpd stop" if failed host localhost port 80 protocol http then restart if 5 restarts within 5 cycles then timeout ฉันสามารถเข้าถึงhttp: …

7
การตรวจสอบสถานะการทำงานทุกวินาที - ไม่ดีสำหรับเซิร์ฟเวอร์หรือไม่
ฉันสงสัยว่ามีข้อได้เปรียบในการตรวจสอบว่าเซิร์ฟเวอร์พร้อมใช้งาน "คำขอ HTTP GET" ทุกวินาทีหรือไม่ เซิร์ฟเวอร์ใดสามารถจัดการได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.