คุณใช้เครื่องมือใดในการตรวจสอบเซิร์ฟเวอร์ของคุณ


187

สำหรับรายการที่ครอบคลุมมากขึ้นของการตรวจสอบเครื่องมือและคุณสมบัติของพวกเขาตรวจสอบหน้าวิกิพีเดียนี้

ดังที่คำถามระบุเครื่องมือที่ใช้บ่อยที่สุดสำหรับงานนี้คืออะไรจุดแข็งและจุดอ่อนของพวกเขาคืออะไร


เซิร์ฟเวอร์ของคุณใช้แพลตฟอร์มใด
Glenn Slaven

1
เซิร์ฟเวอร์ของฉันใช้ Debian Lenny แต่คำถามไม่ได้เน้นไปที่การตรวจสอบ UNIX เพียงอย่างเดียวเนื่องจากเครื่องมือหลายอย่างอาจมีรูปแบบการสนับสนุนข้ามแพลตฟอร์มบางรูปแบบ
Aron Rotteveel

บางทีพวกเขาอาจใช้เครื่องมือที่แตกต่างกัน แต่จากมุมมองของระบบโดยรวมที่คุณทำสิ่งเดียวกันซ้ำแล้วซ้ำอีกในระบบที่แตกต่างกัน มันเป็นเพียงการเขียนสคริปต์เพื่อบีบข้อมูลบิตสุดท้ายที่คุณต้องการ ฉันจะพิจารณา "เครื่องมือ" ในบริบทนี้อินสแตนซ์การบันทึก (เซิร์ฟเวอร์การตรวจสอบ) ไม่ใช่ปลั๊กอิน / สคริปต์จริงที่
กระจาย

ฉันชอบตรวจสอบแอปพลิเคชัน (ประสิทธิภาพการทำงานความพร้อมใช้งาน ฯลฯ ) เครื่องมือตรวจสอบดูเหมือนจะมีคลื่นความถี่ที่มีความสามารถในการตรวจสอบฮาร์ดแวร์ที่ปลายด้านหนึ่งและความสามารถในการตรวจสอบการใช้งานในส่วนอื่น ๆ ฮาร์ดแวร์ <----- + -----> แอปพลิเคชัน
Nathan Hartley

คำตอบ:


136

ฉันเคยใช้Nagiosมาก่อนในความสำเร็จ มันสามารถขยายได้มาก (ส่วนเสริมมากกว่า 200 รายการ) ใช้งานง่ายและมีรายงานจำนวนมาก ค่าลบจะเป็นการตั้งค่าเริ่มต้น


10
Nagios ใช้งานได้ดีในการตรวจสอบโฮสต์ทุกประเภท (Windows, Linux, เราเตอร์สวิตช์ ฯลฯ ) ฉันแนะนำให้ใช้เครื่องมือกำหนดค่าเช่นฟรุ๊ตตี้หรือ Lilacto เพื่อลดความยุ่งยากในการตั้งค่า NSClient ++ ในกล่องหน้าต่างและ nagios-statd ในสิ่งที่ลินุกซ์ในการตรวจสอบกระบวนการทำงาน, การใช้งานดิสก์ ฯลฯ
TonyB

น่าเสียดายที่ Nagios ต้องการเอเจนต์บนกล่อง Windows - ในอดีตฉันพบว่าเอเจนต์มีแนวโน้มที่จะตายแบบสุ่ม
PowerApp101

เราดูทั้ง Nagios และ Zabbix สำหรับการตรวจสอบของเรา Zabbix ชนะหลังจากการประเมินสั้น ๆ ส่วนใหญ่เนื่องจากความง่ายในการใช้งานและฟังก์ชั่น (ตัวอย่างเช่น Zabbix รวมถึงการทำกราฟเป็นฟังก์ชันหลักในขณะที่ Nagios ต้องการปลั๊กอิน) ฉันพบว่าการกำหนดค่า Nagios ให้เจ็บปวด

GroundWork OpenSource มีเครื่องตรวจสอบเครือข่ายที่ใช้ Nagios ที่มันเป็นหลักและช่วยลดความยุ่งยากการติดตั้ง / การจัดการ
Rog

12
มีส้อมนากิโอะใหม่ที่เรียกว่าไอซิ่ง มันยังไม่มีที่ไหนเลย แต่เป้าหมายของพวกเขาดูสดใส icinga.org
cstamas

70

Cactiเป็นส่วนหน้าเว็บที่ดีมากสำหรับRRDToolซึ่งให้กราฟและสถิติที่มีประโยชน์มาก rrdtoolเป็นส่วนหนึ่งที่รวบรวมข้อมูลจากหลายระบบและตรวจสอบความหลากหลายของข้อมูลทางเทคนิค

เรากำลังใช้โซลูชัน cacti / RRDTool เพื่อตรวจสอบระบบ Unix และ Windows เราได้รับตัวชี้วัดที่มีประโยชน์มากมายเช่นโหลด, การใช้งาน CPU / RAM, พื้นที่ HD, ผู้ใช้ที่เข้าสู่ระบบ, ปริมาณการใช้เครือข่าย, กระบวนการทำงานและอื่น ๆ

คุณจะพบข้อมูลเพิ่มเติมเกี่ยวกับ cacti บนCacti คืออะไร หน้า.


Cacti เป็นทางออกที่สนุกที่ดูดีและมาในราคาที่ดี (ฟรี) อย่างไรก็ตามการติดตั้งอุปกรณ์เครือข่ายเป็น PITA และมีเอกสารไม่ดี มันอาจจะดีขึ้นในตอนนี้ แต่ฉันจะไม่ยอมทำจนกว่าคุณจะทำวิจัยเสร็จ
Chris Porter

57

ส่วนตัวแล้วฉันชอบMuninซึ่งง่ายต่อการติดตั้งและเขียนปลั๊กอินเนื่องจากมีสถาปัตยกรรมที่ตรงไปตรงมามาก มีปลั๊กอินจำนวนมากอยู่แล้วสำหรับวัตถุประสงค์ทั้งหมดที่คุณสามารถจินตนาการได้ดังนั้นคุณอาจไม่ต้องเขียนปลั๊กอินในตอนแรก

นอกจากนี้ยังมีกราฟที่สวยงามและตัวเลือกในการกำหนดค่าการแจ้งเตือน (ขั้นพื้นฐานมาก)


2
ฉันเป็นแฟนตัวยงของมูนินด้วย มันมีการสนับสนุนสำหรับการรวมกับ Nagios (เพื่อให้คุณสามารถเรียกใช้ทั้งสอง) และการสนับสนุนสำหรับรสชาติทั่วไปทั้งหมดของยูนิกซ์ ผมไม่คิดว่ามีการสนับสนุนใด ๆ สำหรับการตรวจสอบโหนด Windows - แต่มันเขียนใน Perl ดังนั้นในขณะที่มันอาจจะไม่น่ารำคาญอย่างแน่นอนควรจะเป็นไปได้
John Dalton

2
@จอห์น. โหนด Windows ได้รับการสนับสนุนผ่าน munin-node-win32 ที่เป็นโหนดโลคัลดั้งเดิมหรือผ่าน SNMP เหมือนกับโฮสต์ใด ๆ
Steve Schnepp

34

Zabbix มันเป็นโอเพ่นซอร์สและติดตั้งและปรับแต่งได้ง่ายพอสมควร เรามีสคริปต์การตรวจสอบที่กำหนดเองจำนวนมากที่ป้อนเข้าสู่เซิร์ฟเวอร์ zabbix แต่ดูแลการรวบรวมข้อมูลนั้นอย่างเหมาะสมแสดงการแจ้งเตือน (อีเมล, IM, SMS, twitter ฯลฯ ) และอื่น ๆ


2
เรายังใช้ Zabbix และพบว่ามันมีประสิทธิภาพและสามารถกำหนดค่าได้ เราทดสอบทั้ง Zabbix และ Nagios และเลือกใช้ Zabbix ในที่สุดเพราะในขณะที่ Nagios ดูเหมือนจะมีชื่อเสียงที่ดีมันเป็นความเจ็บปวดเล็กน้อยในการติดตั้งและฟังก์ชั่นจำนวนมากมาจากปลั๊กอินมากกว่าการทำงานภายในแกนหลัก (กราฟเป็น ตัวอย่างที่ดีของสิ่งนี้คุณจะได้รับฟรีจาก Zabbix)

3
ฉันชอบ Zabbix เพราะความยืดหยุ่นในแง่ของการสร้างกราฟและการแมปโครงสร้างพื้นฐานของคุณ (ในแง่ของความพร้อมใช้งาน) รวมถึงวิธีการตรวจสอบที่ยืดหยุ่น
Andrioid

29

ฉันทำสิ่งที่ลึกล้ำของSpiceworksที่ บริษัท ของเราและเราพบว่ามันเป็นเครื่องมือที่ยอดเยี่ยมไม่เพียง แต่สำหรับการตรวจสอบเซิร์ฟเวอร์ แต่ยังมีทุกอย่างในเครือข่าย

มันทำสิ่งต่าง ๆ เช่นสินค้าคงคลังอัตโนมัติและการตรวจสอบที่กำหนดเองเพื่อส่งอีเมลถึงคุณเมื่อมีปัญหา (EG: เครื่องพิมพ์ลดลงเหลือ 10% ของหมึกหรือฮาร์ดไดรฟ์ของเซิร์ฟเวอร์นี้มี 20%)

ข้อเสียของมันอาจจะเป็นความหนาแน่นของข้อมูลต่อคอมพิวเตอร์อย่าเข้าใจผิดว่ามันมีข้อมูลจำนวนมากต่อเครื่อง แต่สำหรับสิ่งต่าง ๆ เช่นเซิร์ฟเวอร์ที่คุณอาจต้องการสถิติจำนวนมากคุณอาจต้องใช้เครื่องมืออื่น

แก้ไข:โอ้ฉันพูดถึงรูปแบบธุรกิจที่เป็นพื้นฐานของมันเป็นอิสระตลอดไป


Spiceworks ทำสิ่งที่ยอดเยี่ยมมากมาย - และฟรี

3
SpiceWorks มีชุมชนขนาดใหญ่ที่ทับซ้อนกับ ServerFault ด้วยเช่นกัน จะน่าสนใจเพื่อดูการมีปฏิสัมพันธ์ระหว่างชุมชน ฉันใช้ SpiceWorks เช่นกัน เครื่องมือที่ยอดเยี่ยม
Scott Alan Miller

กำลังใช้งานสิ่งนี้ตามคำแนะนำของคุณ เครื่องมือที่ยอดเยี่ยม
Marko Carter

เราใช้มันในที่ทำงานของเรา มันค่อนข้างน่าประทับใจ สินค้าคงคลังเพียงอย่างเดียวของฮาร์ดแวร์ไม่พูดถึงซอฟต์แวร์มีมูลค่าดูด้วยตัวเอง
เทอร์รี่

ครั้งล่าสุดที่ฉันใช้ Spiceworks (รุ่น 3 บางอย่าง) มันไม่มีวิธีเพิ่มหรือแก้ไขส่วนประกอบฮาร์ดแวร์เช่นจอภาพการ์ดวิดีโอ ฯลฯ มันจะตรวจจับได้ แต่มักจะไม่ถูกต้อง ดังนั้นฉันยังคงใช้ GLPI + OCSNG ซึ่งผมเกลียด
Boden

18

การสูบบุหรี่ไม่เพียง แต่ตรวจสอบความพร้อมใช้งานของเซิร์ฟเวอร์และบริการต่าง ๆ แต่ยังติดตามความล่าช้าในขณะที่ให้ใช้งานง่ายดูดีและรวดเร็วในการแสดงกราฟ

มีปลั๊กอินเสริมสำหรับการวัดระยะแฝงหลากหลายรูปแบบให้เลือกใช้งาน หากคุณรู้จัก Perl บางอย่างมันเป็นเรื่องง่ายที่จะสร้างสิ่งใหม่สำหรับความต้องการแปลกใหม่

การติดตั้งขนาดใหญ่จะได้รับประโยชน์จากระบบ Master / Slave สำหรับการวัดแบบกระจาย

ระบบแจ้งเตือนที่กำหนดค่าได้สูงจะช่วยให้คุณสังเกตเห็นปัญหาก่อนที่พวกเขาจะเริ่มส่งผลกระทบต่อผู้ใช้หรือพัฒนาไปสู่การหยุดทำงานที่สำคัญ

Smokeping ให้บริการฟรีและ OpenSource Software เขียนด้วย Perl โดย Tobi Oetiker ผู้สร้าง MRTG และ RRDtool


Smokeping เป็นสิ่งที่ดีที่จะเห็นสิ่งที่เครือข่ายของคุณเป็นเหมือน
Rory

การสูบบุหรี่เป็นสิ่งที่ยอดเยี่ยมสำหรับการแสดงภาพเวลาแฝง
James

15

OpenNMSใช้ในที่ที่ฉันทำงานเพื่อตรวจสอบมากกว่าหนึ่งพันเครื่อง Linux เราตรวจสอบฮาร์ดแวร์ของแต่ละเครื่องและแอปพลิเคชันที่ทำงานอยู่


+1 สำหรับ OpenNMS เรายังใช้สิ่งนี้ในที่ทำงานเพื่อตรวจสอบเครื่องจักรและอินเทอร์เฟซนับพัน เรามีระบบปฏิบัติการที่แตกต่างกันมากมายและเราสามารถตรวจสอบทั้งหมดโดยใช้ OpenNMS
Steve K

ฉันไม่สามารถเลือกแรก แต่มีประโยชน์มาก

การเพิ่ม MIBs สำหรับฮาร์ดแวร์ใหม่เป็นอย่างไร
slovon

OpenNMS มีสถิติ snmp จำนวนมากอยู่แล้วในการกำหนดค่าเริ่มต้นเพื่อให้สามารถค้นหาและเริ่มทำกราฟได้โดยอัตโนมัติ สถิติ SNMP ใหม่นั้นค่อนข้างง่ายในการเพิ่มเพียงแค่ตั้งชื่อให้กับ RRD, OID และชนิดข้อมูลและใส่ไว้ในกลุ่มสำหรับประเภทของอุปกรณ์ที่สถิติใช้
mtinberg

15

Zenoss Coreนั้นมีประโยชน์บางอย่างเราใช้มัน (ประมาณหนึ่งปี) สำหรับการตรวจสอบสถานะเซิร์ฟเวอร์สวิตช์เน็ตเวิร์กและ UPS

Zenoss Core เป็นผลิตภัณฑ์ตรวจสอบไอทีโอเพ่นซอร์สที่ได้รับรางวัลซึ่งจัดการการกำหนดค่าสุขภาพและประสิทธิภาพของเครือข่ายเซิร์ฟเวอร์และแอพพลิเคชั่นอย่างมีประสิทธิภาพผ่านแพคเกจซอฟต์แวร์เดียว


หากคุณใช้ Zenoss Core รุ่นฟรีให้เตรียมพร้อม SNMP MIB tweaking เป็นจำนวนมาก ฉันยังพบว่ามันปฏิเสธอย่างแน่วแน่ที่จะรวบรวมข้อมูลระบบปฏิบัติการบนเซิร์ฟเวอร์ของฉันและยากที่จะตั้งค่าสำหรับงานง่าย ๆ เช่นการตรวจสอบเนื้อหาของเว็บเพจ
gareth_bowles

สามารถเห็นอกเห็นใจกับปัญหา MIB แต่การตรวจสอบหน้าเว็บสามารถทำได้ด้วยปลั๊กอิน Nagios บน Zenoss
gimel

12

Nagios นั้นยอดเยี่ยมเพราะมันฟรีและมีปลั๊กอินให้ใช้มากมาย อย่างไรก็ตาม UI และการกำหนดค่านั้นยากมาก

มันตรงข้ามกับ pro / con ที่ยอดเยี่ยมเช่นกันคือ Microsoft System Center Operations Manager (SCOM) ซึ่งไม่ฟรีมีปลั๊กอินน้อยกว่า แต่การตั้งค่าและการกำหนดค่านั้นยอดเยี่ยมและใช้งานง่าย

ฉันต้องยอมรับว่าฉันอยู่ใน บริษัท Microsoft เป็นหลักมีความต้องการการพึ่งพาสูงมาก (เช่นไม่สามารถตรวจสอบได้ว่ามีการหยุดพัก) หรือต้องคิดว่าจะให้นักพัฒนาทำงานร่วมกับมันแล้ว SCOM จะเป็นคำแนะนำของฉันต่อ Nagios


12

ฉันเคยใช้:

  • Nagios - ต้องมีการตั้งค่าบรรทัดคำสั่งที่ล้าสมัยไม่สวย แต่ทนทานและใช้งานได้ มันถูกแทนที่โดย:
  • Zenoss - ต้องการฟุตเวิร์กน้อยกว่าในการตั้งค่ามีตัวแปรเชิงพาณิชย์ เมื่อทำงานส่วนที่เหลือจะถูกควบคุมผ่านเบราว์เซอร์ มีประสิทธิภาพมาก แต่ต้องใช้ MIB บางอย่างถ้าคุณใช้รุ่นฟรี
  • Intermapper - โปรแกรมเชิงพาณิชย์ใช้จ่ายถ้าคุณมีโหนดจำนวนมากที่ต้องตรวจสอบ ดูเหมือนจะเขียนด้วยภาษาจาวา (สำหรับดีกว่าหรือแย่กว่า)
  • Spiceworks - ยังไม่ได้ลองเวอร์ชันล่าสุด รุ่นที่เก่ากว่านั้นต้องการ umph เพิ่มอีกเล็กน้อยเพื่อให้มันตอบสนอง แต่อย่างอื่นมันใช้งานได้ดี รุ่นฟรีมาพร้อมกับโฆษณาจู้จี้

เราใช้ Intermapper อย่างกว้างขวาง
sysadmin1138

ฉันใช้ InterMapper เช่นกัน คอนโซลไคลเอ็นต์เขียนขึ้นใน Java เซิร์ฟเวอร์เขียนด้วย Python Postgres ใช้เป็นฐานข้อมูลส่วนหลังสำหรับการรวมข้อมูลและการรายงาน
lsiu

11

เราใช้AlertFoxตั้งแต่ไม่กี่สัปดาห์และมีความสุขมาก ไม่เพียงตรวจสอบสถานะการออนไลน์และประสิทธิภาพของเรา แต่ยังตรวจสอบตะกร้าสินค้าการเข้าสู่ระบบของผู้ใช้และส่วนที่สำคัญอื่น ๆ ของเว็บไซต์ผ่านสคริปต์ธุรกรรม (ตาม iMacros)

สำหรับการตรวจสอบ (ดิสก์ ฯลฯ พื้นที่) ภายในของเราเราใช้Nagios


10

การตรวจสอบเครือข่าย PRTG - ไม่สามารถพูดสิ่งที่ดีเกี่ยวกับเรื่องนี้ได้ ส่วนหน้าเว็บที่ยอดเยี่ยมและยอดเยี่ยมโดยเฉพาะอย่างยิ่งสำหรับการตรวจสอบเราเตอร์ (แบนด์วิดธ์ ฯลฯ ) และอุปกรณ์อื่น ๆ ผ่าน SNMP และการวัดเวลาใช้งานของ SLA เป็นต้น

www.paessler.com


9

ในฐานะที่เป็นคน Windows, MOM เรากำลังมองหาการอัปเกรดเป็น Systems Center Operations Manager (SCOM) แต่ไม่จำเป็นต้องใช้จนกว่าเราจะเริ่มปรับใช้ Windows 2008


ฉันใช้ MOM ด้วย ฉันรักมันและเกลียดในเวลาเดียวกัน
spoulson

SCOM เป็นแพลตฟอร์มการตรวจสอบที่ยอดเยี่ยมสำหรับสภาพแวดล้อมขององค์กรที่ใช้ Windows อัจฉริยะที่แท้จริงที่นี่คือชุดการจัดการที่เผยแพร่โดยกลุ่มผลิตภัณฑ์ Microsoft เอง (นี่เป็นส่วนหนึ่งของเกณฑ์วิศวกรรมทั่วไปของ MS ที่ทุกผลิตภัณฑ์มี SCOM MP ภายใน 90 วันของ RTM) การรับคำแนะนำและความรู้จากทีมผลิตภัณฑ์สามารถปรับปรุงความสามารถของแผนกปฏิบัติการเพื่อให้สิ่งต่าง ๆ ทำงานได้อย่างต่อเนื่องและมีสุขภาพดีโดยไม่รบกวนผู้ดูแลระบบอาวุโสมากขึ้นสำหรับทุกสิ่ง
เควินคอลบี้

8

ฉันเป็นส่วนหนึ่งของโครงการอัพเกรดการตรวจสอบการปฏิบัติงาน เรามีผู้ค้าหลายรายเข้ามาในสถานที่เพื่อนำเสนอระบบดอลล่าร์ขนาดใหญ่ไม่กี่แห่งและผสมในทางเลือกที่ถูกกว่าเพื่อเปรียบเทียบ

หนึ่งในนั้นคือHypericซึ่งมีให้ในรูปแบบของโอเพ่นซอร์สฟรี ฉันประทับใจในความสามารถที่มีให้และความสามารถที่เพิ่มขึ้นสำหรับตัวแทนที่กำหนดเอง


แม้ว่าจะไม่ใช่ทรัพยากรที่ง่าย แต่ก็เป็นเครื่องมือตรวจสอบที่ยอดเยี่ยม!
Vincent De Baere

8

สำหรับสถิติการตรวจสอบ (ใช้หน่วยความจำ, โหลดกิจกรรม MySQL, Apache กิจกรรมอื่น ๆ ) ผมใช้Munin ออกจากกล่องแล้วติดตามสิ่งต่าง ๆ มากมายและกราฟแปลงสำหรับช่วงเวลาต่าง ๆ (24 ชั่วโมงล่าสุด 7 วันล่าสุดเดือนสุดท้ายปีที่แล้ว) ผ่านทางปลั๊กอินสามารถตรวจสอบสิ่งต่าง ๆ ได้มากขึ้น มันออกเป็นหน้า HTML ที่มีกราฟสวย

Munin มีสถาปัตยกรรม master / node: nodes รวบรวมสถิติบนเซิร์ฟเวอร์และ master เก็บข้อมูลและสร้าง HTML และกราฟ

ฉันใช้Monitเพื่อติดตามกระบวนการทำงานและเริ่มต้นใหม่หรือแจ้งเตือนฉันเมื่อเกิดเงื่อนไขที่กำหนดได้ (โหลด cpu สูง, การใช้หน่วยความจำสูง, ไม่มีการตอบสนอง HTTP ฯลฯ ) Monit ยังสามารถตรวจสอบสิ่งทั่วไปเกี่ยวกับเซิร์ฟเวอร์เช่น cpu โหลดการใช้งานหน่วยความจำสถานะฮาร์ดดิสก์หรือการใช้ดิสก์

Monit จำเป็นต้องได้รับการกำหนดค่าสำหรับทุกบริการหรือฮาร์ดแวร์ที่คุณต้องการตรวจสอบและวิธีการตอบสนองเมื่อมีข้อผิดพลาดเกิดขึ้น ตัวเลือกที่ใช้มากที่สุดคือไม่ต้องทำอะไรส่งอีเมล์แจ้งเตือนหรือเริ่มบริการใหม่

Monit นั้นยอดเยี่ยมเมื่อใช้งานได้ แต่บางครั้งก็ไม่สามารถเริ่มหยุดหรือเริ่มบริการใหม่ได้และมีข้อมูลการวินิจฉัยไม่มากพอที่จะบอกคุณได้ว่าเกิดอะไรขึ้น นี่หมายความว่าคุณไม่ทราบว่าปัญหาเกิดขึ้นกับบริการของคุณหรือด้วยการกำหนดค่า Monit ซึ่งทำงานด้วยสภาพแวดล้อมที่มีความคล้ายคลึงกับ cron น้อยที่สุด

เครื่องมือทั้งสองจะมีให้ใช้งานตามค่าเริ่มต้นในการกระจาย Linux ส่วนใหญ่


8

ฉันประหลาดใจที่ไม่มีใครพูดถึงlogwatchหรือlogcheckสำหรับเซิร์ฟเวอร์ linux - ช่วยประหยัดเวลาในการอ่านบันทึก !!


เครื่องมือเหล่านั้นจะไม่ให้ตัวชี้วัดและอ่านแนวโน้มโครงสร้างพื้นฐานของคุณในระยะยาวได้อย่างแท้จริง พวกเขาเป็นการเพิ่มที่ดี แต่ฉันจะไม่พึ่งพาพวกเขา Afaik "logwatch" นั้นค่อนข้างร้ายกาจเพราะจะรายงานเฉพาะข้อผิดพลาดที่คุณบอกไว้ซึ่งตรงข้ามกับ "logcheck" ซึ่งคุณบอกเครื่องมือที่รู้จักกันดีและมันจะรายงานทุกอย่างอื่น
serverhorror


7

โครงการของเราใช้Gangliaสำหรับโหนดมากกว่า 100 โหนด เหตุผลหนึ่งที่เราใช้มันเป็นเพราะมันเป็นเครื่องมือการตรวจสอบที่มาพร้อมกับโขดหิน

สิ่งสำคัญคือเราต้องมีค่าใช้จ่ายที่ต่ำมากในแต่ละโหนดเพื่อให้มีทรัพยากรมากที่สุดเท่าที่จะเป็นไปได้สำหรับการคำนวณ Ganglia ช่วยให้เราเห็นภาพรวมที่ดีของคลัสเตอร์และช่วยให้เราสามารถเจาะลึกถึงแต่ละโหนดได้ถ้าต้องการ นอกจากนี้รู้ว่าเกิดอะไรขึ้นตอนนี้เราสามารถดูดีว่าเกิดอะไรขึ้นในชั่วโมงวันสัปดาห์เดือนและปีที่แล้ว กราฟของสถิติต่างๆนั้นเป็นพื้นฐานและใช้งานได้


6

ทุกอย่างขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย "ตรวจสอบ"!

  • มี (ระบบหรือบริการ) หรือไม่ เราใช้nagios
  • มันทำอะไรอยู่? เราใช้มินินสำหรับเซิร์ฟเวอร์ลินุกซ์และcactiสำหรับทุกสิ่งทุกอย่างแม้ว่ามันจะเป็นความเจ็บปวดในการกำหนดค่าบางครั้ง ...
  • มันทำอะไรลงไป? เราใช้ syslog-ng เพื่อรวม syslogs ในที่เดียวจากนั้นเรียกใช้สคริปต์ logcheck ที่กำหนดเองทุกวันเพื่อส่งรายงานทางอีเมล เรากำลังมองหาบางสิ่งที่คล้ายกันสำหรับเซิร์ฟเวอร์ Windows

5

ผู้เข้าร่วมใหม่ในที่เกิดเหตุเพื่อตรวจสอบการแข่งขันกับ Cacti และโซลูชั่นที่ใช้ RRDTool คือ Graphite ( http://graphite.wikidot.com/ )

RRDTool ถูกแทนที่ด้วยหน่วยเก็บข้อมูลสำรองที่เรียกว่า Whisper เอกสารให้ภาพรวมที่ดีว่าทำไมมันถึงแตกต่างและฉันชอบ CLI สำหรับการสร้างกราฟแบบเฉพาะกิจเมื่อตรวจสอบบางอย่าง


4

เราใช้ WhatsUpจากIpswitchสำหรับเครือข่าย Windows ที่ค่อนข้างเล็กของเรา ง่ายต่อการติดตั้งและจัดการได้ง่ายและรู้วิธีจัดการกับเซิร์ฟเวอร์ Windows รวมถึงสิ่งมาตรฐาน

สำหรับเครือข่ายขนาดใหญ่เครือข่ายที่ไม่ใช่ Windows ที่มุ่งเน้นหรือเครือข่ายที่มีจำนวนมากของสิ่งที่แตกต่างกันผมตุ้ยๆขอแนะนำOpenNMS ซอฟต์แวร์ OpenNMS หากฟรีและ บริษัท มีความสุขมากกว่าที่จะขายบริการสนับสนุนและการนำไปใช้งาน นอกจากนี้ยังเกิดขึ้นกับเพื่อนของฉันที่คมชัดจากวิทยาลัย!


4

สำหรับผู้ที่ไม่ชอบเว็บอินเตอร์เฟสของ Nagios นั่นคือNPCปลั๊กอินสำหรับ Cacti ที่ทำให้ Nagios UI พร้อมใช้งานจากภายใน Cacti แต่มีรูปลักษณ์ที่ดีกว่า (อาแจ็กซ์เป็นต้น)

มันอ่านจากฐานข้อมูลที่จัดทำโดยNDO2DBซึ่งเป็นวิธีที่ดีในการทำให้โครงสร้างพื้นฐานของคุณพร้อมใช้งานจากภายในฐานข้อมูลเพื่อใช้ในสคริปต์และเครื่องมืออื่น ๆ


4

ขณะนี้เราใช้ PRTG จากPaessler มันยอดเยี่ยมมาก ไม่ต้องใช้ตัวแทน, เว็บอินเตอร์เฟส Ajax ที่ยอดเยี่ยม, การบันทึกประวัติ, กราฟ, WMI ฯลฯ ฯลฯ มีรุ่นเซ็นเซอร์ 10 รุ่นให้ใช้งานฟรี แต่เราลดขนาดลงสองสามรุ่นสำหรับรุ่นองค์กร เงินใช้จ่ายอย่างดี


4

ฮอบบิท - มันเป็นรุ่นที่ยิ่งใหญ่กว่าของพี่ใหญ่เร็วขึ้น

http://hobbitmon.sourceforge.net/


นอกจากนี้เรายังใช้ฮอบบิทมันยอดเยี่ยมจัดการกับเซิร์ฟเวอร์กว่า 600+ ตัวพร้อมจอภาพ 10+ ตัวแต่ละตัวมีการอัพเดททุกนาที
MarkR

1
ฮอบบิทตอนนี้เรียกว่า Xymon hswn.dk/hobbiton/2008/11/msg00123.html
Clinton Blackmore

4

หากคุณกำลังรีบและต้องการเครื่องมือที่รวดเร็วในการตรวจสอบเซิร์ฟเวอร์ MS ของคุณจากนั้นใช้การตรวจสอบประสิทธิภาพสำหรับ windows ตั้งค่าการบันทึกเคาน์เตอร์ด้วยแม่แบบการตรวจสอบที่กำหนดเองและกำหนดเวลา custome (เช่น: รวบรวมข้อมูล 5 นาทีทุกชั่วโมง) จากนั้นดาวน์โหลด LogParser ของ Microsoft และเครื่องมือวิเคราะห์ประสิทธิภาพของบันทึก (PAL) ของ Codeplex ( http://pal.codeplex.com/ ) เพื่อบีบอัดตัวนับบันทึกของคุณ PAL จะสร้างรายงานที่มีเอกสารที่ยอดเยี่ยมพร้อมลิงก์ไปยังการแก้ไขปัญหาเอกสาร / เครื่องมือ


3

ฉันใช้การผสมผสานของ Solarwinds แท็บประสิทธิภาพของเซิร์ฟเวอร์ VMware และสคริปต์ที่กำหนดเอง

Solarwinds Orion Network Performance Monitor เป็นสิ่งที่ฉันใช้กับ Windows ของเรา ผู้ดูแลระบบบนเว็บเซิร์ฟเวอร์ของฉัน ยังคงได้รับเมตริกแอปที่มีประโยชน์บางตัวทำงานอยู่ แต่มีข้อมูลที่ดีเกี่ยวกับสิ่งที่ระดับกล่องพื้นฐาน (ดิสก์เครือข่าย CPU)

สำหรับแขก VMware ของฉันฉันชอบแท็บประสิทธิภาพ

สำหรับเซิร์ฟเวอร์ Sun ของฉันเมื่อฉันต้องการสิ่งที่ไม่มีใน Solarwinds (เนื่องจากผู้ดูแลระบบของเรายังไม่ได้เพิ่มหรืออะไร) ฉันเขียนสคริปต์ที่กำหนดเอง (มักจะเป็น Perl) เพื่อตรวจสอบสิ่งต่าง ๆ เช่นสุขภาพกระจกการใช้งาน swap ฯลฯ

ฉันต้องการได้รับเพิ่มเติมเกี่ยวกับ Solarwinds แต่มีเพียง 26 ชั่วโมงต่อวัน (หรือดังนั้นหัวหน้าของฉันเชื่อ) ดังนั้นฉันจึงพบว่าสามารถ จำกัด tad ...


3

เราใช้OpsViewซึ่งทำงานบน Nagios webUI ช่วยให้เราสามารถปรับใช้ข้อกำหนดการตรวจสอบโฮสต์ใหม่โดยไม่ต้องอนุญาตการเข้าถึง SSH แสดงมุมมองสาธารณะและบันทึกค่าประวัติ สิ่งนี้มีประโยชน์สำหรับการเตรียมและการกำหนดเส้นเขตแดนที่เหมาะสม



2

ขออภัยที่จะพูด แต่ฉันลงเอยด้วยการใช้สคริปต์ที่กำหนดเองจำนวนมาก ในขณะที่ห่างไกลจากอุดมคติฉันสงสัยว่ามีวิธีการแก้ปัญหาทั่วไปมากขึ้น


จะต้องมีสคริปต์ที่กำหนดเองเสมอ!
Techboy

2

เราได้เขียนซอฟต์แวร์การตรวจสอบของเราเอง รหัสของเราไม่ซับซ้อนเท่าแพ็คเกจเชิงพาณิชย์ แต่เราไม่ต้องการฟังก์ชันการทำงานมากนัก การเขียนของเราเองง่ายกว่าการตรวจสอบแพ็คเกจอื่น ๆ และเรียนรู้วิธีใช้งาน รหัสทำในสิ่งที่เราต้องการและขยายได้ง่าย


2
ฉันคิดว่ามันเป็นเรื่องสำคัญที่จะต้องคิดผ่านการตัดสินใจเช่นนี้ การเขียนอะไรบางอย่างจากศูนย์อาจไม่ได้ใช้ความพยายามมากนัก แต่การบำรุงรักษาถนนเป็นเรื่องที่ต้องทน
Adam

ฉันนึกภาพการบำรุงรักษาเป็นปัญหา แต่มันไม่ได้เกิดขึ้นกับเราแม้ว่าเราจะใช้ระบบนี้มาหลายปี เนื่องจากฐานรหัสมีขนาดเล็กและคุ้นเคยจึงเป็นเรื่องง่ายสำหรับเราที่จะเพิ่มฟังก์ชันการทำงานใหม่ตามที่ต้องการ การดูแลรักษาวิธีการแก้ปัญหาในเชิงพาณิชย์นอกจากนี้ยังอาจจะมีปัญหาในช่วงเวลา, การปลูกถ่ายอวัยวะชิ้นใหม่จากผู้ขายเมื่อผลิตภัณฑ์เดิมไม่ได้ทำทุกอย่างที่คุณต้องการ ฯลฯ
จอห์นดีคุก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.