สำหรับรายการที่ครอบคลุมมากขึ้นของการตรวจสอบเครื่องมือและคุณสมบัติของพวกเขาตรวจสอบหน้าวิกิพีเดียนี้
ดังที่คำถามระบุเครื่องมือที่ใช้บ่อยที่สุดสำหรับงานนี้คืออะไรจุดแข็งและจุดอ่อนของพวกเขาคืออะไร
สำหรับรายการที่ครอบคลุมมากขึ้นของการตรวจสอบเครื่องมือและคุณสมบัติของพวกเขาตรวจสอบหน้าวิกิพีเดียนี้
ดังที่คำถามระบุเครื่องมือที่ใช้บ่อยที่สุดสำหรับงานนี้คืออะไรจุดแข็งและจุดอ่อนของพวกเขาคืออะไร
คำตอบ:
ฉันเคยใช้Nagiosมาก่อนในความสำเร็จ มันสามารถขยายได้มาก (ส่วนเสริมมากกว่า 200 รายการ) ใช้งานง่ายและมีรายงานจำนวนมาก ค่าลบจะเป็นการตั้งค่าเริ่มต้น
Cactiเป็นส่วนหน้าเว็บที่ดีมากสำหรับRRDToolซึ่งให้กราฟและสถิติที่มีประโยชน์มาก rrdtoolเป็นส่วนหนึ่งที่รวบรวมข้อมูลจากหลายระบบและตรวจสอบความหลากหลายของข้อมูลทางเทคนิค
เรากำลังใช้โซลูชัน cacti / RRDTool เพื่อตรวจสอบระบบ Unix และ Windows เราได้รับตัวชี้วัดที่มีประโยชน์มากมายเช่นโหลด, การใช้งาน CPU / RAM, พื้นที่ HD, ผู้ใช้ที่เข้าสู่ระบบ, ปริมาณการใช้เครือข่าย, กระบวนการทำงานและอื่น ๆ
คุณจะพบข้อมูลเพิ่มเติมเกี่ยวกับ cacti บนCacti คืออะไร หน้า.
ส่วนตัวแล้วฉันชอบMuninซึ่งง่ายต่อการติดตั้งและเขียนปลั๊กอินเนื่องจากมีสถาปัตยกรรมที่ตรงไปตรงมามาก มีปลั๊กอินจำนวนมากอยู่แล้วสำหรับวัตถุประสงค์ทั้งหมดที่คุณสามารถจินตนาการได้ดังนั้นคุณอาจไม่ต้องเขียนปลั๊กอินในตอนแรก
นอกจากนี้ยังมีกราฟที่สวยงามและตัวเลือกในการกำหนดค่าการแจ้งเตือน (ขั้นพื้นฐานมาก)
Zabbix มันเป็นโอเพ่นซอร์สและติดตั้งและปรับแต่งได้ง่ายพอสมควร เรามีสคริปต์การตรวจสอบที่กำหนดเองจำนวนมากที่ป้อนเข้าสู่เซิร์ฟเวอร์ zabbix แต่ดูแลการรวบรวมข้อมูลนั้นอย่างเหมาะสมแสดงการแจ้งเตือน (อีเมล, IM, SMS, twitter ฯลฯ ) และอื่น ๆ
ฉันทำสิ่งที่ลึกล้ำของSpiceworksที่ บริษัท ของเราและเราพบว่ามันเป็นเครื่องมือที่ยอดเยี่ยมไม่เพียง แต่สำหรับการตรวจสอบเซิร์ฟเวอร์ แต่ยังมีทุกอย่างในเครือข่าย
มันทำสิ่งต่าง ๆ เช่นสินค้าคงคลังอัตโนมัติและการตรวจสอบที่กำหนดเองเพื่อส่งอีเมลถึงคุณเมื่อมีปัญหา (EG: เครื่องพิมพ์ลดลงเหลือ 10% ของหมึกหรือฮาร์ดไดรฟ์ของเซิร์ฟเวอร์นี้มี 20%)
ข้อเสียของมันอาจจะเป็นความหนาแน่นของข้อมูลต่อคอมพิวเตอร์อย่าเข้าใจผิดว่ามันมีข้อมูลจำนวนมากต่อเครื่อง แต่สำหรับสิ่งต่าง ๆ เช่นเซิร์ฟเวอร์ที่คุณอาจต้องการสถิติจำนวนมากคุณอาจต้องใช้เครื่องมืออื่น
แก้ไข:โอ้ฉันพูดถึงรูปแบบธุรกิจที่เป็นพื้นฐานของมันเป็นอิสระตลอดไป
การสูบบุหรี่ไม่เพียง แต่ตรวจสอบความพร้อมใช้งานของเซิร์ฟเวอร์และบริการต่าง ๆ แต่ยังติดตามความล่าช้าในขณะที่ให้ใช้งานง่ายดูดีและรวดเร็วในการแสดงกราฟ
มีปลั๊กอินเสริมสำหรับการวัดระยะแฝงหลากหลายรูปแบบให้เลือกใช้งาน หากคุณรู้จัก Perl บางอย่างมันเป็นเรื่องง่ายที่จะสร้างสิ่งใหม่สำหรับความต้องการแปลกใหม่
การติดตั้งขนาดใหญ่จะได้รับประโยชน์จากระบบ Master / Slave สำหรับการวัดแบบกระจาย
ระบบแจ้งเตือนที่กำหนดค่าได้สูงจะช่วยให้คุณสังเกตเห็นปัญหาก่อนที่พวกเขาจะเริ่มส่งผลกระทบต่อผู้ใช้หรือพัฒนาไปสู่การหยุดทำงานที่สำคัญ
Smokeping ให้บริการฟรีและ OpenSource Software เขียนด้วย Perl โดย Tobi Oetiker ผู้สร้าง MRTG และ RRDtool
OpenNMSใช้ในที่ที่ฉันทำงานเพื่อตรวจสอบมากกว่าหนึ่งพันเครื่อง Linux เราตรวจสอบฮาร์ดแวร์ของแต่ละเครื่องและแอปพลิเคชันที่ทำงานอยู่
Zenoss Coreนั้นมีประโยชน์บางอย่างเราใช้มัน (ประมาณหนึ่งปี) สำหรับการตรวจสอบสถานะเซิร์ฟเวอร์สวิตช์เน็ตเวิร์กและ UPS
Zenoss Core เป็นผลิตภัณฑ์ตรวจสอบไอทีโอเพ่นซอร์สที่ได้รับรางวัลซึ่งจัดการการกำหนดค่าสุขภาพและประสิทธิภาพของเครือข่ายเซิร์ฟเวอร์และแอพพลิเคชั่นอย่างมีประสิทธิภาพผ่านแพคเกจซอฟต์แวร์เดียว
Nagios นั้นยอดเยี่ยมเพราะมันฟรีและมีปลั๊กอินให้ใช้มากมาย อย่างไรก็ตาม UI และการกำหนดค่านั้นยากมาก
มันตรงข้ามกับ pro / con ที่ยอดเยี่ยมเช่นกันคือ Microsoft System Center Operations Manager (SCOM) ซึ่งไม่ฟรีมีปลั๊กอินน้อยกว่า แต่การตั้งค่าและการกำหนดค่านั้นยอดเยี่ยมและใช้งานง่าย
ฉันต้องยอมรับว่าฉันอยู่ใน บริษัท Microsoft เป็นหลักมีความต้องการการพึ่งพาสูงมาก (เช่นไม่สามารถตรวจสอบได้ว่ามีการหยุดพัก) หรือต้องคิดว่าจะให้นักพัฒนาทำงานร่วมกับมันแล้ว SCOM จะเป็นคำแนะนำของฉันต่อ Nagios
ฉันเคยใช้:
เราใช้AlertFoxตั้งแต่ไม่กี่สัปดาห์และมีความสุขมาก ไม่เพียงตรวจสอบสถานะการออนไลน์และประสิทธิภาพของเรา แต่ยังตรวจสอบตะกร้าสินค้าการเข้าสู่ระบบของผู้ใช้และส่วนที่สำคัญอื่น ๆ ของเว็บไซต์ผ่านสคริปต์ธุรกรรม (ตาม iMacros)
สำหรับการตรวจสอบ (ดิสก์ ฯลฯ พื้นที่) ภายในของเราเราใช้Nagios
การตรวจสอบเครือข่าย PRTG - ไม่สามารถพูดสิ่งที่ดีเกี่ยวกับเรื่องนี้ได้ ส่วนหน้าเว็บที่ยอดเยี่ยมและยอดเยี่ยมโดยเฉพาะอย่างยิ่งสำหรับการตรวจสอบเราเตอร์ (แบนด์วิดธ์ ฯลฯ ) และอุปกรณ์อื่น ๆ ผ่าน SNMP และการวัดเวลาใช้งานของ SLA เป็นต้น
www.paessler.com
ในฐานะที่เป็นคน Windows, MOM เรากำลังมองหาการอัปเกรดเป็น Systems Center Operations Manager (SCOM) แต่ไม่จำเป็นต้องใช้จนกว่าเราจะเริ่มปรับใช้ Windows 2008
ฉันเป็นส่วนหนึ่งของโครงการอัพเกรดการตรวจสอบการปฏิบัติงาน เรามีผู้ค้าหลายรายเข้ามาในสถานที่เพื่อนำเสนอระบบดอลล่าร์ขนาดใหญ่ไม่กี่แห่งและผสมในทางเลือกที่ถูกกว่าเพื่อเปรียบเทียบ
หนึ่งในนั้นคือHypericซึ่งมีให้ในรูปแบบของโอเพ่นซอร์สฟรี ฉันประทับใจในความสามารถที่มีให้และความสามารถที่เพิ่มขึ้นสำหรับตัวแทนที่กำหนดเอง
สำหรับสถิติการตรวจสอบ (ใช้หน่วยความจำ, โหลดกิจกรรม MySQL, Apache กิจกรรมอื่น ๆ ) ผมใช้Munin ออกจากกล่องแล้วติดตามสิ่งต่าง ๆ มากมายและกราฟแปลงสำหรับช่วงเวลาต่าง ๆ (24 ชั่วโมงล่าสุด 7 วันล่าสุดเดือนสุดท้ายปีที่แล้ว) ผ่านทางปลั๊กอินสามารถตรวจสอบสิ่งต่าง ๆ ได้มากขึ้น มันออกเป็นหน้า HTML ที่มีกราฟสวย
Munin มีสถาปัตยกรรม master / node: nodes รวบรวมสถิติบนเซิร์ฟเวอร์และ master เก็บข้อมูลและสร้าง HTML และกราฟ
ฉันใช้Monitเพื่อติดตามกระบวนการทำงานและเริ่มต้นใหม่หรือแจ้งเตือนฉันเมื่อเกิดเงื่อนไขที่กำหนดได้ (โหลด cpu สูง, การใช้หน่วยความจำสูง, ไม่มีการตอบสนอง HTTP ฯลฯ ) Monit ยังสามารถตรวจสอบสิ่งทั่วไปเกี่ยวกับเซิร์ฟเวอร์เช่น cpu โหลดการใช้งานหน่วยความจำสถานะฮาร์ดดิสก์หรือการใช้ดิสก์
Monit จำเป็นต้องได้รับการกำหนดค่าสำหรับทุกบริการหรือฮาร์ดแวร์ที่คุณต้องการตรวจสอบและวิธีการตอบสนองเมื่อมีข้อผิดพลาดเกิดขึ้น ตัวเลือกที่ใช้มากที่สุดคือไม่ต้องทำอะไรส่งอีเมล์แจ้งเตือนหรือเริ่มบริการใหม่
Monit นั้นยอดเยี่ยมเมื่อใช้งานได้ แต่บางครั้งก็ไม่สามารถเริ่มหยุดหรือเริ่มบริการใหม่ได้และมีข้อมูลการวินิจฉัยไม่มากพอที่จะบอกคุณได้ว่าเกิดอะไรขึ้น นี่หมายความว่าคุณไม่ทราบว่าปัญหาเกิดขึ้นกับบริการของคุณหรือด้วยการกำหนดค่า Monit ซึ่งทำงานด้วยสภาพแวดล้อมที่มีความคล้ายคลึงกับ cron น้อยที่สุด
เครื่องมือทั้งสองจะมีให้ใช้งานตามค่าเริ่มต้นในการกระจาย Linux ส่วนใหญ่
ฉันประหลาดใจที่ไม่มีใครพูดถึงlogwatchหรือlogcheckสำหรับเซิร์ฟเวอร์ linux - ช่วยประหยัดเวลาในการอ่านบันทึก !!
ฉันใช้Pingdomเพื่อตรวจสอบสถานะเซิร์ฟเวอร์ของฉัน มันส่งข้อความ SMS ถึงฉันเมื่อเซิร์ฟเวอร์ไม่สามารถเข้าถึงได้
โครงการของเราใช้Gangliaสำหรับโหนดมากกว่า 100 โหนด เหตุผลหนึ่งที่เราใช้มันเป็นเพราะมันเป็นเครื่องมือการตรวจสอบที่มาพร้อมกับโขดหิน
สิ่งสำคัญคือเราต้องมีค่าใช้จ่ายที่ต่ำมากในแต่ละโหนดเพื่อให้มีทรัพยากรมากที่สุดเท่าที่จะเป็นไปได้สำหรับการคำนวณ Ganglia ช่วยให้เราเห็นภาพรวมที่ดีของคลัสเตอร์และช่วยให้เราสามารถเจาะลึกถึงแต่ละโหนดได้ถ้าต้องการ นอกจากนี้รู้ว่าเกิดอะไรขึ้นตอนนี้เราสามารถดูดีว่าเกิดอะไรขึ้นในชั่วโมงวันสัปดาห์เดือนและปีที่แล้ว กราฟของสถิติต่างๆนั้นเป็นพื้นฐานและใช้งานได้
ทุกอย่างขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย "ตรวจสอบ"!
ผู้เข้าร่วมใหม่ในที่เกิดเหตุเพื่อตรวจสอบการแข่งขันกับ Cacti และโซลูชั่นที่ใช้ RRDTool คือ Graphite ( http://graphite.wikidot.com/ )
RRDTool ถูกแทนที่ด้วยหน่วยเก็บข้อมูลสำรองที่เรียกว่า Whisper เอกสารให้ภาพรวมที่ดีว่าทำไมมันถึงแตกต่างและฉันชอบ CLI สำหรับการสร้างกราฟแบบเฉพาะกิจเมื่อตรวจสอบบางอย่าง
เราใช้ WhatsUpจากIpswitchสำหรับเครือข่าย Windows ที่ค่อนข้างเล็กของเรา ง่ายต่อการติดตั้งและจัดการได้ง่ายและรู้วิธีจัดการกับเซิร์ฟเวอร์ Windows รวมถึงสิ่งมาตรฐาน
สำหรับเครือข่ายขนาดใหญ่เครือข่ายที่ไม่ใช่ Windows ที่มุ่งเน้นหรือเครือข่ายที่มีจำนวนมากของสิ่งที่แตกต่างกันผมตุ้ยๆขอแนะนำOpenNMS ซอฟต์แวร์ OpenNMS หากฟรีและ บริษัท มีความสุขมากกว่าที่จะขายบริการสนับสนุนและการนำไปใช้งาน นอกจากนี้ยังเกิดขึ้นกับเพื่อนของฉันที่คมชัดจากวิทยาลัย!
สำหรับผู้ที่ไม่ชอบเว็บอินเตอร์เฟสของ Nagios นั่นคือNPCปลั๊กอินสำหรับ Cacti ที่ทำให้ Nagios UI พร้อมใช้งานจากภายใน Cacti แต่มีรูปลักษณ์ที่ดีกว่า (อาแจ็กซ์เป็นต้น)
มันอ่านจากฐานข้อมูลที่จัดทำโดยNDO2DBซึ่งเป็นวิธีที่ดีในการทำให้โครงสร้างพื้นฐานของคุณพร้อมใช้งานจากภายในฐานข้อมูลเพื่อใช้ในสคริปต์และเครื่องมืออื่น ๆ
ฮอบบิท - มันเป็นรุ่นที่ยิ่งใหญ่กว่าของพี่ใหญ่เร็วขึ้น
หากคุณกำลังรีบและต้องการเครื่องมือที่รวดเร็วในการตรวจสอบเซิร์ฟเวอร์ MS ของคุณจากนั้นใช้การตรวจสอบประสิทธิภาพสำหรับ windows ตั้งค่าการบันทึกเคาน์เตอร์ด้วยแม่แบบการตรวจสอบที่กำหนดเองและกำหนดเวลา custome (เช่น: รวบรวมข้อมูล 5 นาทีทุกชั่วโมง) จากนั้นดาวน์โหลด LogParser ของ Microsoft และเครื่องมือวิเคราะห์ประสิทธิภาพของบันทึก (PAL) ของ Codeplex ( http://pal.codeplex.com/ ) เพื่อบีบอัดตัวนับบันทึกของคุณ PAL จะสร้างรายงานที่มีเอกสารที่ยอดเยี่ยมพร้อมลิงก์ไปยังการแก้ไขปัญหาเอกสาร / เครื่องมือ
ฉันใช้การผสมผสานของ Solarwinds แท็บประสิทธิภาพของเซิร์ฟเวอร์ VMware และสคริปต์ที่กำหนดเอง
Solarwinds Orion Network Performance Monitor เป็นสิ่งที่ฉันใช้กับ Windows ของเรา ผู้ดูแลระบบบนเว็บเซิร์ฟเวอร์ของฉัน ยังคงได้รับเมตริกแอปที่มีประโยชน์บางตัวทำงานอยู่ แต่มีข้อมูลที่ดีเกี่ยวกับสิ่งที่ระดับกล่องพื้นฐาน (ดิสก์เครือข่าย CPU)
สำหรับแขก VMware ของฉันฉันชอบแท็บประสิทธิภาพ
สำหรับเซิร์ฟเวอร์ Sun ของฉันเมื่อฉันต้องการสิ่งที่ไม่มีใน Solarwinds (เนื่องจากผู้ดูแลระบบของเรายังไม่ได้เพิ่มหรืออะไร) ฉันเขียนสคริปต์ที่กำหนดเอง (มักจะเป็น Perl) เพื่อตรวจสอบสิ่งต่าง ๆ เช่นสุขภาพกระจกการใช้งาน swap ฯลฯ
ฉันต้องการได้รับเพิ่มเติมเกี่ยวกับ Solarwinds แต่มีเพียง 26 ชั่วโมงต่อวัน (หรือดังนั้นหัวหน้าของฉันเชื่อ) ดังนั้นฉันจึงพบว่าสามารถ จำกัด tad ...
เราใช้OpsViewซึ่งทำงานบน Nagios webUI ช่วยให้เราสามารถปรับใช้ข้อกำหนดการตรวจสอบโฮสต์ใหม่โดยไม่ต้องอนุญาตการเข้าถึง SSH แสดงมุมมองสาธารณะและบันทึกค่าประวัติ สิ่งนี้มีประโยชน์สำหรับการเตรียมและการกำหนดเส้นเขตแดนที่เหมาะสม
Zabbix ( http://www.zabbix.com ) เป็นสิ่งที่ดีเช่นกันและติดตั้งง่ายกว่า Nagios
ขออภัยที่จะพูด แต่ฉันลงเอยด้วยการใช้สคริปต์ที่กำหนดเองจำนวนมาก ในขณะที่ห่างไกลจากอุดมคติฉันสงสัยว่ามีวิธีการแก้ปัญหาทั่วไปมากขึ้น
เราได้เขียนซอฟต์แวร์การตรวจสอบของเราเอง รหัสของเราไม่ซับซ้อนเท่าแพ็คเกจเชิงพาณิชย์ แต่เราไม่ต้องการฟังก์ชันการทำงานมากนัก การเขียนของเราเองง่ายกว่าการตรวจสอบแพ็คเกจอื่น ๆ และเรียนรู้วิธีใช้งาน รหัสทำในสิ่งที่เราต้องการและขยายได้ง่าย