ทักทาย,
ฉันต้องการถามความคิดเห็นของกลุ่มและมุมมองเกี่ยวกับระบบการตรวจสอบแบบกระจายคุณใช้อะไรและคุณตระหนักถึงสิ่งใดที่อาจทำเครื่องหมายในช่องของฉัน
ความต้องการค่อนข้างซับซ้อน
ไม่มีจุดล้มเหลวเดียว จริงๆ. ฉันตายไปแล้ว! ต้องสามารถทนต่อความล้มเหลวของโหนดเดี่ยว / หลายโหนดได้ทั้ง 'ต้นแบบ' และ 'ผู้ปฏิบัติงาน' และคุณอาจคิดว่าไม่มีตำแหน่งการตรวจสอบ ("ไซต์") ที่มีหลายโหนดอยู่ในนั้นหรืออยู่ในเครือข่ายเดียวกัน ดังนั้นสิ่งนี้อาจเป็นกฎของเทคนิค HA ดั้งเดิมเช่น DRBD หรือ Keepalive
ตรรกะการกระจายฉันต้องการที่จะปรับใช้ 5+ โหนดในหลายเครือข่ายภายในหลายศูนย์ข้อมูลและในหลายทวีป ฉันต้องการมุมมอง "Birds Eye" ของเครือข่ายและแอปพลิเคชันของฉันจากมุมมองของลูกค้าของฉันคะแนนโบนัสสำหรับตรรกะการตรวจสอบจะไม่จมเมื่อคุณมี 50+ โหนดหรือแม้กระทั่ง 500+ โหนด
ต้องมีความสามารถในการจัดการเช็คโฮสต์ / บริการจำนวนพอสมควรพอสมควรลากานิโอสำหรับตัวเลขของ ballpark ถือว่ามีโฮสต์ 1,500-2500 โฮสต์และบริการ 30 รายการต่อโฮสต์ มันจะดีมากถ้าเพิ่มโหนดการตรวจสอบมากขึ้นช่วยให้คุณสามารถขยายขนาดเชิงเส้นบางทีในเวลา 5 ปีฉันอาจมองตรวจสอบโฮสต์ 5000 และ 40 บริการต่อโฮสต์! เพิ่มในจากบันทึกของฉันข้างต้นเกี่ยวกับ 'ตรรกะกระจาย' มันจะดีที่จะพูดว่า:
- ในสถานการณ์ปกติการตรวจสอบเหล่านี้จะต้องทำงานบน $ n หรือ n% ของโหนดการตรวจสอบ
- หากตรวจพบความล้มเหลวให้รันการตรวจสอบในโหนดอื่น $ n หรือ n% ของโหนดเชื่อมโยงผลลัพธ์จากนั้นใช้เพื่อตัดสินใจว่าตรงตามเกณฑ์ที่จะออกการแจ้งเตือนหรือไม่
กราฟและคุณสมบัติการจัดการที่เป็นมิตร เราจำเป็นต้องติดตาม SLA ของเราและรู้ว่าแอปพลิเคชัน 'ที่พร้อมใช้งานสูง' ของเราเพิ่มขึ้น 24x7 หรือไม่นั้นมีประโยชน์บ้างไหม วิธีที่ดีที่สุดที่โซลูชันของคุณเสนอควรรายงาน "ออกนอกกรอบ" ด้วยคำสั่งน้อยที่สุด
ต้องมี API หรือระบบปลั๊กอินที่มั่นคงสำหรับการพัฒนาการตรวจสอบตามความต้องการ
จำเป็นต้องมีเหตุผลเกี่ยวกับการแจ้งเตือน ฉันไม่ต้องการรู้อย่างแน่นอน (ผ่านทาง SMS เวลาตี 3!) ว่าโหนดการตรวจสอบหนึ่งรายการคิดว่าเราเตอร์หลักของฉันไม่ทำงาน ฉันไม่ต้องการที่จะทราบว่าร้อยละที่กำหนดของพวกเขาเห็นว่าสิ่งที่ขี้ขลาดที่เกิดขึ้น;) เป็นหลักสิ่งที่ผมพูดเกี่ยวกับที่นี่คือ "องค์ประชุม" ตรรกะหรือการใช้สติที่จะบ้ากระจาย!
ฉันยินดีที่จะพิจารณาตัวเลือกทั้งในเชิงพาณิชย์และโอเพนซอร์สแม้ว่าฉันต้องการหลีกเลี่ยงซอฟต์แวร์ที่มีราคาหลายล้านปอนด์ :-) ฉันก็ยินดีที่จะยอมรับว่าอาจไม่มีอะไรออกมาซึ่งทำเครื่องหมายในช่องเหล่านั้นทั้งหมด แต่ อยากถามกลุ่มที่
เมื่อคิดถึงการตรวจสอบโหนดและการวางตำแหน่งให้ระลึกไว้ว่าส่วนใหญ่จะเป็นเซิร์ฟเวอร์เฉพาะบนเครือข่าย ISP แบบสุ่มและส่วนใหญ่อยู่นอกขอบเขตการควบคุมของฉัน โซลูชันที่ใช้ฟีด BGP และการแสดงตลกเครือข่ายที่ซับซ้อนอื่น ๆ อาจไม่เหมาะสม
ฉันควรจะชี้ให้เห็นว่าฉันได้ทำการประเมินปรับใช้หรือใช้อย่างหนัก / ปรับแต่งส่วนใหญ่ของโอเพ่นซอร์สรสชาติในอดีตรวมถึง Nagios, Zabbix และเพื่อน ๆ - พวกเขาไม่ใช่เครื่องมือที่เลวร้ายจริงๆ กระจาย "ด้านโดยเฉพาะอย่างยิ่งเกี่ยวกับตรรกะที่กล่าวถึงในคำถามของฉันและ 'อัจฉริยะ' การแจ้งเตือน
ยินดีที่จะชี้แจงจุดที่ต้องการ ไชโยพวกและ gals :-)