คำถามติดแท็ก monitoring

1
วิธีสร้างแดชบอร์ดส่วนกลางเพื่อตรวจสอบคลาวด์หลาย ๆ ตัว (Amazon และ Google)
ฉันกำลังมองหาผลิตภัณฑ์หรือบริการเดียวซึ่งสามารถใช้เป็นแผงควบคุมส่วนกลางเพื่อตรวจสอบโครงสร้างพื้นฐานคลาวด์ที่ให้บริการโดย Amazon Web Services และแพลตฟอร์ม Google Cloud นอกเหนือจากแอปพลิเคชัน ฉันกำลังดูตัวเลือกไม่กี่อย่างเช่น sensu ที่รองรับบริการทั้งหมดใน Amazon Web Servicesแต่ฉันไม่พบปลั๊กอินใด ๆ ในการตรวจสอบแพลตฟอร์ม Google Cloud มีบริการหรือผลิตภัณฑ์อื่นใดที่อนุญาตให้ฉันสร้างสิ่งนี้ความชอบของฉันคือโอเพ่นซอร์สหรือไม่ หมายเหตุ: ทุกคนสามารถเข้าถึง GCP และ AWS และหากใครเปิดตัวสิ่งใดสิ่งหนึ่งมันจะเป็นเรื่องง่ายที่จะมีแดชบอร์ดเดียวสำหรับการตรวจสอบ

3
ฉันจะแก้ไขปัญหาข้อมูลที่ขาดหายไปในฐานข้อมูลโพรได้อย่างไร
ฉันค่อยๆรวมโพรเมทเข้ากับเวิร์กโฟลว์การตรวจสอบของฉันเพื่อรวบรวมตัวชี้วัดโดยละเอียดเกี่ยวกับการเรียกใช้โครงสร้างพื้นฐาน ในระหว่างนี้ฉันสังเกตเห็นว่าฉันมักพบเจอกับปัญหาที่แปลกประหลาด: บางครั้งผู้ส่งออกที่โพรควรจะดึงข้อมูลจากไม่ตอบสนอง อาจเป็นเพราะการกำหนดค่าเครือข่ายไม่ถูกต้อง - ไม่สามารถเข้าถึงได้อีกต่อไป - หรือเพียงเพราะผู้ส่งออกขัดข้อง ไม่ว่าจะด้วยเหตุผลอะไรฉันก็พบว่าข้อมูลบางอย่างที่ฉันคาดว่าจะเห็นในโพรหายไปและไม่มีอะไรในซีรีส์ในช่วงระยะเวลาหนึ่ง บางครั้งผู้ส่งออกหนึ่งรายล้มเหลว (หมดเวลาหรือไม่) ดูเหมือนว่าจะทำให้ผู้อื่นล้มเหลว (การหมดเวลาครั้งแรกผลักงานทั้งหมดให้สูงกว่าการหมดเวลาระดับบนสุด ทั้งหมดที่ฉันเห็นคือช่องว่างในซีรีส์ดังที่แสดงในภาพข้อมูลด้านบน ไม่มีสิ่งใดในบันทึกเมื่อสิ่งนี้เกิดขึ้น ตัวชี้วัดโพรอีอุสเองก็ดูเหมือนจะแห้งแล้งเช่นกัน ฉันต้องรีสอร์ตพยายามทำซ้ำสิ่งที่โพรอุสกำลังทำอยู่และดูว่ามันหยุดอยู่ตรงไหน นี่มันช่างน่าเบื่อ จะต้องมีวิธีที่ดีกว่า! แม้ว่าฉันไม่ต้องการการแจ้งเตือนแบบเรียลไทม์ แต่อย่างน้อยฉันก็ต้องการเห็นว่าผู้ส่งออกไม่สามารถส่งข้อมูลได้ แม้แต่บูลีน "เฮ้ตรวจสอบข้อมูลของคุณ" จะเป็นการเริ่มต้น ฉันจะรับข้อมูลที่มีความหมายเกี่ยวกับโพรไม่สามารถรับข้อมูลจากผู้ส่งออกได้อย่างไร ฉันจะเข้าใจได้อย่างไรว่ามีช่องว่างโดยไม่ต้องทำการจำลองด้วยตนเองของการรวบรวมข้อมูลโพร อะไรคือวิธีปฏิบัติที่สมเหตุสมผลในเรื่องนี้บางทีแม้เมื่อขยายไปถึงการตรวจสอบการเก็บรวบรวมข้อมูลโดยทั่วไปนอกเหนือจากโพร?

2
วิธีการตรวจสอบ Jenkins สร้างหน่วยความจำอิสระของผู้ปฏิบัติการ?
ในเจนกินส์เมื่อคลิกที่สถานะรูปร่างปฏิบัติการฉันเท่านั้นที่สามารถดูสถิติที่เกี่ยวข้องกับพื้นที่ว่างในดิสก์ (URI: /computer) ฉันจะตรวจสอบหน่วยความจำระบบว่าง (RAM) ในเจนกินส์ได้อย่างไร ฉันถามเพราะบางครั้งเมื่อฉันมีตัวจัดการมากเกินไป (แม้ว่าจะมีการกำหนดค่าพื้นที่สว็อป แต่ไม่ใช่ด้านล่าง) เจนกินส์ก็หยุดนิ่งหรือพังมาก

1
อะไรคือคำว่า 'a Firehose' บนคลาวด์
ฉันพบคำนิยาม Firehose จากภาพรวมของเอกสาร Log Foundator System Cloud Foundry Firehose เป็นจุดปลาย WebSocket ที่ส่งข้อมูลเหตุการณ์ทั้งหมดที่มาจากการปรับใช้ Cloud Foundry สตรีมข้อมูลประกอบด้วยบันทึกเหตุการณ์ HTTP และเมตริกคอนเทนเนอร์จากแอปพลิเคชันทั้งหมดและตัวชี้วัดจากส่วนประกอบระบบ Cloud Foundry ทั้งหมด บันทึกจากองค์ประกอบของระบบเช่น Cloud Controller ไม่รวมอยู่ใน firehose และโดยทั่วไปจะเข้าถึงได้ผ่านการกำหนดค่า rsyslog เนื่องจากข้อมูลที่มาจาก Firehose อาจมีข้อมูลที่ละเอียดอ่อนเช่นข้อมูลลูกค้าในบันทึกของแอปพลิเคชันเฉพาะผู้ใช้ที่มีสิทธิ์ที่ถูกต้องเท่านั้นจึงสามารถเข้าถึง Firehose คำนี้มีรากฐานมาจากไหนและทำไมจึงเรียกว่าเป็นอย่างนั้น แนวคิดนี้เหมือนกันสำหรับข้อเสนอและแพลตฟอร์มคลาวด์อื่น ๆ หรือไม่? มันตลกเมื่อฉันแปลคำนี้เป็นภาษาของฉัน

4
ตรวจสอบความคืบหน้าของโปรแกรมบนเซิร์ฟเวอร์หลายเครื่อง
เรามีเซิร์ฟเวอร์สามตัวที่ใช้งานโปรแกรมหลามที่ใช้งานการวิเคราะห์ข้อมูลภายในtmuxเซสชัน วิธีที่เราใช้อยู่ในขณะนี้คือการเชื่อมต่อแต่ละtmuxเซสชันและดูผลลัพธ์บนบรรทัดคำสั่ง วิธีนี้น่าเบื่อดังนั้นสิ่งที่เรากำลังมองหาคือโซลูชันที่ทำการตรวจสอบความคืบหน้าของโปรแกรมโดยอัตโนมัติ (เอาต์พุตบน CLI) สำหรับเซิร์ฟเวอร์หลายเครื่องในเวลาเดียวกัน เราต้องการโซลูชัน web UI ที่เหมาะสม แต่ CLI ก็เหมาะสมเช่นกัน ขอบคุณสำหรับการอ่าน.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.