แม้ว่าจะเป็นการโพสต์เก่า แต่การตอบกลับตอนนี้เพราะฉันรู้ว่าค่าเกณฑ์ check_load กำลังปวดหัวครั้งใหญ่สำหรับมือใหม่ .. ;)
การแจ้งเตือนหาก CPU 70% เป็นเวลา 5 นาที 60% เป็นเวลา 10 นาที 50% เป็นเวลา 15 นาที การแจ้งเตือนที่สำคัญหาก CPU 90% เป็นเวลา 5 นาที 80% สำหรับ 10 นาที 70% เป็นเวลา 15 นาที
*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*
การค้นพบทั้งหมดของฉันเกี่ยวกับการโหลด CPU:
"โหลด" มีความหมายอะไร: Wikipedia พูดว่า:
ระบบที่เหมือน Unix และ Unix ทั้งหมดสร้างตัวชี้วัดของตัวเลข "โหลดเฉลี่ย" สามตัวในเคอร์เนล ผู้ใช้สามารถสืบค้นผลลัพธ์ปัจจุบันจาก Unix shell ได้อย่างง่ายดายโดยการรันคำสั่ง uptime:
$ uptime
14:34:03 up 10:43, 4 users, load average: 0.06, 0.11, 0.09
จากค่าเฉลี่ยของเอาต์พุตโหลดด้านบน: 0.06, 0.11, 0.09
หมายถึง (บนระบบ CPU เดียว):
- ในช่วงนาทีสุดท้ายซีพียูมีปริมาณน้อยกว่า 6%
- ในช่วง 5 นาทีที่ผ่านมาซีพียูทำงานหนักเกินไป 11%
- ในช่วง 15 นาทีที่ผ่านมาซีพียูทำงานหนักเกินไป 9%
.
$ uptime
14:34:03 up 10:43, 4 users, load average: 1.73, 0.50, 7.98
ค่าเฉลี่ยการโหลดข้างต้นของ1.73 0.50 7.98
บนระบบ CPU เดียวเป็น:
- ในช่วงนาทีสุดท้าย CPU ถูกโหลดมากถึง 73% (1 CPU ที่มีกระบวนการที่รันได้ 1.73 ดังนั้น 0.73 กระบวนการต้องรอให้ถึงตาแหน่ง)
- ในช่วง 5 นาทีที่ผ่านมาซีพียูทำงานหนัก 50% (ไม่มีกระบวนการใดที่ต้องรอการเปิด)
- ในช่วง 15 นาทีที่ผ่านมาซีพียูมากเกินไป 698% (1 ซีพียูที่มีกระบวนการที่รันได้ 7.98 ดังนั้น 6.98 กระบวนการต้องรอให้ถึงตาแหน่ง)
การคำนวณค่าเกณฑ์ Nagios:
สำหรับการตั้งค่าโหลด CPU ของ Nagios ซึ่งรวมถึงคำเตือนและที่สำคัญ
y = c * p / 100
ที่ไหน:
y = nagios value
c = number of cores
p = wanted load procent
สำหรับระบบ 4 คอร์:
time 5 min 10 min 15 min
warning: 90% 70% 50%
critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
สำหรับระบบแกนเดียว:
y = p / 100
ที่ไหน:
y = nagios value
p = wanted load procent
time 5 min 10 min 15 min
warning: 70% 60% 50%
critical: 90% 80% 70%
command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
กระดาษสีขาวที่ยอดเยี่ยมเกี่ยวกับการวิเคราะห์การโหลดของ CPU โดย Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf
ในบทความออนไลน์นี้ Dr. Gunther ขุดลงในเคอร์เนล UNIX เพื่อหาว่าโหลดเฉลี่ย ( “ LA Triplets”) มีการคำนวณและเหมาะสมว่าเป็นตัวชี้วัดการวางแผนกำลังการผลิต
standard
หรือมีtested
ค่า ขึ้นอยู่กับปริมาณงานเซิร์ฟเวอร์ที่คุณคาดหวัง หากคุณคาดว่าจะโหลดสูงคุณควรเพิ่มค่า มิฉะนั้นเซิร์ฟเวอร์ของคุณจะปรากฏในสถานะวิกฤติเสมอ